Projections orthogonales

Cette page suppose connue la notion de distance d'un point à un sous-ensemble dans un espace métrique.
le théorème de projection orthogonale sur un convexe, que nous présentons ici, est un résultat de minimisation de la distance dont le principal corollaire est l'existence d'un supplémentaire orthogonal, donc d'une projection orthogonale sur un sous-espace vectoriel.
Il possède de nombreuses applications, en analyse fonctionnelle, en algèbre linéaire, en théorie des jeux, pour la modélisation mathématiques des sciences économiques ou encore pour l'optimisation linéaire.

Ensemble convexe

La notion d'ensemble convexe est défini dans le cadre de tout espace affine, voir par exemple mon cours de géométrie, donc en particulier de tout espace vectoriel.
Nous rappelons la définition d'un ensemble convexe dans un tel espace.

Dans un espace affine, un ensemble est dit convexe, si chaque fois qu'il contient deux points x et y il contient tout le segment joignant ces deux points, c'est à dire l'ensemble des points z=tx+(1-t)y avec t∈ℝ et t∈[0,1].

Pour des compléments et des illustrations, voir par exemple cette page ou encore celle-ci.
Il résulte de cette définition qu'en particulier, les variétés linéaires, donc dans le cas des espaces vectoriels, les sous-espaces vectoriels, sont des ensembles convexes.

L'énoncé général du théorème

Ce résultat concerne les espaces pré-hilbertiens réels. E désigne un tel espace et C une partie convexe de E. On suppose en outre que C est complet et non vide. Dans ces conditions :

Pour tout point x de E il existe un unique point PC(x) de C dit 'projection de x sur le convexe C' vérifiant les deux conditions équivalentes suivantes :

  1. ∀ y ∈ C ||x-PC(x)|| ≤ ||x-y||
  2. ∀ y ∈ C (x-PC(x)|y-PC(x)) ≤ 0

Remarquons que si E est un espace de Hilbert, c'est à dire s'il est complet, la condition que C est complet équivaut au fait qu'il est fermé. L'énoncé peut être vu ainsi : PC(x) est le point de C qui est le plus près de x, on l'appelle parfois la meilleure approximation de x dans C.
Ce point de vue domine dans la pseudo-résolution des systèmes linéaires dits sur-déterminés pour lesquels la théorie affirme qu'il n'y a pas de solution exacte.

  • Existence et unicité de PC(x) vérifiant 1.
  • Soit δ la distance de x à C. Pour tout entier n>0 désignons par Fn la boule fermée de centre x et de rayon δ+1/n. Montrons que le diamètre de Fn tend vers 0.
    Soient y et z deux points de Fn. D'après l'identité du parallélogramme, nous avons :
    $$4\left ( \delta +\frac{1}{n} \right )^{2}\geq 2\left \| y-x \right \|^{2}+2\left \| z-x \right \|^{2}=\left \| y+z-2x \right \|
    ^{2}+\left \| y-z \right \|^{2}$$
    qui se réécrit :
    $$\left \| y-z \right \|^{2}\leqslant 4\left ( \delta +\frac{1}{n} \right )^{2}-4\left \| \frac{y+z}{2}-x \right \|^{2}$$
    En remarquant que le milieu de y et z est un point de C donc situé à une distance de x supérieure où égale à δ.
    On obtient alors :
    $$\left \| y-z \right \|^{2}\leqslant 4\left ( \delta +\frac{1}{n} \right )^{2}-4\delta ^{2}=\frac{8\delta }{n}+\frac{4}{n^{2}}$$
    qui permet de conclure.
    On voit alors que les Fn forment une suite décroissante de fermés dont les diamètres tendent vers 0. Donc, d'après le théorème sur les fermés emboîtés leur intersection se réduit à un point qui est bien le point PC(x) cherché vérifiant la condition 1.

  • 1. ⇒ 2.
  • Soit y un élément de C et t un réel t∈]0,1[. Alors le barycentre ty+(1-t)PC(x) est un élément du segment [x,y]donc un point de C d'après la convexité de C.
    Compte tenu du fait que PC(x) vérifie la propriété 1. on a :
    $$\left \| x-P_{C}\left ( x \right ) \right \|^{2}\leqslant \left \| x-P_{C}\left ( x \right ) -t\left ( y-P_{C}\left ( x \right ) \right )\right \|^{2}$$
    qui donne :
    $$2t\left ( x-P_{C}\left ( x \right )|y-P_{C}\left ( x \right ) \right )\leqslant \theta ^{2}\left \| y-P_{C}\left ( x \right ) \right \|^{2}$$
    Il suffit alors de diviser par t puis de passer à la limite quand t tend vers 0 par valeurs positives.

  • 2. ⇒ 1.
  • $$\left \| x-y \right \|^{2}=\left \| x-P_{C}\left ( c \right ) \right \|^{2}-2\left ( x-P_{C}\left ( x \right )|y-P_{C}\left ( x \right ) \right )+\left \| y-P_{C}\left ( x \right ) \right \|^{2}\geqslant \left \| x-P_{C}\left ( x \right ) \right \|^{2}$$


Voici une appliquette qui visualise ce résultat dans le cas où le convexe est constitué par l'intérieur d'un triangle. Le point M est déplaçable avec la souris.


En voici une autre où le convexe C est l'intérieur d'une ellipse E. Le point M est déplaçable à l'extérieur de l'ellipse, et le point N est déplaçable à l'intérieur de l'ellipse. P est la projection de M sur C. On voit que nécessairement (MN) est la normale à l'ellipse passant par M. Sur la figure on a représenté la tangente en P à E. On désigne par I le point d'intersection de cette tangente avec le segment [MN]. Alors MN≥MI de façon évidente et MI≥MP par Pythagore. Donc dans tous les cas MN≥MP.

Projection sur un sous-espace complet

Nous nous concentrons maintenant sur le cas où, E désignant toujours un espace pré-hilbertien, F est un sous-espace complet de E. En pratique E sera souvent un espace de Banach et F un sous-espace fermé de E, par exemple un sous-espace de dimension finie.
En particulier, dans le cas réel, F aura la propriété de convexité et le résultat précédent s'appliquera en toute généralité.
Nous allons maintenant étendre ce résultat aux espaces complexes, mais avec une restriction, on projettera seulement sur des sous-espaces.
Le résultat principal est le suivant :

Pour tout point x de E il existe un point et un seul y=PF(x) tel que ||x-y||=d(x,F).

La démonstration est identique en tout point à celle ci-dessus dans laquelle on utilise simplement le fait que le milieu de y et z est un point de F parce que F est un sous-espace et non plus par un argument de convexité.

Avec les notations du théorème précédent, le point PF(x) est le seul point z∈F tel que x-z soit orthogonal à F.
Soit y=PF(x) et soit z un vecteur non nul de F. On pose α=d(x,F). On a donc pour tout scalaire λ≠0 ||x-(y+λz)||2>0 qui nous donne par définition de la norme et propriété des produits scalaires :
$$2\lambda \mathfrak{Re}(x-y|z)+\lambda ^{2}\left \| z \right \|^{2}> 0$$
et, par un choix convenable de λ, on aboutit à une contradiction si $\mathfrak{Re}\left ( x-y|z \right )\neq 0$.
Par suite $\mathfrak{Re}\left ( x-y|z \right ) = 0$.
Si e est un espace complexe en remplaçant z par iz on obtient $\mathfrak{Im}\left ( x-y|z \right ) = 0$ et donc (x-y|z)=0 dans tous les cas. Soit maintenant y' tel que x-y' soit orthogonal à F.
Alors, pour tout z≠0 dans F, on a ||x-(y'+z)||2=||x-y'||2+||z||2 d'après le théorème de Pythagore et ceci prouve que y'=y d'après la caractérisation antérieure de y.

L'application x → PF(x) de E sur F est linéaire, continue et de norme 1 si F≠{0}. Son noyau F'=PF-1({0}) est le sous-espace orthogonal à F et e est somme directe topologique de F et F'. Enfin, F est le sous-espace orthogonal à F'.
Si x-y et x'-y' sont orthogonaux à F, alors λx-λy est orthogonal à F et il en est de même de (x+x')-(y+y')=(x-y)+(x'-y') ; comme (y+y')∈F et λy∈F, ceci montre que y+y'=PF(x+x') et λy=PF(λx), d'où la linéarité de PF.
D'après le théorème de Pythagore on a ||x||2=||PF(x)||2+||x-PF(x)||2 et ceci prouve que ||PF(x)||≤||x|| donc que PF est continue et a une norme ≤ 1 ; mais comme PF(x)=x pour tout x∈F on a ||PF||=1 si F n'est pas réduit à {0}.
La définition de PF implique que F'=PF-1({0}) est formé des vecteurs x orthogonaux à F. Comme x=PF(x)+(x-PF(x)) et que x-PF(x)∈F' pour tout x∈E, on a E=F+F'.
De plus si x∈F∩F', x est isotrope, donc x=0, ce qui montre que la somme F+F' est directe. En outre, l'application PF étant continue E est la somme directe topologique de F et F'.
Enfin, si x est orthogonal à F' on a (x|x-PF(x))=0, mais on a aussi (PF(x)|x-PF(x))=0 donc ||x-PF(x)||2=0, c'est à dire x=PF(x).

L'application linéaire PF est appelée, la projection orthogonale de E sur F, et son noyau F' est le supplémentaire orthogonal de F dans E.

E désigne toujours un espace pré-hilbertien. Le théorème qui suit est connu sous le nom de théorème de Fréchet-Riesz.

Pour tout a∈E, x →(x|a) est une forme linéaire continue de norme ||a||. Réciproquement, si E est complet, c'est à dire si c'est un espace de Hilbert pour toute forme linéaire continue u sur E il existe un vecteur unique a∈E, tel que u(x=(x|a) pour tout x∈E.
D'après Cauchy-Schwarz, |(x|a)|≤||a||.||x||, ce qui montre que x → (x|a) est continue et a une norme ≤||a||. D'autre part, si a≠0 et si x0=a/||a||, x0 est un vecteur de norme 1 et (x0|a) =||a||. ceci montre que la norme de x→ (x|a) est au moins égale à ||a|| donc en fait exactement égale à ||a||.
Supposons maintenant que E soit un espace de Hilbert, l'existence du vecteur a est évidente si u=0 (prendre a=0). On peut donc supposer que u≠0. Alors H=u-1(0) est un hyperplan fermé de E. Le supplémentaire orthogonal H' de H est une droite vectorielle. Soit b≠0 un vecteur directeur de H'. D'après ce qui précède H est orthogonal à b et on a (x|b)=0 pour tout x de H. Mais deux équations quelconques d'un même hyperplan sont proportionnelles, par suite il existe un scalaire λ tel que u(x)=λ(x|b)=(x|a) avec a=$\overline{λ}b$ pour tout x de E.
L'unicité de a résulte du fait que la forme (x|y) est non dégénérée.

Exercices

Laisser un commentaire