Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Prova de propriedades da matriz de projeção e da matriz de projeção residual.

+1 voto
66 visitas
perguntada Mar 6 em Matemática por Fabio Fujita (36 pontos)  
editado Mai 12 por Fabio Fujita

Exercício 2.4.26 do Capítulo 2 do livro “A primer in Econometric Theory” de John Stachurski.

Enunciado da questão: Prove o fato 2.2.8 usando os teoremas 2.2.1 e 2.2.2..

O fato 2.2.8 referenciado na questão é o seguinte: Seja S um subespaço linear de \(R^N\), seja P = proj S, e seja M a projeção residual conforme definido em (2.11). As seguintes afirmações são verdadeiras:

(i) M = proj \( S^\perp \)
(ii) y = Py + My para qualquer y \( \in R^N \)
(iii) Py \( \perp \) My para qualquer y \( \in R^N \)
(iv) My = 0 se, e somente se, y \( \in S\)
(v) \( P \circ M = M \circ P = 0\)

O item (v) significa que PMy = MPy = 0 para todo y \( \in R^N \).

A definição (2.11) da projeção residual citada no fato 2.2.8 é a seguinte:
\( M:= I-P\), onde I é a matriz identidade.

Compartilhe

1 Resposta

+1 voto
respondida Mar 6 por Fabio Fujita (36 pontos)  

Primeiramente, vamos enunciar os teoremas 2.2.1 e 2.2.2..

Teorema 2.2.1 (Primeiro teorema da projeção ortogonal): Seja \(y \in R^N \) e seja S um subespaço linear não vazio de \( R^N \). As seguintes afirmações são verdadeiras:

(i) O problema de otimização (2.9) tem exatamente uma solução.
(ii) ŷ \( \in R^N \) resolve (2.9) se, e somente se, ŷ \( \in S \) e y- ŷ \( \perp\) S.

A única solução ŷ é chamada de projeção ortogonal de y em S.

O problema de otimização (2.9) citado no teorema 2.2.1 representa o problema de encontrar o elemento ŷ \( \in \) S mais próximo de y \( \in R^N\).

Teorema 2.2.2 (Segundo teorema da projeção ortogonal): Seja S um subespaço linear qualquer de \( R^N \), e seja P = proj S. As seguintes afirmações são verdadeiras:

(i) P é uma função linear.
Adicionalmente, para qualquer y \( \in R^N \), nós temos
(ii) Py \( \in \) S
(iii) y - Py \( \perp \) S
(iv) \( \| y \|^2 = \| Py \|^2 + \| y-Py \|^2 \)
(v) \( \| Py \| \leq \| y \| \)
(vi) Py = y se, e somente se, y \( \in S \)
(vii) Py = 0 se, e somente se, y \( \in S^\perp \).

Tendo em vista que a questão solicita a utilização dos Teoremas 2.2.1 e 2.2.2 na solução, tomaremos seus resultados como dados, não nos atendo aos detalhes de suas provas.

Vamos à prova do fato 2.2.8 enunciado.

(i) M = proj \( S^\perp \)

No teorema 2.2.1, o vetor y \( \in R^N\) é decomposto no vetor ŷ e no resíduo \( \epsilon = y-\hat{y} \). Sabemos ainda pelo teorema e sua interpretação geométrica que ŷ é a projeção ortogonal de y em S, o que é posteriormente definido como Py. O resíduo \( \epsilon \) é, portanto, a projeção de y em \( S^\perp \).

Note que definimos o operador de projeção residual M como \( M:= I - P \). Aplicando o operador M ao vetor \( y \in R^N\), temos:

\( My =(I-P)y=Iy-Py=y-\hat{y}=\epsilon \)

Temos, portanto, que M = proj \( S^\perp\), concluindo a prova do item.

(ii) y = Py + My para qualquer \( y \in R^N\)

Considere novamente a definição do operador de projeção residual \( M:= I - P \). Aplicando o operador M ao vetor \( y \in R^N\), temos:

\( My =(I-P)y=Iy-Py=y-Py \)

Rearranjando os termos, obtemos que \( y = My + Py \), concluindo a prova do item.

(iii) Py \( \perp \) My para qualquer \( y \in R^N\)

A prova é obtida diretamente da aplicação da definição do operador de projeção residual M e dos itens (ii) e (iii) do teorema 2.2.2.

Sabemos que \( M:= I - P \). Aplicando o operador M ao vetor \( y \in R^N\), temos:

\( My =(I-P)y=Iy-Py=y-Py \)

Temos portanto que \( My =y-Py \). Pelo item (iii) do teorema 2.2.2, sabemos que \( (y-Py) \perp S \). Logo, \( My \perp S \).

Pelo item (ii) do teorema 2.2.2, sabemos que \( Py \in S \).

Portanto, como \( My \perp S \) e \( Py \in S \), provamos que \( Py \perp My\).

(iv) My = 0 se, e somente se, y \( \in \) S

A prova é obtida diretamente da aplicação do item (vi) teorema 2.2.2 e da definição do operador de projeção residual M.

My = 0 \( \Rightarrow\) y \( \in\) S

\( M:= I - P \). Aplicando o operador M ao vetor \( y \in R^N\), temos:

\( My =(I-P)y=Iy-Py=y-Py \)

Se My = 0, temos que y = Py. Pelo item (vi) do teorema 2.2.2, sabemos que:
\( Py = y \Leftrightarrow y \in S\). Logo, \( y \in S\).

y \( \in\) S \( \Rightarrow\) My = 0

Para provar a volta, apenas invertemos a ordem da prova de ida.

Pelo item (vi) do teorema 2.2.2, sabemos que \( y \in S \Leftrightarrow Py = y\).

Como vimos que \( My =y-Py \), temos como consequência que se \( y \in S \), então \( My = y-y=Py-Py=0\).

(v) \(P \circ M = M \circ P=0 \)

O enunciado do fato esclarece ainda que o item significa que \( PMy = MPy = 0 \), para todo \( y \in R^N\).

Note que, considerando a definição da projeção residual \( M:= I - P \), temos que:

\( M.P = (I-P)P = P-P^2 \)
\( P.M = P(I-P) = P-P^2 \)
\( P.M = M.P = P-P^2 \)

Logo sendo \( y\in R^N\), temos:

\( P.M.y = M.P.y = (P-P^2)y \)

Da definição de P, sabemos que P = proj S. Logo, \( Py \in S\), confirmado também no item (ii) do Teorema 2.2.2. Ao aplicarmos novamente o operador de projeção ortogonal a \( Py\), como \( Py \in S\), teremos que \( P^2y=Py \) (note que estamos obtendo a projeção ortogonal do vetor Py sobre o espaço S, que já o contém). Também confirmamos esse resultado posteriormente, na aula 2, quando vimos que tanto P quanto M são matrizes idempotentes. Segue então que:

\( P.M.y = M.P.y = (P-P^2)y =Py-P^2y=Py-Py=0\)

Note que o resultado é, de certa forma, intuitivo geometricamente. Ao projetar um vetor qualquer do \(R^N\) em um subespaço e, posteriormente, projetar o resultado em seu complemento ortogonal, o único resultado possível é de fato a origem (a origem está contida tanto em \( S\) quanto em \( S^\perp\), uma vez que ambos são subespaços do \(R^N\)).

comentou Mai 19 por Ricardo Saldanha (1 ponto)  
editado Mai 21 por Ricardo Saldanha
Muita boa resposta, Fujita. Parabéns!
A sua demonstração nos itens (i) a (iv) foram bem claras e diretas. É possível entender rapidamente.
No item (v), acredito que as operações de matrizes possam ficar mais claras com as seguintes indicações:
\( MP=(I−P)P=P−PP \kern{7em} \scriptstyle{(\text{pós-multiplicando por P; distributividade})}\)
\( PM=P(I−P)=P−PP  \kern{7em} \scriptstyle{(\text{pré-multiplicando por P; distributividade})}\)
(Acrescento que usar \(PP\) no lugar de \(P^2\) pode ser mais simples).
Ainda sobre o item (v), achei legal que  você reforçou com caminhos diferentes a afirmativa \(Py \in S\) e a conclusão final \(PPy = Py\). No entanto, talvez esse seja um recurso mais adequado para uma explicação teórica livre e menos interessante numa demonstração. Eu sugeriria que você escolhesse um dos argumentos em cada caso, concluísse a demonstração (podendo usar Q.E.D.) e depois comentasse a possibilidade de caminhos alternativos para algum passo.
Sobre a menção às matrizes idempotentes, lembro que a resposta estará disponível para estudantes que não tenham feito o curso.  Acredito que seja melhor apresentar a prova aqui, citar uma bibliografia publicada ou simplesmente encorajar o leitor a pesquisar sobre a informação.
Por fim, a intuição que você deu sobre voltar ao espaço de origem, no final, é muito interessante.
...