Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Capítulo 14 Exercício 10 John Rice

0 votos
36 visitas
perguntada Abr 19 em Estatística por Bernardo Mendes (11 pontos)  

Mostre que o estimador de mínimos quadrados da inclinação e do intercepto de uma reta podem ser expressados como: \[{\hat{\beta_0}}= {\bar{y}} - {\hat{\beta_1}}{\bar{x}}\] e
\[{\hat{\beta_1}} = \frac{\sum_{i=1}^{n} (x_i - {\bar{x}})(y_i-{\bar{y}})}{\sum_{i=1}^{n}(x_i - {\bar{x}})^2}\]

Compartilhe

1 Resposta

0 votos
respondida Abr 20 por Bernardo Mendes (11 pontos)  

Os estimadores de Mínimo Quadrado são obtidos a partir da minimização do Erro Quadrado (parâmetro populacional). Tomando isso como ponto de partida e considerando um modelo do tipo \(y_i = b_0 + b_1x_i + \epsilon_i\), podemos reescrever resolvendo para o termo de erro: \(\epsilon_i = y_i - b_0 - b_1x_i\).

E então montamos o problema de minimização do nosso interesse:

\(\min_{b1,b_0}\sum_{i=1}^{n} (y_i - b_0 - b_1x_i)^2\)

Obtemos a seguintes condições de primeira ordem, ou equações normais do MQO:

\( {b_0}: -2 \sum_{i=1}^{n}(y_i - {\hat\beta_0} - {\hat\beta_1}x_i) = 0\)
\(b_1:-2 \sum_{i=1}^{n}x_i(y_i - {\hat\beta_0} - {\hat\beta_1}x_i) = 0\)

Onde \((\hat\beta_0,\hat\beta_1)\) correspondem aos minimizadores da nossa expressão inicial.

Resolvendo primeiro para o intercepto (\(b_0\)), pois esse nos dará uma equação importante para resolver a inclinação, temos:

\(\sum_{i=1}^{n}y_i -\sum_{i=1}^{n}{\hat\beta_0} -\sum_{i=1}^{n}{\hat\beta_1}x_i =0 \)
\(\sum_{i=1}^{n}y_i - N{\hat\beta_0} - {\hat\beta_1}\sum_{i=1}^{n}x_i = 0\)
onde usamos o fato de que somar \({\hat\beta_0}\) "N" vezes é o mesmo que \(N{\hat\beta_0}\)

isolando \({\hat\beta_0}\), temos:

\({\hat\beta_0} = \frac{\sum_{i=1}^{n}y_i-{\hat\beta_1}\sum_{i=1}^{n}x_i}{N}\).

Note que \(\frac{\sum_{i=1}^{n}x_i}{N}\) é o estimador da média amostral, aplicando para \(x_i\) e para \(y_i\), temos:

\({\hat\beta_0} = \bar{y} - {\hat\beta_1}\bar{x}\) (1)

Resolvendo agora para a fórmula de \({\hat\beta_1}\):

Partimos da CPO identificada com \((b_1)\):

\(\sum_{i=1}^{n}x_i(y_i - {\hat\beta_0} - {\hat\beta_1}x_i) = 0\)
\(\sum_{i=1}^{n}x_iy_i = {\hat\beta_0}\sum_{i=1}^{n}x_i + {\hat\beta_1}\sum_{i=1}^{n}x_i^2\)

Substituindo (1):

\(\sum_{i=1}^{n}x_iy_i = (\bar{y} - {\hat\beta_1}\bar{x})\sum_{i=1}^{n}x_i + {\hat\beta_1}\sum_{i=1}^{n}x_i^2\)

\(\sum_{i=1}^{n}x_iy_i = \bar{y}\sum_{i=1}^{n}x_i - {\hat\beta_1}\bar{x}\sum_{i=1}^{n}x_i + {\hat\beta_1}\sum_{i=1}^{n}x_i^2\)

\(\sum_{i=1}^{n}x_iy_i - \bar{y}\sum_{i=1}^{n}x_i = {\hat\beta_1} \big(\sum_{i=1}^{n}x_i^2 - \bar{x}\sum_{i=1}^{n}x_i)\) (2)

Note que: como \(\frac{\sum_{i=1}^{n}x_i}{N} = \bar{x} \Rightarrow \bar{x}N = \sum_{i=1}^{n}x_i \) e o mesmo vale para \(y_i\). (3)

Aplicando (3) à (2)

\(\sum_{i=1}^{n}x_iy_i - \bar{y}\bar{x}N = {\hat\beta_1} \big(\sum_{i=1}^{n}x_i^2 - \bar{x}^2N)\)

\({\hat\beta_1} = \frac{\sum_{i=1}^{n}x_iy_i - \bar{y}\bar{x}N}{\sum_{i=1}^{n}x_i^2 - \bar{x}^2N}\)

Precisamos ainda de um pouco de esforço algébrico para chegar na expressão desejada.

\({\hat\beta_1} = \frac{\sum_{i=1}^{n}x_iy_i - \bar{y}\bar{x}N + \bar{y}\bar{x}N - \bar{y}\bar{x}N }{\sum_{i=1}^{n}x_i^2 - 2\bar{x}^2N + \bar{x}^2N}\)

Aplicando (3)

\({\hat\beta_1} = \frac{\sum_{i=1}^{n}x_iy_i -\bar{x}\sum_{i=1}^{n}y_i - \bar{y}\sum_{i=1}^{n}x_i + N\bar{x}\bar{y}} {\sum_{i=1}^{n}x_i^2-2\bar{x}\sum_{i=1}^{n}x_i + \bar{x}^2N}\)

Note que multiplicar o produto das médias por N é o mesmo que somá-la N vezes, então escrevemos:

\({\hat\beta_1} = \frac{\sum_{i=1}^{n}\Big(x_iy_i - \bar{x}y_i - \bar{y}x_i + \bar{x}\bar{y}\Big)}{\sum_{i=1}^{n}\Big(x_i^2-2\bar{x}x_i + \bar{x}^2\Big)}\)

\({\hat\beta_1} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}\)

comentou Abr 20 por Thiago Trafane (11 pontos)  
Bernardo, parabéns pela sua resposta. Acredito que esteja tudo correto. Assim, sobre a sua demonstração, tenho apenas dois comentários pontuais:

1) Achei a primeira frase um pouco confusa. Poderia escrever algo como: os estimadores de MQO são aqueles que minimizam a soma dos quadrados dos erros na amostra.

2) A frase "onde usamos o fato de que somar \( \hat{\beta}_0 \) 'N' vezes é o mesmo [...] " está deslocada, pois você usa esse fato em seguida e não antes.

Por fim, é interessante notar que é possível chegar ao mesmo resultado seguindo outra estratégia. Ao invés de obter o estimador de MQO para o caso específico como você fez, nós podemos partir do estimador para o caso geral e aplicá-lo para o caso específico. Vale, então, apresentar essa demonstração alternativa.

Demonstração alternativa:

Caso geral: \( y = X\beta + e \), em que \( y \) é o vetor contendo as \(n\) observações do regressando, \( X \) é a matriz \(n \times k \) em que a coluna \(j \) contém as \(n\) observações do \(j\)-ésimo regressor, e \(e\) é o vetor de tamanho \(n\) dos erros. Então, sabemos que a estimativa de MQO de \(\beta\) é dada por
\( \hat{\beta} = (X'X)^{-1}X'y \)

Ademais, sendo \(M\) a matriz de resíduos dessa regressão, \( \hat{e}=My \) e, logo,

\(\boldsymbol{1}'\hat{e}=\boldsymbol{1}'My=\boldsymbol{1}'MMy=\boldsymbol{1}'M'My \)

\(\sum_{i=1}^{n}\hat{e}_i=(M\boldsymbol{1})'My \)

em que eu usei o fato de \(M\) ser idempotente e simétrica.

Se o intercepto está no modelo, \( M\boldsymbol{1} =0 \to \sum_{i=1}^{n}\hat{e}_i/n = 0\). Afinal, nesse caso, a estimativa de MQO será igual a 1 para o intercepto e igual a 0 para os demais coeficientes, já que, com tais parâmetros, o regressor constante será perfeitamente previsto, o que faz com que a soma dos quadrados dos erros seja nula e, assim, não pode haver uma outra escolha de parâmetros que reduza ainda mais tal soma.

Note que podemos escrever \( y_i = \hat{\beta_0} + \sum_{j=1}^{k-1} \hat{\beta}_j x_{ji} + e_i \). Então, somando em \(i\) e dividindo por \(n\), temos que, se o intercepto está no modelo,

\( \bar{y} = \hat{\beta_0} + \sum_{j=1}^{k-1} \hat{\beta}_j \bar{x}_{j} + \sum_{i=1}^{n}\hat{e}_i/n \)

\( \hat{\beta_0} = \bar{y} - \sum_{j=1}^{k-1} \hat{\beta}_j \bar{x}_{j} \)

Caso particular: \( X =
\begin{bmatrix}
    \boldsymbol{1} & x
\end{bmatrix} \) e \( \beta = \begin{bmatrix}
\beta_0 \\
\beta_1
\end{bmatrix} \). Então, do que vimos no caso geral, obtemos \( \hat{\beta}_0 \) de maneira direta:

\( \hat{\beta}_0 = \bar{y} - \hat{\beta}_1\bar{x} \)

Com relação a \( \hat{\beta_1} \), seja \(M_c\) a matriz de resíduos associada ao espaço linear \(S= span(\boldsymbol{1}) \). Então, pelo teorema de Frisch-Waugh-Lovell,

\( \hat{\beta_1} = [(M_cx)'M_cx]^{-1}(M_cx)'(M_cy) = \frac{(M_cx)'(M_cy)}{(M_cx)'M_cx}  \)

Para qualquer vetor \(z\) de tamanho \(n\),

\(M_cz= z - \boldsymbol{1}(\boldsymbol{1}'\boldsymbol{1})^{-1}\boldsymbol{1}'z\)

\(M_c z = z - \boldsymbol{1}(n)^{-1}\sum_{i=1}^{n} z_i = z - \boldsymbol{1}\bar{z}\)

\( M_cz =
\begin{bmatrix}
    z_1 - \bar{z} \\
    \vdots \\
    z_n - \bar{z}    
\end{bmatrix} \)

Substituindo essa expressão para \( z = x,y \) na expressão de \( \hat{\beta_1} \), obtemos

\( \hat{\beta_1} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}  \)

o que encerra a demonstração.
...