Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Modelo de Regressão com Variável Explicativa \(\in\) [-1,1]

+1 voto
26 visitas
perguntada Mai 12 em Estatística por Mateus Hiro Nagata (26 pontos)  
editado Mai 21 por Mateus Hiro Nagata

Pergunta retirada do livro Mathematical Statistics and Data Analysis - John A. Rice. - Capítulo 14 Exercício 19.

Suponha que os \(n\) pontos \( x_1, \dots, x_n\) pertencem ao intervalo [-1,1] e ajustam o modelo

\[ Y_i = \beta_0 + \beta_1x_i + \epsilon_i \]

sendo que os \( \epsilon_i \) são independentes com variância comum \( \sigma^2 \). Como \( x_i \) deve ser escolhido para minimizar \( Var(\hat{\beta_1}) \)?

Compartilhe

1 Resposta

0 votos
respondida Mai 21 por Mateus Hiro Nagata (26 pontos)  

Veja a forma funcional de \( Var(\hat{\beta_1}) \) é

\[ Var(\hat{\beta_1}) = \frac{\sigma^2}{\sum_{i = 1}^{n}(x_i - \overline{x})^2} \]

Sendo a variância \(\sigma^2 \) constante, assim como a média \( \overline{x} \), queremos minimizar \(Var(\hat{\beta}_1) \). Veja que o problema é equivalente a maximizar \( \sum_{i = 1}^{n}(x_i - \overline{x})^2 \), que é equivalente a maximizar \( \sum_{i = 1}^{n}|x_i - \overline{x}| \) .

Vou provar que a média no nosso caso será \(\overline{x} = 0 \) e que os \( x_i\) devem ser escolhidos de tal forma que deve haver uma mesma quantidade de \( x_i = 1\) e \( x_i = -1\).

Suponha que a média dos \( n-1 \) valores \(x_i \) escolhidos seja um valor positivo. Então, o maior desvio dessa média será um valor negativo, então \(x_n \) deve ser negativo. Essa lógica se repete para todo \(i = 1, \dots, n \). Por recursão, o valor médio deve ser \( \overline{x} = 0 \).

Então o problema se torna a maximização de \( \sum_{i = 1}^{n}(x_i)^2 \) que equivale maximizar
\( \sum_{i = 1}^{n}|x_i| \). Veja que o valor máximo é obtido quando \(|x_i| = 1 \). Dessa forma, concluímos que para minimizar \(Var (\hat{\beta}_1) \), é necessário que \(x_i = \pm1 \) para \(i = 1, \dots, n \) e tal que resulte em soma zero. Então deve ter igual quantidade de 1 e -1.

comentou Mai 21 por Fábio Springer (1 ponto)  
editado Mai 21 por Fábio Springer
Achei interessante a prova. Intuitivamente, se eu posso escolher quais variáveis usar na regressão para reduzir a variância basta escolher todas iguais e teríamos variância igual a zero, no entanto isso não permitiria a execução de uma regressão. De fato,  \(|x_i|  \in [0,1]\), logo o resultado que maximiza o somatório é o modulo sempre ser igual a 1.
comentou Mai 21 por Mateus Hiro Nagata (26 pontos)  
Eu achei a questão realmente muito estranha, uma vez que eu sempre assumi que os \( x_i\) são dados pela natureza e nunca deveriam ser escolhidos...
comentou Mai 21 por Fábio Springer (1 ponto)  
Também achei isso estranho. É comum escolher as variáveis do modelo e inclusive retirar variáveis para diminuir variância a custo de inserir vies no modelo. Mas, escolher as observações de uma variável pra reduzir a variância não faz muito sentido.
comentou Mai 24 por danielcajueiro (5,581 pontos)  
Imagine um problema de física de medir a elasticidade de uma mola (inclinação da reta). Imagine por exemplo uma fábrica que precisa checar a qualidade de uma mola medindo a elasticidade. Ou seja, o mesmo exercício será sempre repetido. Existem valores de \(\Delta x\) que estimam um coeficiente com menor variância?
...