Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Variância e intervalo de confiança de uma regressão MQO

+1 voto
36 visitas
perguntada Abr 16 em Estatística por gustavobrangel (6 pontos)  
editado 1 dia atrás por gustavobrangel

Suponha que uma reta seja ajustada pelo método dos mínimos quadrados para \(n\) pontos, que o modelo estatístico seja válido e que queremos estimar a regressão para um novo ponto \(x_0\). Chamando o valor do ponto na reta de \(\mu_0\), sua estimativa é:

\[ \hat \mu_0 = \hat \beta_0 + \hat \beta_1 x_0 \]

a) Derive uma expressão para a variância de \(\hat \mu_0\)
b) Esboce o desvio-padrão de \(\hat \mu_0\) como uma função de \(x_0 - \bar x\). O formato da curva deve ser intituivamente plausível
c) Derive o intervalo de confiança de 95% para \(\mu_0 = \beta_0 + \beta_1 x_0\) sob a hipótese de normalidade.

Referência: Questão 13, Cap. 14 do livro "Mathematical Statistics and Data Analysis" de John A. Rice (3ª Edição)

Compartilhe

1 Resposta

0 votos
respondida Abr 17 por gustavobrangel (6 pontos)  
editado Abr 19 por gustavobrangel

a) Derive uma expressão para a variância de \(\hat \mu_0\)

Ajustar o MQO em uma reta \(y = \beta_0 + \beta_1 x\) fornece os seguintes estimadores:

\[ \begin{align} \beta_0 &= \bar y - \beta_1 \bar x \\ \beta_1 &= \frac{\sum_{i=1}^{n} (x_i - \bar x)(y_i - \bar y)}{\sum_{i=1}^{n} (x_i - \bar x)^2 } \\ \end{align} \]

A reta passando pelos pontos \((x_0, \mu_0)\) tem então a seguinte forma:

\[ \begin{align} \hat \mu_0 &= \beta_0 + \beta_1 x_0 \\ &= \bar y - \beta_1 \bar x + \beta_1 x_0 \\ &= \bar y + \beta_1 (x_0 - \bar x) \end{align} \]

Assim,

\[ Var(\hat \mu_0) = Var(\bar y) + (x_0 - \bar x)^2Var(\beta_1) \tag{1} \]

Logo, precisamos encontrar a variância de \(\bar y\):

\[ \begin{align} Var(\bar y) &= Var\Bigg (\frac{\sum y_i}{n} \Bigg) = \frac{1}{n^2} n \sigma^2 = \frac{\sigma^2}{n} \tag{2} \end{align} \]

E a variância de \(\beta_1\):

\[ \begin{align} Var(\beta_1) &= Var\Bigg (\frac{\sum(x_i - \bar x)(y_i - \bar y)}{\sum(x_i - \bar x)^2} \Bigg) \\ &= Var(\frac{\sum(x_i - \bar x)y_i}{\sum(x_i - \bar x)(x_i - \bar x)}) \\ &= \frac{\sum(x_i - \bar x)^2 \sigma^2}{[\sum(x_i - \bar x)^2]^2}\\ &= \frac{\sigma^2}{\sum(x_i - \bar x)^2} \tag{3} \end{align} \]

Assim, plugando \((3)\) e \((2)\) em \((1)\), temos que:

\[ \begin{align} Var(\hat \mu_0) &= \frac{\sigma^2}{n} + (x_0 - \bar x)^2 \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar x)^2}\\ &= \sigma^2 \Bigg( \frac{1}{n} + \frac{(x_0 - \bar x)^2}{\sum_{i=1}^{n} (x_i - \bar x)^2} \Bigg) \end{align} \]

b) Esboce o desvio-padrão de \(\hat \mu_0\) como uma função de \(x_0 - \bar x\). O formato da curva deve ser intituivamente plausível

\[ \begin{align} s_{\hat \mu_0} (x_0 - \bar x) &= \sqrt{ \frac{\sigma^2}{n} + (x_0 - \bar x)^2 \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar x)^2}} \tag{4} \\ &= \sqrt{ a + b (x_0 - \bar x)^2 } \end{align} \]

em que \( a = \frac{\sigma^2}{n} > 0\) e \( b = \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar x)^2} > 0\) são constantes positivas.

Vamos esboçar essa curva com ajuda do Python

import numpy
from matplotlib import pyplot

# arbitrary constants
a = 1
b = 1

x = numpy.linspace(-3, 3, 100)
y = numpy.sqrt(a + b * x**2)

fig, ax = pyplot.subplots()

ax.plot(x, y)
ax.set_title(r"Standard deviation as a function of the point \
difference to the mean, $(x_i - \bar x)^2$")

A imagem será apresentada aqui.

O gráfico faz sentido, pois sabemos que uma regressão linear passa necessariamente pelos seus pontos médios \((\bar x, \bar y)\). Assim, quanto maior a distância de um ponto em relação à média, maior a incerteza quanto à sua posição na reta.

O gráfico do intervalo de confiança para a estimativa de uma regressão evidencia bem esse fato, em que se observa um estreitamento maior do IC próximo do ponto médio. Utilizando dados simulados, o gráfico abaixo ilustra esse comportamento do IC.

A imagem será apresentada aqui.

c) Derive o intervalo de confiança de 95% para \(\mu_0 = \beta_0 + \beta_1 x_0\) sob a hipótese de normalidade.

A estimativa \(s_{\hat \mu_0}\) do desvio-padrão de \(\hat \mu_0\) é dado em \((4)\). Quando o desvio-padrão populacional \(\sigma_{\hat \mu_0}\) é desconhecido e o substituímos pela sua estimativa, a estatística utilizada para se calcular o intervalo de confiança:

\[ \frac{\mu_0 - \bar \mu}{s_{\hat \mu_0} / \sqrt{n}} \sim t_{n-2} \]

segue uma distribuição T de Student. E, como já estamos estimando dois parâmetros, \(\hat \beta_0\) e \(\hat \beta_1\), perdemos dois graus de liberdade. Assim, o IC de 95% para sua estimativa é igual a:

\[ \boxed{\hat \mu_0 \pm s_{\hat \mu_0} t_{n-2}(0.975)} \]

...