Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Variância e intervalo de confiança de uma regressão MQO

+1 voto
66 visitas
perguntada Abr 16 em Estatística por gustavobrangel (6 pontos)  
editado Mai 13 por gustavobrangel

Suponha que uma reta seja ajustada pelo método dos mínimos quadrados para \(n\) pontos, que o modelo estatístico seja válido e que queremos estimar a regressão para um novo ponto \(x_0\). Chamando o valor do ponto na reta de \(\mu_0\), sua estimativa é:

\[ \hat \mu_0 = \hat \beta_0 + \hat \beta_1 x_0 \]

a) Derive uma expressão para a variância de \(\hat \mu_0\)
b) Esboce o desvio-padrão de \(\hat \mu_0\) como uma função de \(x_0 - \bar x\). O formato da curva deve ser intituivamente plausível
c) Derive o intervalo de confiança de 95% para \(\mu_0 = \beta_0 + \beta_1 x_0\) sob a hipótese de normalidade.

Referência: Questão 13, Cap. 14 do livro "Mathematical Statistics and Data Analysis" de John A. Rice (3ª Edição)

Compartilhe

1 Resposta

0 votos
respondida Abr 17 por gustavobrangel (6 pontos)  
editado Abr 19 por gustavobrangel

a) Derive uma expressão para a variância de \(\hat \mu_0\)

Ajustar o MQO em uma reta \(y = \beta_0 + \beta_1 x\) fornece os seguintes estimadores:

\[ \begin{align} \beta_0 &= \bar y - \beta_1 \bar x \\ \beta_1 &= \frac{\sum_{i=1}^{n} (x_i - \bar x)(y_i - \bar y)}{\sum_{i=1}^{n} (x_i - \bar x)^2 } \\ \end{align} \]

A reta passando pelos pontos \((x_0, \mu_0)\) tem então a seguinte forma:

\[ \begin{align} \hat \mu_0 &= \beta_0 + \beta_1 x_0 \\ &= \bar y - \beta_1 \bar x + \beta_1 x_0 \\ &= \bar y + \beta_1 (x_0 - \bar x) \end{align} \]

Assim,

\[ Var(\hat \mu_0) = Var(\bar y) + (x_0 - \bar x)^2Var(\beta_1) \tag{1} \]

Logo, precisamos encontrar a variância de \(\bar y\):

\[ \begin{align} Var(\bar y) &= Var\Bigg (\frac{\sum y_i}{n} \Bigg) = \frac{1}{n^2} n \sigma^2 = \frac{\sigma^2}{n} \tag{2} \end{align} \]

E a variância de \(\beta_1\):

\[ \begin{align} Var(\beta_1) &= Var\Bigg (\frac{\sum(x_i - \bar x)(y_i - \bar y)}{\sum(x_i - \bar x)^2} \Bigg) \\ &= Var(\frac{\sum(x_i - \bar x)y_i}{\sum(x_i - \bar x)(x_i - \bar x)}) \\ &= \frac{\sum(x_i - \bar x)^2 \sigma^2}{[\sum(x_i - \bar x)^2]^2}\\ &= \frac{\sigma^2}{\sum(x_i - \bar x)^2} \tag{3} \end{align} \]

Assim, plugando \((3)\) e \((2)\) em \((1)\), temos que:

\[ \begin{align} Var(\hat \mu_0) &= \frac{\sigma^2}{n} + (x_0 - \bar x)^2 \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar x)^2}\\ &= \sigma^2 \Bigg( \frac{1}{n} + \frac{(x_0 - \bar x)^2}{\sum_{i=1}^{n} (x_i - \bar x)^2} \Bigg) \end{align} \]

b) Esboce o desvio-padrão de \(\hat \mu_0\) como uma função de \(x_0 - \bar x\). O formato da curva deve ser intituivamente plausível

\[ \begin{align} s_{\hat \mu_0} (x_0 - \bar x) &= \sqrt{ \frac{\sigma^2}{n} + (x_0 - \bar x)^2 \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar x)^2}} \tag{4} \\ &= \sqrt{ a + b (x_0 - \bar x)^2 } \end{align} \]

em que \( a = \frac{\sigma^2}{n} > 0\) e \( b = \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar x)^2} > 0\) são constantes positivas.

Vamos esboçar essa curva com ajuda do Python

import numpy
from matplotlib import pyplot

# arbitrary constants
a = 1
b = 1

x = numpy.linspace(-3, 3, 100)
y = numpy.sqrt(a + b * x**2)

fig, ax = pyplot.subplots()

ax.plot(x, y)
ax.set_title(r"Standard deviation as a function of the point \
difference to the mean, $(x_i - \bar x)^2$")

A imagem será apresentada aqui.

O gráfico faz sentido, pois sabemos que uma regressão linear passa necessariamente pelos seus pontos médios \((\bar x, \bar y)\). Assim, quanto maior a distância de um ponto em relação à média, maior a incerteza quanto à sua posição na reta.

O gráfico do intervalo de confiança para a estimativa de uma regressão evidencia bem esse fato, em que se observa um estreitamento maior do IC próximo do ponto médio. Utilizando dados simulados, o gráfico abaixo ilustra esse comportamento do IC.

A imagem será apresentada aqui.

c) Derive o intervalo de confiança de 95% para \(\mu_0 = \beta_0 + \beta_1 x_0\) sob a hipótese de normalidade.

A estimativa \(s_{\hat \mu_0}\) do desvio-padrão de \(\hat \mu_0\) é dado em \((4)\). Quando o desvio-padrão populacional \(\sigma_{\hat \mu_0}\) é desconhecido e o substituímos pela sua estimativa, a estatística utilizada para se calcular o intervalo de confiança:

\[ \frac{\mu_0 - \bar \mu}{s_{\hat \mu_0} / \sqrt{n}} \sim t_{n-2} \]

segue uma distribuição T de Student. E, como já estamos estimando dois parâmetros, \(\hat \beta_0\) e \(\hat \beta_1\), perdemos dois graus de liberdade. Assim, o IC de 95% para sua estimativa é igual a:

\[ \boxed{\hat \mu_0 \pm s_{\hat \mu_0} t_{n-2}(0.975)} \]

comentou Mai 19 por Lucas Iantorno Klotz (26 pontos)  

Oi, Gustavo. Resposta muito completa e intuitiva. Destaque para a manipulação algébrica da primeira parte do exercício.

Para fins complementares deixo aqui o código do segundo gráfico feito em Python:

a = 1
b = 1

x = np.linspace(-3, 3, 100)
y = np.sqrt(a + b * x**2)

x = np.random.choice(100, size=100)
y = x + np.random.normal(loc=0, scale=30, size=100)

ax = sb.regplot(x, y, scatter_kws={'color': 'C2', 'alpha': 0.5}, line_kws={'color': 'C3'}, ci=99)
ax.set_title('99% confidence interval for the regression estimate')
...