Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

O que é endogeneidade, como ela afeta minhas estimações e como lidar com ela?

+3 votos
9,518 visitas

1 Resposta

+5 votos
respondida Ago 27, 2015 por danielcajueiro (5,251 pontos)  

O ponto de partida para se entender o conceito conhecido como endogeneidade é entender porque economistas, estatísticos e outros cientistas sociais ou cientistas de dados estão interessados em modelos de regressão. Então, antes de responder diretamente essa pergunta, eu coloco outra pergunta:

Por que estamos interessados em modelos de regressão?

Normalmente, estamos interessados em casualidade, ou seja, queremos examinar os dados para estabelecer relações de causa e efeito. Dessa forma, queremos especificar nosso modelo de regressão de forma que ele estabeleça essas relações de causa e efeito. O não tratamento da endogeneidade é um indicativo que você não está construindo o seu modelo para lidar com relações de causa e efeito.

Você pode me dar exemplos para entender melhor o que está ocorrendo?

Claro! Vamos dar uma olhada nos exemplos abaixo para depois compará-los.

Exemplo 1:

Como mencionei aqui, a primeira vez que estimei um modelo de regressão linear há muitos anos atrás foi num curso de física, quando era estudante de graduação de engenharia química. Relembrando minhas aulas de física, nesse exemplo, eu desejo estimar o coeficiente de elastidade de uma mola... Calma! Mesmo que seu conhecimento de física seja muito restrito, você consegue entender esse experimento. Considere que uma ponta da mola está presa no teto e na outra ponta que está livre (veja figura abaixo), você deseja prender uma massa \(m\). Logo, a mola irá se expandir e conhecendo a Lei de Hooke, a posição de equilíbrio da massa será aquela em que o peso é igual a força gerada pela deformação da mola. Podemos equacionar essa idéia da seguinte forma: \(mg=kd\), onde \(g\) é a gravidade, \(k\) é a constante de deformação da mola e \(d\) é o quanto a mola se expandiu quando você colocou a massa na sua extremidade. Se você colocar massas diferentes, você terá diferentes deformações. Então você pode montar uma matriz de dados onde a variável dependente é \(d\) (conhecida com exatidão) e a variável independente é \(mg\) (que é conhecida), você pode estimar o valor de \(1/k\) a partir da regressão linear

\[d=\alpha + \beta mg\times + u,\] onde \(\beta\) é uma estimativa de \(1/k\) e \(u\) é um possível erro associado ao modelo.

Note que:

Causa: Maior peso

Efeito: Maior distensão da mola

Logo, Maior peso \(\Rightarrow\) Maior distensão da mola

A imagem será apresentada aqui.

Exemplo 2:

Considere o seguinte problema socio-econômico em que a cidades gostariam de saber em quanto precisariam aumentar a quantidade de policiais para reduzir a criminalidade. Logo, o modelo de interesse poderia ter a seguinte forma:

\(crimes=\alpha_1 + \beta_1 policiais +\gamma_1 renda + u_1\)

Esse modelo sugere que o número de crimes reduz com um maior número de policiais e também reduz em uma população que possui uma maior renda.

Pergunta-se: Será que essa equação responde a questão colocada acima? Podemos escrever causa=policiais \(\Rightarrow\) efeito=crimes?

Não! Por que? Simplesmente, porque a quantidade de policiais pode estar associada ao seguinte modelo

\(policiais=\alpha_2 + \beta_2 crimes +\gamma_2 impostos + u_2\)

Esse modelo diz que em cidades respondem ao número de crimes, aumentando-se a força policial (medida aqui pela quantidade de policiais) ou ainda uma maior força policial está presente em áreas de maior criminalidade. Apenas como ilustração, a figura no início da pergunta mostra os Intocáveis que foram criados como resposta a criminalidade e corrupção da polícia de Chicago. Adicionalmente, esse modelo também sugere que em cidades em que são cobrados mais impostos, a força policial é maior.

Então note que:

(1) Nenhuma das duas equações acima individualmente consegue uma relação entre a causa e efeito como aquele apresentado no Exemplo 1, pois não se sabe se policiais afeta crime ou crime afeta policiais.

(2) Os coeficientes \(\beta_1\) e \(\beta_2\) possuem provavelmente coeficientes opostos.

(3) Se não houvesse as variáveis renda e impostos, não seria possível diferenciar os dois modelos acima.

O que é endogeneidade?

Para se tornar mais fácil a discussão, vamos escrever o modelo apresentado no exemplo 2 da seguinte forma:

\(y_1=\alpha_1 + \beta_1 y_2 + \gamma_1 z_1 + u_1\; (1)\)

\(y_2= \alpha_2 + \beta_2 y_1 + \gamma_2 z_2 + u_2\; (2)\)

É válido mencionar que estamos aqui supondo que \(z_1=renda\) e \(z_2=impostos\) aparecem apenas nas equações em que elas estão apresentadas. Isto é, renda não influencia a quantidade de policiais na equação (2) e impostos não influencia o número de crimes na equação (1).

Podemos reescrever esse modelo da seguinte forma (isolando os valores de \(y_1\) e \(y_2\)):

\(y_1 (1-\beta_1 \beta_2)=\alpha_1 + \beta_1 \alpha_2 + \beta_1 \gamma_2 z_2 + \gamma_1 z_1 + \beta_1 u_2 + u_1\; (3) \)

\(y_2 (1-\beta_1 \beta_2)=\alpha_2 + \beta_2 \alpha_1 + \beta_2 \gamma_1 z_1 + \gamma_2 z_2 + \beta_2 u_1 + u_2 \; (4)\)

Endogeneidade ocorre quando um dos regressores do modelo é correlacionacionado com o erro. Utilizando a equação (4), dizemos que a variável \(y_2\) é endógena na equação (1) pois ela depende explicitamente do erro \(u_1\) e consequentemente ela é correlacionada com \(u_1\). Por outro lado, utilizando a equação (3), dizemos que a variável \(y_1\) é endógena na equação (2), pois ela depende explicitamente do erro \(u_2\) e consequentemente ela é correlacionada com \(u_2\).

Quando endogeneidade ocorre a relação de causa-efeito que vimos no modelo físico acima não é explícita, pois não se sabe em que direção está a causa efeito.

O que ocorre se eu estimar o modelo 1 sem considerar o segundo modelo, utilizando mínimos quadrados?

Vamos proceder fazendo simulações Monte Carlo. Com o conhecimento dos valores dos \(\alpha\)s, dos \(\beta\)s e dos \(\gamma\)s e de amostras das variáveis \(z\)s e \(u\)s geramos várias amostras de variáveis \(y\)s usando as equações (3) e (4) acima. Usando essas amostras, estimamos a regressão linear utilizando apenas a Equação (1) acima.

Veja no gráfico abaixo que o estimador de mínimos quadrados (figura do lado esquerdo) de \(\beta_1\) é viesado, onde a linha vermelha nesse gráfico indica o valor verdadeiro do parâmetro \(\beta_1\).

A imagem será apresentada aqui.

Você está surpreso que a estimativa desse parâmetro é viesada?

Não! Sabemos que o estimador de mínimos quadrados, estima os parâmetros forçando que o erro da regressão seja ortogonal aos regressores (não correlacionado com os regressores). Entretanto, vimos que no nosso modelo acima \(y_2\), que é um regressor da primeira equação, é correlacionado com o erro (se tem dúvidas, veja a Equação (4)). Logo, é óbvio que esse estimador não é adequado.

Como eu posso estimar esse o modelo (1) acima?

Existem várias formas para estimar o modelo acima. Que tal usar intuição e estima-lo usando pouco do nosso conhecimento. Normalmente, os três estimadores mais populares em cursos básicos de estatística são (a) o estimador de mínimos quadrados; (b) o estimador de máxima verossimilhança e (3) o método dos momentos.

Já vimos que aplicar diretamente o estimador de mínimos quadrados na equação acima não faz sentido. Por outro lado, para usar o método de máxima verossimilhança precisaríamos de uma distribuição para \(y_1\) condicional aos regressores, que não temos explicitamente agora. Logo, para proceder de forma simples, vamos tentar usar o método dos momentos. O método dos momentos estima parâmetros assumindo que os momentos populacionais são iguais aos momentos amostrais.

Que momentos podemos supor conhecidos na Equação (1) acima?

Como temos três parâmetros a serem estimados, precisamos de três equações:

\(E[u_1]=0\; (5),\) que diz que na média o erro é zero.

\(E[z_1 u_1]=0\; (6),\) que diz que o erro não é correlacionado com a variável \(z_1\).

\(E[z_2 u_1]=0\; (7),\) que diz que o erro não é correlacionado com a variável \(z_2\).

Se usarmos a idéia por detrás do método dos momentos e usar as aproximações amostrais para os momentos acima, podemos estimar o mesmo \(\beta_1\) acima, basicamente resolvendo um sistema linear. Veja na figura acima (no gráfico da direita) a distribuição de estimativas desse estimador e compare com o estimador de mínimos quadrados. O código completo dessa simulação está apresentado aqui.

Note que para a Equação (7) ser válida (ou seja, dar informação adicional as equações (5) e (6)), nós precisamos que o coeficiente \(\delta_2\) na Equação (8) abaixo seja significante

\[y_2=\delta_0 + \delta_1 z_1 + \delta_2 z_2 + \epsilon.\]

Veja abaixo também que esse coeficiente ser significante implica que \(z_2\) consegue recuperar a casualidade de \(y_2\) para \(y_1\).

O estimador que utiliza as equações (5), (6) e (7) é conhecido como estimador de variáveis instrumentais.

Esse estimador recupera a causa-efeito desejada?

Sim, pois substituimos a variável \(y_2\) acima pela variável exógena \(z_2\). De fato, \(z_2\) afeta \(y_1\) apenas através de \(y_2\). Logo, conseguimos recuperar a relação de causa-efeito dessa equação.

Matematicamente, note que se \(y_2\) não fosse endógena e se fizessemos \(z_2=y_2\) na Equação (7) acima chegaríamos exatamente nas equações de momentos que são derivadas quando usamos o estimador de mínimos quadrados considerando a situação onde todas as variáveis são exógenas como no modelo físico acima. \(z_2\) aqui tem um papel super importante, pois ela representa a parcela de \(y_2\) que não depende de \(y_1\), explorando justamente a casualidade desejada.

...