Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

O que é regressão quantílica e como se define o problema de otimização condicionada associada a ela?

+1 voto
816 visitas
perguntada Out 13, 2016 em Estatística por Peng Yaohao (101 pontos)  
Compartilhe

1 Resposta

+2 votos
respondida Out 13, 2016 por Peng Yaohao (101 pontos)  
editado Out 20, 2016 por Peng Yaohao

A regressão quantílica é um método de estimação motivado pelo interesse em estudar o comportamento de indivíduos "não-médios". Basicamente, a regressão quantílica estima várias retas para diferentes quantis associados, em vez de verificar apenas o impacto dos X no Y médio, como é feito numa regressão linear por MQO (mínimos quadrados ordinários).

Assim, enquanto um modelo especificado com MQO tem a forma \(Y=X\beta+e\), donde a condição \(\mathbb{E}[e]=0\) implica que \(\mathbb{E}[Y|X]=X\beta\), um modelo de regressão quantílica irá verificar o efeito que os preditores X terão sobre os quantis de Y, tal que o \(\tau\)--ésimo quantil da variável Y é definido como

\(Q_{\tau}(Y)=inf\{y|F_Y(y)\geq \tau\}\)

onde \(F_Y(y)=P(Y\leq y)\) é a função de distribuição acumulada de Y. Intuitivamente, o \(\tau\)--ésimo quantil de Y é o valor-limite \(Q_{\tau}(Y)\) em que há exatamente \(\tau\) por cento de chance de os valores de Y serem menores que \(Q_{\tau}(Y)\). É fácil observar que \(0\leq \tau \leq 1\) (pelo axioma da probabilidade) e que \(Q_{\tau}(Y)\) é uma função não-decrescente de \(\tau\).

Dessa forma, numa regressão quantílica o modelo de regressão será dado por

\(Q_{\tau}(Y|X=x)=x^T\beta(\tau)=\beta_0(\tau)+x_1\beta_1(\tau)+x_2\beta_2(\tau)+...+x_k\beta_k(\tau)\)

(assumindo-se sem perda de generalidade que há \(k-1\) regressores). \(\beta(\tau)\) é o efeito marginal das variáveis explicativas X no \(\tau\)--ésimo quantil de Y, efeito este que pode ser variante a depender do quantil escolhido. Essa abordagem se mostra bastante pertinente para variáveis dependentes cuja distribuição apresenta assimetria, caudas pesadas ou heteroscedasticidade.

A estimação da regressão quantílica também será diferente de um MQO. Por mínimos quadrados, \(\mathbb{E}[Y]=arg\min\limits_{\alpha}\mathbb{E}[(Y-\alpha)^2]\), o que equivale a encontrar a solução para \(\min\limits_{\alpha}\sum\limits_{i=1}^n{(y_i-x_i^T\beta)^2}\). No caso da regressão quantílica, a otimização é feita para cada \(\tau\)--ésimo quantil de Y, de modo que

\(Q_{\tau}(Y)=arg\min\limits_{\alpha}\mathbb{E}[\rho_{\tau}(e)(Y-\alpha)]\)

onde \(\rho_{\tau}(e)\) é uma função de perda definida por:

\(\rho_{\tau}(e)=\begin{cases}
e\tau,&\quad e>0,\\
e(\tau-1),&\quad e<0,\\
0,&\quad e=0.
\end{cases}\)

Ou seja, a penalização da função perda \(\rho_{\tau}(e)\) terá magnitudes diferentes para erros "para cima" e "para baixo", a depender do quantil escolhido. Para erros "para cima", a penalização será \(e\cdot\tau\cdot 1=e\tau\); intuitivamente, implica que cada unidade de erro "para cima" possui uma influência de \(\tau\) unidades para o \(\tau\)--ésimo quantil. Por outro lado, em erros "para baixo" a penalização é dada por \(e\cdot(1-\tau)\cdot -1=e(\tau-1)\), o que implica que uma unidade de erro "para baixo" influencia em \(1-\tau\) (o complementar de \(\tau\)) unidades para o mesmo \(\tau\)--ésimo quantil, ponderado pelo sinal, já que é um erro ''para baixo''. Quando o erro é zero, naturalmente a perda será também zero.

A otimização do \(\tau\)--ésimo quantil é similar ao MQO corrigido pela função perda \(\rho\), e é dado por

\(\min\limits_{\alpha}\sum\limits_{i=1}^n{\rho_{\tau}(y_i-\alpha)}\)

Dado que \(Q_{\tau}(Y|\boldsymbol{X}=\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{\beta}(\tau)\), as estimativas para os betas são dadas por:

\(\boldsymbol{\hat{\beta}}(\tau)=arg\min\limits_{\boldsymbol{\beta}}\sum\limits_{i=1}^n{\rho_{\tau}(y_i-\boldsymbol{x_i}^T\boldsymbol{\beta})}\)

Dado que o modelo geral de regressão quantílica pode ser escrito como \(y_i=x_i^T\beta+e_i\), onde o termo de erro \(e_i\) pode ser decomposto em duas partes -- \(u_i\) para os erros "para cima" e \(v_i\) para os erros "para baixo" -- de modo que \(e_i=u_i-v_i\). Assim, a solução do problema equivale a minimizar o termo de erro composto por ambos \(\boldsymbol{u}\) e \(\boldsymbol{v}\), sujeito às restrições de não-negatividade para os erros e à condição \(y_i=\boldsymbol{x_i}^T\boldsymbol{\beta}+e_i\). Os coeficientes \(\beta\) são variáveis livres. Assim, o problema de regressão quantílica pode ser definido o seguinte problema de otimização condicionada, com as seguintes função objetivo e restrições:

\begin{eqnarray}
\min\limits_{\boldsymbol{\beta},\boldsymbol{u},\boldsymbol{v}}:&&\tau\boldsymbol{1}^T\boldsymbol{u}-(\tau-1)\boldsymbol{1}^T\boldsymbol{v}\\
Sujeito~a:&&\boldsymbol{y}=\boldsymbol{X}^T\boldsymbol{\beta}+\boldsymbol{u}-\boldsymbol{v}\\
Tal~que:&&\boldsymbol{u}\geq 0; \boldsymbol{v}\geq 0; \boldsymbol{\beta}\in \mathbb{R}^k
\end{eqnarray}

onde os termos \(\tau\boldsymbol{1}^T\boldsymbol{u}\) e \(-(\tau-1)\boldsymbol{1}^T\boldsymbol{v}\) derivam da função de perda \(\rho_{\tau}\).

Esse é um problema de programação linear de minimização, escrito na forma canônica.

comentou Nov 30, 2016 por André Maranhão (11 pontos)  
A regressão quantílica, foi muito bem especificado e detalhado nesse post. Apenas a título de complementação, acredito ser enriquecedor salientar alguns pontos históricos e aplicações uteis dessa metodologia:
1)    O primeiro estudo envolvendo regressão quantílica foi publicado em 1975 por Hogg na Journal of the American Statistical Association;
2)    O estudo pioneiro, com mais citações, com regressão quantílica foi publicado em 1977 por Koenker e Bassett na Econometrica;
3)    Yu e Moyeed (2001) apresentaram o primeiro resultado para modelos de regressão quantílica Bayesianos considerando a distribuição Laplace assimétrica para os erros do modelo;
4)    O primeiro artigo tratando de regressões quantílicas no contexto de séries de tempo, adaptou o estimador de Nadaraya-Watson de Hall, Wolff e Yao (1999) para o caso de séries de tempo, publicado por Cai em 2002 na Econometric Theory;
...