Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Você pode me explicar intuitivamente o que são modelos de resposta binária e como eles podem ser usados para classificação?

+1 voto
1,106 visitas
perguntada Ago 22, 2015 em Estatística por danielcajueiro (5,261 pontos)  

Você pode me dar a intuição por detrás de modelos de resposta binária (logit e probit) que são usados para classificação?

Banco Credito Probit Logit

Compartilhe

1 Resposta

+2 votos
respondida Ago 22, 2015 por danielcajueiro (5,261 pontos)  

Antes de falar especificamente sobre o modelos de resposta binária, vamos apresentar uma situação em que poderia ser modelada utilizando esses modelos.

Como bancos decidem se eles devem ou não lhe dar crédito?

Normalmente quando você vai em um banco atrás de um empréstimo, esse banco tem acesso a dados que o permitem classifica-lo como um bom ou mau pagador. Esses dados incluem informações sobre:

a) Renda.

b) Tamanho do emprétimo ou, ainda, o empréstimo como porcentagem da sua renda.

c) Outros empréstimos em andamento ou passados, como os empréstimos em andamento refletem sua capacidade de pagar o novo empréstimo e se você foi bom pagador de empréstimos passados.

d) Bens (imóveis, carros etc) que podem ser usados como garantia.

e) Estabilidade do emprego, que pode refletir sua estabilidade financeira.

f) Aprovação ou rejeição de créditos no passado, que poderia sugerir um status quo sobre o seu comportamento.

g) Idade, pois pessoas de diferentes idades tomam decisões arriscadas de formas diferentes.

h) Gênero, pois homens e mulheres também tomam decisões arriscadas de formas diferentes.

i) Escolaridade (Ensino Fundamental, Ensino Médio Incompleto, Ensino Médio Completo, Superior Incompleto, Superior Completo, Especialização, Mestrado, Doutorado), pois talvez pessoas com maior escolaridade analisem melhor o processo de tomada de empréstimos ou ainda contabilizem melhor a perda que terão se o empréstimo não for pago

\[\vdots\]

Tomando como base nas variáveis acima e várias outras, um especialista em crédito poderia responder se você é adequado ou não para conseguir o empréstimo desejado. Ele particularmente poderia associar uma variável binária a essa avaliação. Por exemplo, ele poderia associar a um bom pagador de empréstimos o valor 1 e a um mau pagador o valor 0. Ele poderia repetir sempre a mesma avaliação para todo novo cliente que pedisse um empréstimo. Obviamente, quando essa avaliação é feita por um humano existe sempre a possibilidade de seu pedido de empréstimo ser associado a um viés positivo ou negativo. Dessa forma, dependendo do avaliador você poderia ter uma avaliação positiva ou negativa. Além disso, se o número de aplicações para novos empréstimos for muito alto, o custo associado a avaliação desses empréstimos também seria.

Uma outra forma de lidar com esse problema seria usar dados reais de pessoas cujas características são conhecidas que foram bons ou mau pagadores no passado e criar um modelo que associasse ao seu pedido por empréstimo uma probabilidade de você ser um bom ou mal pagador. Esse modelo poderia ainda classificar sua aplicação como boa ou ruim. Um modelo de resposta binária permite ambas abordagens.

Do ponto de vista econométrico, as variáveis descritas acima são usualmente chamadas de variáveis independentes, determinantes ou fatores que afetam o risco de crédito de tomadores de empréstimos, que é a variável dependente.

Existem outros problemas interessantes que poderíamos querer abordar utilizando esses modelos?

Sim! Existem vários problemas interessantes... Vários deles estão listados aqui.

Como um modelo de resposta binária pode ser representado matematicamente?

Seja \(y_i\) a \(i\)-ésima observação da variável dependente que assume valores 0 e 1 (por exemplo, ser um bom ou mau pagador) e \(x_i=[x_{i1}, x_{i2}, \cdots, x_{iK}]'\) a \(i\)-ésima observação das \(K\) variáveis independentes (por exemplo renda, idade, escolaridade etc).

Então, define-se

\[ p(x_i)=P(y_i=1/x_i)=F(z_i) \] onde \(z_i=\beta_0 + \beta_1 x_{i1} + \cdots\beta_{k}x_{ik} \) é chamada de variável latente e \(0\lt F(z)\lt 1\) é uma função de distribuição acumulada, que garante que a saída desse modelo está entre 0 e 1.

Obviamente para aplicações, a distribuição acumulada precisa ser especificada. As formas mais comuns levam aos chamados modelos Probit (\(F(z)=\Phi(z)=\int_{-\infty}^{z}\phi(v)dv\), onde \(\phi(v)\) é a distribuição normal padrão) e Logit (\(F(z)=\Lambda(z)=\frac{\exp{(z)}}{1+\exp{(z)}}\)).

É válido mencionar que o modelo de regressão linear não é adequado para modelar os problemas mencionados acima. Veja, por exemplo, aqui.

Se você estiver interessado em entender como esse modelo é estimado, dê uma olhada aqui.

Você pode me dar um exemplo para eu entender o que está ocorrendo?

Vamos tentar responder essa pergunta na prática. Vamos supor que estamos trabalhando com um modelo que depende apenas de duas variáveis para podermos ser hábeis para plotar essas variáveis no plano. Podemos proceder de duas formas: a primeira forma é coletar dados para rodar esse modelo e a outra forma é gerar dados adequados que possamos interpretar adequadamente.

Como nosso objetivo aqui é entender esse modelo, então a segunda forma parece ser mais adequada, pois teremos controle sobre tudo que está ocorrendo. Para isso, usando simulações Monte Carlo, iremos gerar nossas amostras seguindo o seguinte procedimento:

1) Crie \(n\) valores de um vetor bidimensional de regressores.

2) Para cada um desses \(n\) valores, calcule \(F(z_i)\), onde \(z_i=\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2}\), usando os \(\beta\)s reais (lembre-se que estamos fazendo o papel da natureza quando usamos a simulação de Monte-Carlo) e a distribuição acumulada \(F\) desejada (nesse caso, estamos usando a normal acumulada \(F\), mas o procedimento é o mesmo independente da sua escolha).

3) Sorteie \(n\) valores de de uma variável aleatória uniforme \(w_i,\;\;i=1,\cdots,n\) no intervalo \([0,1]\);

4) Gere os \(n\) valores de \(y_i\) fazendo o seguinte teste: Se \(w_i\in [0,F(x_i'\beta)]\) então \(y_i=1\). Em caso contrário, \(y_i=0,\;\;i=1,\cdots,n\).

Entenda os passos (3) e (4) com cuidado. Na vida real, muitas vezes temos características que nos sugerem que vamos tomar um determinado tipo de atitude e tomamos uma atitude diferente daquela prevista (erros de modelagem). Então esses passos nos dizem que quanto maior a probabilidade medida por \(F\), maior a chance de eu me comportar como esperado. Entretanto, a menos que \(F(z)=1\), existe sempre uma chance de eu me comportar de forma diferente da esperada.

Apenas para comparação vamos também gerar valores de \(y_i\) que refletem perfeitamente as características individuais. Isto é, substitua os passos (3) e (4) pelo passo (3\(^\prime\)):

3\(^\prime\)) Gerar os \(n\) valores de \(y_i\) fazendo o seguinte teste: Se \(F(x_{i}^{\prime}\beta)>1/2\) então \(y_i=1\). Em caso contrário, \(y_i=0,\;\;i=1,\cdots,n\).

A figura abaixo apresenta essas duas simulações acima, que foi gerada utilizando o código desenvolvido em Python (mas poderia ter sido desenvolvido em R ou Matlab) que é apresentado aqui (se você ainda não sabe Python, você pode seguir por aqui). Se usarmos o passo (3\(^\prime\)) geramos dados que são perfeitamente separáveis (figura da esquerda) e em caso contrário geramos dados que refletem mais situações reais e não são perfeitamente separáveis (figura da direita).

A imagem será apresentada aqui.

A reta usada para classificação é exatamente

\[z=\beta_0 + \beta_1x_1 +\beta_2 x_2=0\]

Note que a reta contínua (e preta) utiliza os parâmetros \(\beta\)s reais e a reta tracejada (e amarela) usa os parâmetros \(\beta\)s estimados.

Note também que podemos provar geometricamente que a distância de um ponto \((x_1,x_2)\) a reta (\(z=0\)) usada para classificação nos dá uma medida de quanto ela atende bem as características daquela região do classificador.

Considere, novamente a metáfora inicial: \(y_i=1\) é bom pagador e \(y_i=0\) ser mau pagador. Quando aplicamos \(F\) a variável latente \(z\) descrita acima, conseguimos o "sabor" de probabilidade do ponto \((x_1,x_2)\) ser classificado como bom pagador (azul).

Existem uma série de detalhes que devem ser considerados no estudo de modelos de resposta binária. Você pode encontrar esses detalhes aqui.

comentou Ago 23, 2015 por evaristooliveira (71 pontos)  
Eu até ia tentar responder, mas esta resposta está bem melhor do que eu poderia tentar kkk Excelente !!
...