Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

O que é estatística Bayesiana?

+4 votos
10,658 visitas
perguntada Out 11, 2015 em Estatística por danielcajueiro (5,776 pontos)  

Estatística Bayesiana

Compartilhe

1 Resposta

+1 voto
respondida Out 11, 2015 por danielcajueiro (5,776 pontos)  

Estatística Bayesiana é um ramo da estatística que usa o termo probabilidade, da mesma forma que usamos esse termo diariamente, como uma medida condicional da incerteza \(P(E/D)\) associada com a ocorrência de um evento \(E\), dada a informação disponível \(D\). Logo, \(P(E/D)\) é uma medida da crença de ocorrência do evento \(E\) quando ocorrem as condições resumidas nos dados \(D\).

Uma outra característica da estatística bayesiana é que ela reduz qualquer problema de inferência estatística a um problema em teoria de probabilidades já bem definido, reduzindo a necessidade da criação de novos conceitos. Dessa forma, toda a incerteza de um problema é descrita através de probabilidades. Em particular, parâmetros de modelos são tratados como aleatórios. Entretanto, essa concepção não implica que os parâmetros variam (ou seja, eles são constantes), mas que a aleatoriedade nesse caso é uma descrição da incerteza dos valores verdadeiros.

Um ingrediente fundamental da estatística Bayesiana é o chamada Teorema de Bayes que é uma equação matemática que relaciona a medida condicional da incerteza \(P(E/D)\) associada a ocorrência de um evento \(E\), chamada de distribuição à posteriori, com a crença que se tinha antes sobre o evento \(P(E)\), conhecida como distribuição à priori, a evidência dada pela distribuição dos dados coletados \(P(D/E)\), chamada de verossimilhança, e \(P(D)\), chamada de verossimilhança marginal.

O teorema de Bayes permite a implementação de uma das principais idéias por detrás da estatística Bayesiana que é Aprendizagem por Experiência. Para entender esse ponto, considere o teorema de Bayes:

\[P(E/D)=\frac{P(D/E)P(E)}{P(D)}\]

Note que a única informação que você tem sobre o evento \(E\) "sem experiência" é \(P(E)\). Suponha agora que \(D\) ocorreu. Como você atualizar sua informação sobre \(E\)? É justamente isso que o teorema de Bayes faz.

A estatística Bayesiana usa esse tipo de abordagem para aprender sobre eventos (variáveis aleatórias). Por exemplo, suponha que você gostaria de aprender mais sobre um parâmetro de uma distribuição de uma variável aleatória. Sem experimentação, a única informação que você tem sobre esse parâmetro é a distribuição a priori, que usualmente é subjetiva. Se você consegue dados que reflitam a realização dessa variável aleatória, você pode usar o teorema de Bayes para atualizar seu conhecimento sobre a distribuição dessa variável aleatória.

Você pode me dar exemplos?

Exemplo 1: Diagnose - Qual a chance de uma pessoa que deu HIV positivo, realmente possuir HIV?

A imagem será apresentada aqui.

Sabemos que o erro do teste é muito pequeno e em torno de 0.25%. Isso significa:

a) 0.25% das pessoas que foram identificadas como HIV positivo, não tem HIV;

b) 0.25% das pessoas que foram identificadas como HIV negativo, tem HIV.

Se você fizer essa pergunta, a maioria das pessoas responderá que a resposta é 99.75%. Essa resposta está correta?

Não! Intuitivamente, perceba que como a grande maioria das pessoas na população, não possui HIV, o erro terá mais efeito para a maioria da população do que para a minoria que realmente possui HIV.

Como calcular corretamente?

Suponha que a parcela da população que realmente possui HIV é 0.2% e use diretamente a fórmula de Bayes:

\[P(HIV/POS)=\frac{P(POS/HIV)P(HIV)}{P(POS)}\] \[=\frac{P(POS/HIV)P(HIV)}{P(POS/HIV)P(HIV)+P(POS/HIV^c)P(HIV^c)},\]

onde \(HIV\) é o evento do paciente ter HIV e \(POS\) é o evento do teste ter dado positivo.

Logo,

\[P(HIV/POS)=\frac{0.9975\times 0.002}{0.9975\times 0.002 + 0.0025\times 0.998}=44\%,\]

que é muito menor que a probabilidade de 99.75%. Note que \(P(HIV/POS)\) claramente pode ser vista como um exemplo de probabilidade com uma medida condicional da incerteza. O mesmo ocorre com o exemplo abaixo.

Exemplo 2: **Estimação de uma proporção - Qual a proporção de fumantes de uma população?

No smoke

Suponha que você deseja calcular a proporção de fumantes de uma população e não tem nenhuma informação sobre assunto. Opa... Como então posso escolher minha distribuição a priori? Sendo controverso ou não (NÃO PARA MIM), se você não tem nenhuma informação sobre o assunto, porque não escolher a distribuição uniforme? Vamos fazer isso!

Seja \(\theta\) a distribuição a priori

Logo, a distribuição a priori é

\(P(\theta)=1\) se \(\theta\in [0,1]\).

\(P(\theta)=0\) se \(\theta\notin [0,1]\).

Suponha que você tem uma amostra de tamanho \(n\) e usa a distribuição binomial para modelar a função de verossimilhança \(P(x/\theta)\). A distribuição binomial é usada pois ela fornece a distribuição de probabilidade do número de sucessos (ocorrência de fumantes) numa sequência de \(n\) experimentos independentes (amostra de \(n\) pessoas escolhidas independentemente) com probabilidade de ocorrência \(\theta\) (proporção de fumantes na população). Logo,

\[P(X=x/\theta)= \binom n x \theta^x(1-\theta)^{n-x},\]

onde \(X\) é variável aleatória "número de fumantes" que pode ter valores no conjunto \(\{0,1,2,\cdots,n\}\).

Logo, usando o Teorema de Bayes, chegamos a

\[P(\theta/x)=\frac{P(x/\theta)P(\theta)}{\int_\Theta P(x/\theta)P(\theta)d\theta},\theta\in\Theta,\]

\[=\frac{\binom n x \theta^x(1-\theta)^{n-x}}{\int_{0}^{1} \binom n x \theta^x(1-\theta)^{n-x}d\theta}, \theta\in [0,1]\]

\[=\frac{ \theta^x(1-\theta)^{n-x}}{Beta(x+1,n-x+1)}, \theta\in [0,1],\]

onde \(Beta(a,b) = \int_0^1t^{a-1}(1-t)^{b-1}\,\mathrm{d}t\) é a função Beta.

A figura abaixo apresenta em vermelho a distribuição a priori e em azul a distribuição a posteriori do parâmetro \(\theta\). Note o quanto você aprendeu sobre o parâmetro de interesse!

Bayesian Statistics.

O código usado para gerar essa figura está aqui:

import matplotlib.pyplot as plt
import numpy as np
import scipy.special
import scipy.stats
from matplotlib import rc

rc('text', usetex=True)

def distribuicaoFumantes(n,x):
    numeroPontosDist=100
    vetorTeta=np.empty([numeroPontosDist])
    dist=np.empty([numeroPontosDist])
    for i in range(numeroPontosDist):
        teta=i/(1.0*numeroPontosDist)
        vetorTeta[i]=teta
        dist[i]= (np.power(teta,x)*np.power(1-teta,n-x))/scipy.special.beta(x+1,n-x+1)

    return vetorTeta, dist

def distribuicaoUniforme():
    numeroPontosDist=1000
    vetorTeta=np.empty([numeroPontosDist])    
    dist=np.empty([numeroPontosDist])
    for i in range(numeroPontosDist):
        teta=i/(1.0*numeroPontosDist)
        vetorTeta[i]=teta
        dist[i]=1
    return vetorTeta,dist

if __name__ == '__main__':

    [tetaUniforme,distUniforme]=distribuicaoUniforme()
    n=100
    x=15    
    [tetaFumantes,distFumantes]=distribuicaoFumantes(n,x)
    fig = plt.figure()
    ax = fig.add_subplot(111)  
    fig.hold()    
    ax.plot(tetaUniforme,distUniforme,'r.')
    ax.plot(tetaFumantes,distFumantes,'b.')
    ax.set_ylabel('Probabilidade')
    ax.set_xlabel(r'$\theta$')  

Como já dissemos anteriormente, nesse último exemplo usamos a distribuição uniforme como distribuição a priori, pois não tinhamos nenhuma informação útil sobre a variável de interesse. De fato, a distribuição uniforme tem um papel muito importante no que é chamado de análise de sensibilidade, ou seja, se você não tem muita certeza qual distribuição usar, possivelmente é uma prática interessante comparar algumas distribuições a priori e ver como ela afeta os resultados. Uma distribuição interessante de ser usada nesse caso é justamente a distribuição uniforme.

Existem aplicações particularmente interessantes da estatística Bayesiana?

Forecast

Existem muitas... Uma delas que gostaria de ressaltar é a considerada nessa resposta sobre previsão. A estatística bayesiana parece particularmente adequada para lidar com a previsão de sistemas que não são simples, onde você deve associar uma incerteza a sua previsão e também atualizá-las sempre que tiver nova informação.

Clippit

Existem muitos modelos de tomada de decisão que usam estatística Bayesiana. Possivelmente o mais conhecido é o Clippit, o assistente do Microsoft Office, que era um bonequinho irritante que tentava ajudar o usuário com o uso do software. De fato, o assistente era uma parte de um projeto maior de tentar inferir as necessidades e dúvidas dos usuários de software a partir de suas ações correntes, usando estatística Bayesiana.

Uma aplicação bastante específica, mas muito conhecida de economistas é que os modelos macroeconômicos conhecidos como DSGE (Dynamic Stochastic General Equilibrium) models, muito comuns em bancos centrais, são baseados em estatística Bayesiana. [Veja, por exemplo, Smets and Wouters, Shocks and Frictions in US Business Cycles: A Bayesian DSGE Approach, American Economic Review 97(3), p. 586-606, 2007.]

Existem críticas a estatística Bayesiana?

Sim! Veja uma lista de críticas e as respostas a essas críticas aqui.

Existem boas referências sobre estatística Bayesiana?

Sim, existe uma boa lista delas, que inclusive ajudaram na elaboração dessa resposta. Veja aqui!

...