Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

O que é o Paradoxo de Simpson em estatística?

+1 voto
616 visitas
perguntada Nov 6, 2015 em Estatística por danielcajueiro (5,016 pontos)  
Compartilhe

1 Resposta

+1 voto
respondida Nov 6, 2015 por danielcajueiro (5,016 pontos)  

Historinha [T. R. Knapp Instances of Simpson's paradox. The College Mathematics Journal, v. 16, p. 209-211, 1985.]:

Statistics baseball

Temos dois jogadores de Baseball.

O jogador A rebateu 25.7% das vezes e o jogador B rebateu 25.1%. Isso significa que o jogador A é melhor?

Não. Dê uma olhada na informação completa abaixo:

Jogador A

nAD: Número de vezes que jogou contra um lançador destro: 202

nARD: Número de vezes que rebateu um lançador destro: 45

nAE: Número de vezes que jogou contra um lançador canhoto: 250

nARE: Número de vezes que rebateu um lançador canhoto: 71

Jogador B

nBD: Número de vezes que jogou contra um lançador destro: 250

nBRD: Número de vezes que rebateu um lançador destro: 58

nBE: Número de vezes que jogou contra um lançador canhoto: 108

nBRE: Número de vezes que rebateu um lançador canhoto: 32

Logo, o jogador A conseguiu rebater 22.3% das bolas quando lançadas por um lançador destro e 28.4% das bolas quando lançadas por um lançador canhoto. Por outro lado, o jogador B conseguiu rebater 23.2% das bolas quando lançadas por um lançador destro e 29.6% das bolas quando lançadas por um lançador canhoto.

Simpson Paradox

Como isso é possível?

A explicação é simples. Os dois jogadores enfrentaram de forma bem diferente destros e canhotos. Enquanto o jogador A enfrentou destros em torno de 50% das vezes, o jogador B enfrentou em torno de 70% das vezes. Logo, as porcentagens em ambas as categorias para os jogadores são ponderadas de forma diferente trazendo um resultado que parece ser contra intuitivo. Além disso, o jogador B justamente se saiu pior contra os destros que ele enfrentou mais.

Então, o que é o Paradoxo de Simpson?

O paradoxo de Simpson ocorre quando existe uma tendencia de comportamento em dados de uma determinada variável quando dividida em grupos, mas é revertida quando os grupos são combinados.

Detalhamento das contas (Você não precisa olhar isso para entender o problema - são contas simples de estatística)

O número total de lançadores que o jogador A enfrentou foi: \(nA=nAD+nAE=452\)

A probabilidade do jogador A rebater dado que ele jogou contra um jogador destro: \(p(R/A,D)=nARD/nAD=0.223\)
A probabilidade do jogador A rebater dado que ele jogou contra um jogador canhoto: \(p(R/A,E)=nARE/nAE=0.284\)
A probabilidade do jogador A jogar com um lançador destro: \(p(D/A)=nAD/nA=0.447\)
A probabilidade do jogador A jogar com um lançador canhoto: \(p(E/A)=nAE/nA=0.553\)
A probabilidade do jogador rebater independente da categoria (destro ou canhoto): \(p(R/A)=p(R/A,D)*p(D/A)+p(R/A,E)*p(E/A)=0.257\)

O número total de lançadores que o jogador B enfrentou foi: \(nB=nBD+nBE=358\)

A probabilidade do jogador B rebater dado que ele jogou contra um jogador destro: \(p(R/B,D)=nBRD/nBD=0.232\)
A probabilidade do jogador B rebater dado que ele jogou contra um jogador canhoto: \(p(R/B,E)=nBRE/nBE=0.296\)
A probabilidade do jogador B jogar com um lançador destro: \(p(D/B)=nBD/nB=0.698\)
A probabilidade do jogador B jogar com um lançador canhoto: \(p(E/B)=nBE/nB=0.302\)
A probabilidade do jogador rebater independente da categoria (destro ou canhoto): \(p(R/B)=p(R/B,D)*p(D/B)+p(R/B,E)*p(E/B)=0.251\)

Existem exemplos reais desse paradoxo?

A imagem será apresentada aqui.

Sim, existem MUITOS exemplos relatados na literatura. Provavelmente, o mais interessante é aquele que ocorreu na universidade de Berkeley na California que sugeria que numa seleção para programas de doutorado homens tinham mais chance que mulheres. Esse caso gerou até processo contra a universidade. De fato, olhando individualmente cada departamento, na maioria deles, ocorria exatamente o contrário. Mais tarde foi concluído que mulheres aplicavam para departamento mais competitivos que aqueles aplicados por homens.

É provável a ocorrência do Paradoxo de Simpson?

Não. Entretanto, a simulação Monte Carlo abaixo mostra que a chance de ele ocorrer aumenta com dispersão do tamanho das categorias. Na simulação Monte Carlo a seguir, o paradoxo de Simpson é explorado sorteando-se o tamanho das amostras em cada categoria dentro de um range máximo possível que pode ocorrer essa diferença de tamanhos. Note que quando o range máximo aumenta, aumenta-se também a chance do paradoxo ocorrer. A figura abaixo apresenta essa tendência:

Simpson paradox

O código usado para gerar essa figura está aqui:

import matplotlib.pyplot as plt
import numpy as np
import random

def checkSimpson(nAD,nAE,nARD,nARE,nBD,nBE,nBRD,nBRE):
    nA=nAD+nAE    
    pRAD=nARD/nAD
    pRAE=nARE/nAE
    pDA=nAD/nA
    pEA=nAE/nA
    pRA=pRAD*pDA+pRAE*pEA


    nB=nBD+nBE    
    pRBD=nBRD/nBD
    pRBE=nBRE/nBE
    pDB=nBD/nB
    pEB=nBE/nB
    pRB=pRBD*pDB+pRBE*pEB      



    if(((pRAD>pRBD) and (pRAE>pRBE) and (pRA<pRB)) or ((pRAD<pRBD) and (pRAE<pRBE) and (pRA>pRB))):
        return True
    else:
        return False


if __name__ == '__main__':


    minimalSize=50
    step=100
    numberRepetitions=500000
    sizeExperiment=100

    porcentPositive=np.zeros([sizeExperiment])
    maxRange=np.empty([sizeExperiment])

    for i in range(sizeExperiment):
        print i
        maximalSize=minimalSize+i*step
        for j in range(numberRepetitions):

            nAD=1.0*random.randint(minimalSize,maximalSize)
            nAE=1.0*random.randint(minimalSize,maximalSize)
            nARD=1.0*random.randint(0,nAD)
            nARE=1.0*random.randint(0,nAE)

            nBD=1.0*random.randint(minimalSize,maximalSize)
            nBE=1.0*random.randint(minimalSize,maximalSize)
            nBRD=1.0*random.randint(0,nBD)
            nBRE=1.0*random.randint(0,nBE)
            if(checkSimpson(nAD,nAE,nARD,nARE,nBD,nBE,nBRD,nBRE)):
                porcentPositive[i]=porcentPositive[i]+1.0    
        porcentPositive[i]=(porcentPositive[i]/numberRepetitions)*100
        maxRange[i]=maximalSize-minimalSize

    fig = plt.figure()
    ax = fig.add_subplot(111)  
    fig.hold()    
    ax.plot(maxRange,porcentPositive,'r.')
    ax.set_xscale('log')
    ax.set_ylabel('Porcentagem Simpson')
    ax.set_xlabel('Maximo Range')  

Existe literatura que pode me dar mais exemplos ou mais detalhes sobre o Paradoxo de Simpson?

Sim, várias delas auxiliaram essa resposta. Dê uma olhada aqui.

...