Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Alguém pode me explicar intuitivamente a distribuição normal?

+1 voto
1,560 visitas
perguntada Jul 30, 2015 em Estatística por danielcajueiro (5,666 pontos)  

Gauss e a distribuição normal no fundo. Uma homenagem do Marco Alemão.

A imagem será apresentada aqui.

Compartilhe

1 Resposta

+1 voto
respondida Jul 30, 2015 por danielcajueiro (5,666 pontos)  

Se você não sabe o que é a distribuição normal, siga aqui. Em caso contrário continue lendo essa publicação.

Como a distribuição normal foi concebida? Por que essa fórmula específica?

Essa pergunta nos remete historicamente a "busca por uma fórmula para modelar erros de medidas em astronomia". Físicos (ou astrônomos) costumavam fazer medidas e perceberam que apareciam medidas diferentes de um mesmo fenômeno e eles se perguntavam: Como lidar com medidas diferentes? Na tentativa de responder a essa pergunta, várias etapas da metodologia padrão utilizada em estatística surgiram de pesquisas nessa área, entre elas, a idéia de fazer várias medidas do mesmo experimento, de agregar resultados em uma medida simples como média ou mediana ou ainda encontrar uma distribuição que pudesse modelar esses erros.

A fórmula específica da distribuição normal surgiu de três hipóteses básicas (e mais algumas hipóteses técnicas como diferenciabilidade) fornecidas por Gauss:

(1) Erros pequenos são mais prováveis que erros grandes (dificilmente os erros se afastam da normalidade).

(2) A probabilidade de ocorrer erros maiores ou menores que a medida "correta" é a mesma (simetria).

(3) Na presença de várias medidas, a mais provável é aquela dada por sua média (existência de um parâmetro de referência).

Se você quiser ter acesso a prova formal, vá aqui.

Intuição: Para que serve a distribuição normal?

Intuitivamente, eu gosto de pensar na distribuição normal como uma distribuição que modela variáveis aleatórias simétricas que tem uma "escala" bem definida, isto é, os valores assumidos pela variável de interesse não se afastam muito de um determinado valor de referência que chamamos de média (ou parâmetro de localização). Por exemplo, considere a variável aleatória que é a temperatura medida 10 horas da noite no dia primeiro de julho em Salvador (BA), uma vez por ano. Depois de ter morado lá por 24 anos, eu acredito que alguém se fizer essa medição encontrará um valor em torno de 22 graus celsius. Provavelmente não encontrará valores que maiores que 25 graus e menores que 19 graus. Dessa forma, a distribuição normal parece ser útil para modelar essa variável temperatura, que aparentemente flutua em torno de de 22 graus.

Logo, a distribuição normal modela variáveis que se comportam dentro da "normalidade". Com alta probabilidade, as amostras de uma variável aleatória normal não apresentará surpresas.

Aleatoriedade pode ser sempre modelada pela distribuição normal?

Não, apenas situações em que a variável de interesse é simétrica em torno de um ponto de referência e vemos uma "escala" bem definida - ou seja, o comportamento médio está dentro da normalidade, como descrito acima. Por exemplo, considere a variável aleatória "renda per capita mensal de uma família". Note que essa variável aleatória não tem uma escala bem definida. Você já ouviu o ditado? "Enquanto 80% da população controla apenas 20% da riqueza, os 20% restantes controlam 80% da riqueza". Obviamente, essa variável não pode ser modelada pela distribuição normal. De fato, essa variável riqueza muitas vezes é modelada aproximadamente por distribuições que tem variância infinita (sem nenhuma escala).

Máquina de feijões:

A primeira vez que vi esse experimento conhecido como "Máquina de Feijões" foi quando fiz o curso de Física I na UFBA, mas, naquele momento, usamos bolas de gude. Como já mencionei, físicos estão muito interessados na distribuição dos erros de medidas e historicamente essa questão teve papel fundamental no desenvolvimento da distribuição normal.

Esse experimento está apresentado nas figuras abaixo. A implementação desse experimento que gerou essas figuras em Python está aqui (se você não programa ainda e gostaria de entender melhor esse experimento, você pode seguir por aqui para aprender R e aqui para aprender python).

A imagem será apresentada aqui.

A imagem será apresentada aqui.

Esse experimento, inventado por Francis Galton, explora a convergência da distribuição binomial para a distribuição normal. Na versão computacional desse experimento, apresentado nas figuras acima, um pequeno grão é colocado na plateleira mais alta e vai descendo as prateleiras indo para a esquerda ou para a direita com a mesma probabilidade. Note que é bem improvável que cada grão se "afaste da normalidade" (se afaste das colunas centrais), pois para isso ocorrer precisaria-se que na maioria das prateleiras ele fosse apenas para um dos lados.

Por que a distribuição normal é tão útil para modelar coisas que ocorrem na natureza?

Essa é uma consequencia do teorema central do limite. Ele diz que a distribuição da média aritmética de variáveis aleatórias com médias e variâncias bem definidas converge para a distribuição normal. Veja o exercício apresentado na figura abaixo feito usando uma simulação Monte Carlo. Nesse exercício, sorteamos variáveis aleatórias de uma distribuição uniforme, calculamos várias médias aritméticas e construímos a distribuição empírica. Você pegou a idéia? Se as variáveis são independentes e bem comportadas (médias e variâncias finitas), suas "médias" se comportam na normalidade. Ou seja, o "cara" médio é normal.

A imagem será apresentada aqui.

O código usado para gerar esse experimento foi esse:

import numpy as np

def geracaoDados(n):
    x=np.random.uniform(0,1,n)
    return x


if __name__ == '__main__':
    numeroAmostras=10000
    n=30 # numero de observacoes por amostra
    vetor=np.empty([numeroAmostras])
    for i in range(0,numeroAmostras):
        x=geracaoDados(n)
        media=np.mean(x)
        vetor[i]=media
    matplotlib.pyplot.hist(vetor,bins=30)
...