Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Qual é a diferença entre estatística e aprendizagem de máquinas?

+4 votos
1,348 visitas
perguntada Fev 6, 2015 em Aprendizagem de Máquinas por danielcajueiro (5,261 pontos)  
editado Mar 3, 2015 por danielcajueiro
Compartilhe

2 Respostas

+4 votos
respondida Mar 7, 2015 por danielcajueiro (5,261 pontos)  
editado Mar 7, 2015 por danielcajueiro

Eu vejo as seguintes diferenças apresentadas abaixo. Entretanto, é apenas um ponto de vista. Talvez ao longo do tempo as diferenças diminuam.

Escopo: Aprendizagem de máquina usa modelos estatísticos, mas também usa outros modelos, como programação dinâmica, aprendizagem por reforço e técnicas que vieram da inteligência artificial (algoritmos de busca, deep learning que é muito mais sobre representação de conhecimento que estatística) e otimização. Estatística também cobre áreas que não estão relacionadas diretamente com aprendizagem de máquinas como planejamento de experimentos e amostragem.

Ponto de vista: A estatística é geralmente preocupada com as propriedades dos estimadores (comportamento de viés, assintótica) e aprendizado de máquina está preocupado principalmente com a solução dos problemas do mundo real e, particularmente, previsão e reconhecimento de padrões.

Área de pesquisa: Enquanto estatística pode ser vista como uma subárea da Matemática Aplicada, Aprendizagem de Máquinas pode ser vista como uma subárea da ciência da computação. Isso é uma diferença relevante, pois implica em interesses e habilidades diferentes. Por exemplo, trabalhos importantes e seminais de estatística em geral são mais formais, enquanto trabalhos de aprendizagem de máquinas geralmente preocupam-se em explorar a escalabilidade ou a melhor representação de dados do problema lidando com temas básicos da ciência da computação que incluem complexidade computacional, estruturas abstratas de dados e memória necessária para rodar o problema.

Tratamento de dados: Estatística usualmente assume que existe uma distribuição por detrás dos dados (isso é necessário para formular testes de hipóteses), aprendizagem de máquinas assume que os dados estão apenas "lá" (disponíveis) e usam algoritmos para estudar relações entre as variáveis

Programação computacional: Enquanto as pessoas que trabalham com estatística geralmente tem uma preferência por R (ou SAS, Stata, EVIEWS), as pessoas que trabalham com a aprendizagem de máquina geralmente escolhem Python (ou outra linguagem de programação estruturada)

Apresentação dos resultados: Estatísticos normalmente divulgam resultados importantes em jornais e a comunidade de aprendizagem de máquinas divulga muitas vezes em eventos científicos.

Observações finais

Obviamente, como o Alexandre Ywata (meu amigo e co-autor) menciona em outra resposta a essa pergunta, existem áreas da estatística que se aproximam mais de machine learning e uma delas é aquela conhecida como statistical learning. Uma forma de confirmar essa opinião é dar uma olhada nas principais referências da área e compara-las:

Machine learning:

Pattern Recognition and Machine Learning - Christopher Bishop

Deep Learning book - Ian Goodfellow, Yoshua Bengio and Aaron Courville

Statistical Learning:

The Elements of Statistical Learning: Data Mining, Inference, and Prediction - Trevor Hastie and Robert Tibshirani

An Introduction to Statistical Learning: with Applications in R - Gareth James, Daniela Witten, Trevor Hastie e Robert Tibshirani

+3 votos
respondida Abr 12, 2015 por Alexandre Ywata (171 pontos)  

Há uma área chamada statistical learning, ou aprendizado estatístico, que se aproxima cada vez mais de machine learning, ou aprendizado de máquina. A área de machine learning em geral tem o objetivo claro de previsão (para aprendizado supervisionado) ou de identificação de grupos homogêneos (para o aprendizado não supervisionado). Nesse sentido, machine learning é muito mais focado em nível de acerto das previsões. Para isso, utilizam-se diferente algoritmos, e há técnicas consolidadas do tipo cross-validation e validation, para escolha de parâmetros de ajuste fino.

A área de estatística por outro lado está convergindo em diversos sentidos para a área de machine learning também, através da área conhecida como statistical learning. Entre as diferenças principais na área de estatística é que esta tem uma preocupação não somente como previsão, mas também com identificação explícita da relação entre variáveis. Há também em muitos casos a preocupação com identificação de causalidade. Finalmente, as técnicas de estatística buscam também tentar descrever via algum modelo probabilístico algum processo observado na prática. Por esse motivo, os modelos estatístico têm uma preocupação por exemplo com o levantamento de intervalos de confiança e testes de hipótese, que buscam levantar medidas de imprecisão nas estimativas dos parâmetros.

...