A formação necessária para lidar com dados e big data é uma mistura dos pre-requisitos necessários para se tornar um cientista da computação e um estatístico.
1) Disciplinas de cálculo incluindo principalmente cálculo no \(\Re^n\) e otimização.
2) Matemática discreta
3) Álgebra linear
4) Cálculo numérico e álgebra linear computacional
5) Noções de análise funcional aplicada (Teorema do Ponto Fixo, Teorema da Projeção)
6) Teoria da Probabilidade e Estatística
7) Estatística Multivariada
8) Modelos de regressão
9)Algoritmos (Por exemplo, livro do Algoritmos - cormen)
Veja também: Como um programador iniciante pode se tornar um programador intermediário? e Como um programador intermediário pode se tornar um programador avançado?
10) Aprendizagem por reforço (Por exemplo, Programação Dinâmica - Puterman)
11) Linguagens: Python e R
12) Base de dados: Hadoop
Finalmente, você precisa ter experiências práticas. Nada melhor do que se conectar com uma comunidade que tem os mesmos interesses que você. Você também pode enfrentar competições.