Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Referências para webscrapping

+1 voto
11 visitas
perguntada Ago 2 em Programação Computacional por Raíssa (616 pontos)  

Gostaria de ter mais referências por onde estudar webscrapping. É preciso dominar html para entender webscrapping?

Compartilhe

1 Resposta

0 votos
respondida Ago 2 por danielcajueiro (5,641 pontos)  
selecionada Ago 3 por danielcajueiro
 
Melhor resposta

Vou te responder considerando que você pode querer trabalhar com Python, mas as mesmas ideias valem para R (não sou muito fã de R).

Para fazer webscraping, você vai precisar:

1) Indicar a pagina que você está interessada em uma variável.

2) Baixar o conteúdo da página.

3) Transformar o conteúdo da página em texto legível.

4) Extrair partes úteis do texto legível.

Etapas (1) a (3) normalmente é chamada de Webscrapping. Etapa (4) é chamada de Processamento de Linguagem Natural.

O processo (1) a (3) pode ser muito simples como, por exemplo, se você quiser simplesmente baixar um livro do Projeto Gutemberg automaticamente ou pode ser relativamente complexo como, por exemplo, se você quiser baixar os preços de todos os vôos Brasília - São Paulo. A diferença de complexidade está basicamente em (1).

Para trabalhar os itens (1) a (3) em python, você precisará de bibliotecas request e beautifulSoup. Qualquer livro que fale dessas bibliotecas é suficiente. Exemplos:

Web Scraping with Python - Richard Lawson

Web Scraping with Python - Ryan Mitchell

A etapa (4) terá uma complexidade contingente ao tipo de informação que você deseja extrair. Essa é uma área complexa de pesquisa, mas que você pode entender o básico usado a biblioteca nltk e o livro associado a essa biblioteca

Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit - Steven Bird, Ewan Klein, Edward Loper.

Preciso saber HTML?

Em muitas situações ajuda se você conhecer HTML, principalmente em problemas mais complexos. Mas se seu problema for um problema muito simples, a biblioteca beautifulSoup vai transformar html em texto.

...