Pular para o conteúdo

Como utilizar o web scraping no Python?

CodeMDD.io

Uma Introdução Prática ao Web Scraping em Python

O web scraping é o processo de coletar e analisar dados brutos da Web, e a comunidade Python desenvolveu algumas ferramentas de web scraping bastante poderosas.

A internet possui talvez a maior fonte de informações do planeta. Muitas áreas, como ciência de dados, inteligência empresarial e reportagem investigativa, podem se beneficiar enormemente da coleta e análise de dados de sites.

Neste tutorial, você aprenderá como:

  • Analisar dados de sites usando métodos de string e expressões regulares
  • Analisar dados de sites usando um parser HTML
  • Interagir com forms e outros componentes de sites

Coletando e Analisando Texto de Sites

Coletar dados de sites usando um processo automatizado é conhecido como web scraping. Alguns sites proíbem explicitamente o scraping de dados com ferramentas automatizadas, como as que você criará neste tutorial. Os sites fazem isso por dois motivos possíveis:

  1. O site tem um bom motivo para proteger seus dados. Por exemplo, o Google Maps não permite que você solicite muitos resultados muito rapidamente.
  2. Fazer várias solicitações repetidas ao servidor de um site pode consumir largura de banda, tornando o site lento para outros usuários e possivelmente sobrecarregando o servidor a ponto de o site deixar de responder completamente.

Antes de usar suas habilidades em Python para web scraping, é importante verificar a política de uso aceitável do site de destino para ver se acessar o site com ferramentas automatizadas viola seus termos de uso. Legalmente, o web scraping contra a vontade de um site é considerado uma área cinzenta.

Importante: Esteja ciente de que as seguintes técnicas podem ser ilegais quando usadas em sites que proíbem o web scraping.

Para este tutorial, você usará uma página hospedada no R

Notas:

  • A tabela de conteúdos não foi traduzida por ser uma parte técnica específica do site.
  • Não é necessário incorporar o logo, imagens e links do site original na tradução.