Como utilizar o web scraping no Python?
Uma Introdução Prática ao Web Scraping em Python
O web scraping é o processo de coletar e analisar dados brutos da Web, e a comunidade Python desenvolveu algumas ferramentas de web scraping bastante poderosas.
A internet possui talvez a maior fonte de informações do planeta. Muitas áreas, como ciência de dados, inteligência empresarial e reportagem investigativa, podem se beneficiar enormemente da coleta e análise de dados de sites.
Neste tutorial, você aprenderá como:
- Analisar dados de sites usando métodos de string e expressões regulares
- Analisar dados de sites usando um parser HTML
- Interagir com forms e outros componentes de sites
Coletando e Analisando Texto de Sites
Coletar dados de sites usando um processo automatizado é conhecido como web scraping. Alguns sites proíbem explicitamente o scraping de dados com ferramentas automatizadas, como as que você criará neste tutorial. Os sites fazem isso por dois motivos possíveis:
- O site tem um bom motivo para proteger seus dados. Por exemplo, o Google Maps não permite que você solicite muitos resultados muito rapidamente.
- Fazer várias solicitações repetidas ao servidor de um site pode consumir largura de banda, tornando o site lento para outros usuários e possivelmente sobrecarregando o servidor a ponto de o site deixar de responder completamente.
Antes de usar suas habilidades em Python para web scraping, é importante verificar a política de uso aceitável do site de destino para ver se acessar o site com ferramentas automatizadas viola seus termos de uso. Legalmente, o web scraping contra a vontade de um site é considerado uma área cinzenta.
Importante: Esteja ciente de que as seguintes técnicas podem ser ilegais quando usadas em sites que proíbem o web scraping.
Para este tutorial, você usará uma página hospedada no R
Notas:
- A tabela de conteúdos não foi traduzida por ser uma parte técnica específica do site.
- Não é necessário incorporar o logo, imagens e links do site original na tradução.