Pular para o conteúdo

Como Extrair o Ano de uma Data em Python

[

Como extrair o ano de uma data em Python a partir de títulos H2 e H3

Introdução

Python é uma linguagem de programação muito poderosa e versátil. Com ela, é possível manipular texto, números, objetos e muito mais. Uma tarefa comum é extrair informações específicas de uma determinada string ou variável. Neste tutorial, vamos aprender como extrair o ano de uma data a partir de títulos H2 e H3.

Pré-requisitos

Antes de começarmos, certifique-se de ter o Python instalado em seu computador. Você pode baixar a versão mais recente do Python em python.org.

Passo a passo

  1. Primeiro, importe o módulo re do Python, que é usado para trabalhar com expressões regulares.
  2. Em seguida, vamos criar uma lista vazia chamada dates para armazenar os títulos H2 e H3 que contêm datas.
  3. Agora, precisamos percorrer todos os títulos H2 e H3 de um documento ou página da web.
    • Se estiver trabalhando com um arquivo HTML, você pode usar a biblioteca beautifulsoup4 para extrair esses títulos.
    • Caso esteja trabalhando com um texto ou string, você pode usar expressões regulares para encontrar os padrões dos títulos.
  4. Para cada título H2 e H3, usaremos uma expressão regular para buscar por datas no formato “dd/mm/yyyy” ou “dd-mm-yyyy” e armazená-las na lista dates.
    • Por exemplo, a expressão regular r"\d{2}/\d{2}/\d{4}" pode ser usada para encontrar datas no formato “dd/mm/yyyy”.
    • Se as datas estiverem no formato “dd-mm-yyyy”, você pode usar a expressão regular r"\d{2}-\d{2}-\d{4}".
    • A expressão regular r"\b\d{4}\b" pode ser usada para procurar apenas pelo ano, independentemente do formato.
  5. Após percorrer todos os títulos, temos a lista dates preenchida com todas as datas encontradas.
  6. Agora, podemos extrair apenas o ano de cada data e armazená-los em uma nova lista chamada years.
  7. Para cada data em dates, podemos usar a função split() para dividir a string nos caracteres / ou - e obter uma lista de partes, onde a última parte é o ano.
    • Por exemplo, se a data for “25/12/2022”, o uso de split("/") resultará em ["25", "12", "2022"].
    • A última parte da lista é o ano, que pode ser obtido usando -1.
  8. Agora, temos a lista years preenchida apenas com os anos extraídos de todas as datas encontradas.
  9. Podemos imprimir a lista years para visualizar todos os anos extraídos.

Aqui está o código completo que implementa essas etapas:

import re
dates = []
# Percorra os títulos H2 e H3 para encontrar datas
for title in titles:
dates += re.findall(r"\d{2}/\d{2}/\d{4}", title)
dates += re.findall(r"\d{2}-\d{2}-\d{4}", title)
years = []
# Extraia o ano de cada data
for date in dates:
year = date.split("/")[-1] # Ou date.split("-")[-1] para datas no formato "dd-mm-yyyy"
years.append(year)
# Imprima a lista de anos
print(years)

Conclusão

Neste tutorial, aprendemos como extrair o ano de uma data em Python a partir de títulos H2 e H3. Utilizamos expressões regulares para encontrar as datas nos títulos e, em seguida, manipulamos as strings para obter apenas o ano. Espero que você tenha achado este tutorial útil para suas necessidades de extração de informações em Python. Continue praticando e explorando os recursos poderosos dessa linguagem!