Guia Fácil para Iniciantes - Adicionando Múltiplas Colunas com Pandas
Pandas: Adicionar múltiplas colunas
Resumo
Neste tutorial, discutiremos como adicionar múltiplas colunas a um DataFrame usando a biblioteca Python chamada Pandas. O Pandas oferece uma série de métodos poderosos para manipulação e transformação de dados, incluindo a adição de colunas em um DataFrame existente.
Introdução
O Pandas é uma biblioteca amplamente utilizada para análise de dados em Python. Ele fornece estruturas de dados flexíveis, como o DataFrame, que nos permite trabalhar com dados tabulares de forma eficiente. Uma tarefa comum ao trabalhar com DataFrames é adicionar novas colunas para armazenar informações adicionais ou realizar cálculos com base nos valores existentes.
1. Configuração do ambiente
Antes de começarmos, precisamos instalar e importar o Pandas em nosso ambiente. Abra o terminal ou prompt de comando e execute o seguinte comando:
Após a instalação, podemos importar o Pandas em nosso código usando o comando:
2. Criando um DataFrame
Para ilustrar a adição de múltiplas colunas ao DataFrame, primeiro vamos criar um DataFrame de exemplo. Podemos criar um DataFrame vazio e, em seguida, adicionar colunas conforme necessário. Vamos considerar o seguinte exemplo:
Agora temos um DataFrame df
com três colunas: “Nome”, “Idade” e “Cidade”. Vamos prosseguir e adicionar mais colunas a este DataFrame.
3. Adicionando uma única coluna
A maneira mais simples de adicionar uma única coluna a um DataFrame é atribuir uma lista ou uma série de valores a uma nova chave no DataFrame. Por exemplo:
Neste exemplo, adicionamos a nova coluna “Salário” ao DataFrame df
. Agora o DataFrame possui quatro colunas: “Nome”, “Idade”, “Cidade” e “Salário”.
4. Adicionando múltiplas colunas com atribuição direta
O Pandas também permite adicionar múltiplas colunas a um DataFrame usando a atribuição direta. Podemos criar um dicionário em que as chaves são os nomes das colunas e os valores são as listas ou séries correspondentes. Por exemplo:
Neste exemplo, adicionamos três novas colunas (“Gênero”, “Profissão” e “Salário”) ao DataFrame df
. Os valores são atribuídos diretamente usando uma lista de listas.
5. Adicionando múltiplas colunas com base em uma função
É possível adicionar múltiplas colunas a um DataFrame aplicando uma função aos valores existentes. O Pandas fornece o método apply()
que nos permite aplicar uma função a cada valor de uma série ou DataFrame. Vamos considerar o seguinte exemplo:
Neste exemplo, definimos uma função primeira_letra()
que retorna a primeira letra de um nome. A função é aplicada à coluna “Nome” usando o método apply()
, e os valores resultantes são atribuídos a uma nova coluna “Inicial”. Agora nosso DataFrame possui uma coluna adicional chamada “Inicial”.
6. Adicionando colunas com base em operações entre colunas existentes
Outro cenário comum é adicionar colunas em um DataFrame com base em operações entre colunas existentes. Podemos usar as operações aritméticas e lógicas para criar novas colunas. Considere o seguinte exemplo:
Neste exemplo, adicionamos duas novas colunas ao DataFrame df
. A coluna “Média” é calculada como a média das colunas “Nota1” e “Nota2”. A coluna “Aprovado” é calculada com base na média, verificando se ela é maior ou igual a 7. Agora temos três colunas adicionais no DataFrame.
7. Adicionando colunas com base em condições
Podemos adicionar colunas a um DataFrame com base em condições usando a função np.select()
do NumPy. Esta função permite aplicar uma condição a uma lista de valores e retornar um valor correspondente para cada condição. Considere o seguinte exemplo:
Neste exemplo, adicionamos a nova coluna “Categoria” ao DataFrame df
com base nas condições definidas e nos valores correspondentes. Isso permite categorizar as pessoas em “Menor de idade”, “Adulto” ou “Idoso” com base em sua idade.
8. Adicionando colunas com base em dados externos
Em alguns casos, podemos precisar adicionar colunas a um DataFrame com base em dados externos. Podemos ler os dados externos em um DataFrame separado e, em seguida, mesclar ou combinar os DataFrames com base em uma coluna em comum. Considere o seguinte exemplo:
Neste exemplo, adicionamos a coluna “Salário” ao DataFrame df
com base nos dados contidos no DataFrame df2
. Os DataFrames são mesclados com base na coluna “Nome” em comum.
9. Adicionando colunas com base em um cálculo complexo
Em alguns casos, é necessário adicionar colunas a um DataFrame com base em cálculos complexos ou em lógica personalizada. Podemos usar a função apply()
novamente, desta vez aplicando uma função personalizada a cada linha ou coluna do DataFrame. Considere o seguinte exemplo:
Neste exemplo, definimos uma função calc_complexo()
que realiza um cálculo complexo com base nos valores da coluna “Idade”. A função é aplicada a cada linha do DataFrame usando o método apply()
com o argumento axis=1
. A coluna “Resultado” é adicionada ao DataFrame df
com base no cálculo realizado.
10. Adicionando colunas com base na iteração do DataFrame
Por fim, podemos iterar sobre o DataFrame e adicionar colunas com base em lógica personalizada ou cálculos complexos. Podemos usar um loop for
juntamente com o método iterrows()
para percorrer cada linha do DataFrame. Considere o seguinte exemplo:
Neste exemplo, iteramos sobre o DataFrame df
usando o método iterrows()
e adicionamos uma nova coluna chamada “Coluna_nova” com base em algum cálculo ou lógica personalizada. Usamos o método at[]
para acessar e atribuir o valor a uma célula específica do DataFrame.
Conclusão
Neste tutorial, exploramos diferentes maneiras de adicionar múltiplas colunas a um DataFrame usando a biblioteca Pandas. Vimos como adicionar uma única coluna, múltiplas colunas com atribuição direta, colunas com base em uma função, em operações entre colunas existentes, em condições, em dados externos, com cálculos complexos e iterando sobre o DataFrame. Essas técnicas são úteis para manipular e transformar dados em um DataFrame, permitindo uma análise e visualização mais eficazes.
FAQs sobre adição de múltiplas colunas com Pandas
-
Posso adicionar colunas a um DataFrame vazio? Sim, é possível adicionar colunas a um DataFrame vazio usando os mesmos métodos demonstrados neste tutorial. Basta criar um DataFrame vazio e adicionar as colunas conforme necessário.
-
Posso adicionar colunas em uma posição específica do DataFrame? O Pandas não fornece um método exclusivo para adicionar colunas em uma posição específica. No entanto, é possível reorganizar as colunas após adicioná-las ao DataFrame usando a função
reindex()
ou a funçãoreorder_columns()
do pacotedplython
. -
Como faço para remover colunas de um DataFrame? Você pode remover colunas de um DataFrame usando o método
drop()
ou atribuindo um DataFrame filtrado a uma nova variável. O métododrop()
permite remover colunas com base em seus nomes ou índices. -
Posso adicionar colunas com base em condições complexas? Sim, você pode adicionar colunas com base em condições complexas usando os métodos
apply()
ounp.select()
. Esses métodos permitem aplicar funções ou lógica personalizada para determinar os valores das novas colunas. -
Existe um limite para o número de colunas que posso adicionar a um DataFrame? O número de colunas que podem ser adicionadas a um DataFrame depende da capacidade de memória disponível em seu computador. No geral, o Pandas é capaz de lidar com DataFrames que possuem várias colunas contendo milhões de registros.