Como Classificar o dataframe por coluna: Passo a Passo.
pandas Sort: Seu Guia para Ordenar Dados em Python
por Spencer Guy
Aprender os métodos de classificação (sort
) do pandas é uma ótima maneira de começar a fazer análises de dados básicas usando Python. Mais comumente, a análise de dados é feita com planilhas, SQL ou pandas. Uma das grandes vantagens de usar o pandas é que ele pode lidar com uma grande quantidade de dados e oferece capacidades de manipulação de dados altamente eficientes.
Neste tutorial, você aprenderá como usar .sort_values()
e .sort_index()
, que permitirão que você classifique os dados de forma eficiente em um DataFrame.
Até o final deste tutorial, você aprenderá a:
- Classificar um DataFrame do pandas pelos valores de uma ou mais colunas
- Usar o parâmetro
ascending
para alterar a ordem de classificação - Classificar um DataFrame pelo seu
index
usando.sort_index()
- Organizar dados faltantes ao classificar valores
- Classificar um DataFrame no local (inplace) usando
inplace
definido comoTrue
Para acompanhar este tutorial, você precisará de um entendimento básico de DataFrames do pandas e alguma familiaridade com leitura de dados de arquivos.
Começando com os Métodos de Classificação do Pandas
Como lembrete rápido, um DataFrame é uma estrutura de dados bidimensional que contém informações em formato de tabela, semelhante a uma planilha ou a uma tabela SQL. O pandas oferece muitos métodos úteis para trabalhar com DataFrames, e o sort
é um deles. Existem duas principais funções de classificação no pandas: .sort_values()
e .sort_index()
.
Preparando o Conjunto de Dados
Para demonstrar a classificação em um DataFrame, vamos criar um exemplo simples. Aqui está um DataFrame que contém dados sobre jogadores de futebol:
Saída:
Conhecendo o .sort_values()
O método .sort_values()
permite classificar um DataFrame pelos valores de uma ou mais colunas. Por padrão, a classificação é feita em ordem crescente (ascending=True
). Vamos ver alguns exemplos:
Classificando por uma coluna em ordem crescente
Saída:
Neste exemplo, o DataFrame foi classificado pela coluna “Idade” em ordem crescente.
Mudando a ordem de classificação
Podemos alterar a ordem de classificação usando o parâmetro ascending
. Vamos classificar o DataFrame pela coluna “Idade” em ordem decrescente:
Saída:
Agora, o DataFrame foi classificado pela coluna “Idade” em ordem decrescente.
Escolhendo um algoritmo de classificação
Pandas oferece diferentes algoritmos de classificação (sort
) para classificar DataFrames. Por padrão, o algoritmo “quicksort” é usado, mas você também pode escolher o algoritmo “mergesort” ou “heapsort”. Vamos classificar o DataFrame pela coluna “Nome” usando o algoritmo “quicksort”:
Saída:
O DataFrame foi classificado pela coluna “Nome” em ordem alfabética usando o algoritmo “quicksort”.
Conhecendo o .sort_index()
O método .sort_index()
permite classificar um DataFrame pelo seu índice. Vamos ver alguns exemplos:
Classificando pelo índice em ordem crescente
Podemos classificar um DataFrame em ordem crescente com base no índice usando o método .sort_index()
:
Saída:
Nesse caso, o DataFrame foi classificado pelo índice em ordem crescente.
Classificando pelo índice em ordem decrescente
Podemos classificar o DataFrame pelo índice em ordem decrescente usando o parâmetro ascending
:
Saída:
Agora, o DataFrame foi classificado pelo índice em ordem decrescente.
Classificando as Colunas do DataFrame
Além de classificar as linhas do DataFrame, também podemos classificar as colunas. Para isso, podemos usar o parâmetro axis
. Por padrão, o axis
é 0, que indica a classificação das linhas. Vamos ver um exemplo de classificação das colunas:
Saída:
As colunas do DataFrame foram classificadas em ordem alfabética.
Trabalhando com Dados Ausentes ao Classificar no Pandas
Ao classificar um DataFrame, é importante considerar dados ausentes (NaN) e onde eles serão posicionados na classificação. O pandas tem o parâmetro na_position
que define o posicionamento dos dados ausentes na classificação. Por padrão, o na_position
é “last”, o que significa que os dados ausentes serão colocados no final da classificação. Vamos ver um exemplo:
Saída:
Observe que os dados ausentes foram colocados no final da classificação, seguindo a configuração padrão. Se você quiser que os dados ausentes sejam classificados no início, pode usar na_position='first'
:
Saída:
Agora, os dados ausentes foram classificados no início.
Usando os Métodos de Classificação para Modificar o DataFrame
Por padrão, os métodos de classificação do pandas não modificam o DataFrame original. No entanto, você pode usar o parâmetro inplace=True
para modificar o DataFrame no local. Vamos ver um exemplo:
Saída:
Agora, o DataFrame original foi modificado.
Conclusão
Os métodos .sort_values()
e .sort_index()
são ferramentas poderosas para classificar um DataFrame no pandas. Eles oferecem flexibilidade para classificar pelos valores ou pelo índice, alterar a ordem de classificação e lidar com dados ausentes. Dominar esses métodos é essencial para a análise de dados eficiente em Python.
Neste tutorial, você aprendeu os conceitos básicos de classificação no pandas e como usar os principais métodos de classificação. Agora, você está pronto para classificar e explorar seus próprios conjuntos de dados usando o pandas.
[Secções omitidas]
Esse tutorial foi inspirado em um artigo podem ser consultadas todas as informações originais que são bem mais abrangentes.