Как сортировать столбцы в DataFrame?
pandas Сортировка: Руководство по сортировке данных в Python
Введение
Изучение методов сортировки в pandas - отличный способ начать или прокачать навыки базового анализа данных в Python. Обычно анализ данных выполняется с использованием электронных таблиц, SQL или библиотеки pandas. Одним из преимуществ использования pandas является его возможность оперировать большим объемом данных и предлагать высокопроизводительные возможности манипулирования данными.
В данном руководстве вы узнаете, как использовать методы .sort_values()
и .sort_index()
, которые помогут вам эффективно сортировать данные в DataFrame.
По окончании этого руководства вы узнаете, как:
- Сортировать pandas DataFrame по значениям одного или нескольких столбцов.
- Использовать параметр
ascending
для изменения порядка сортировки. - Сортировать DataFrame по его индексу с помощью метода
.sort_index()
. - Обрабатывать отсутствующие данные при сортировке значений.
- Сортировать DataFrame на месте с использованием параметра
inplace
равногоTrue
.
Бесплатный бонус: Нажмите здесь, чтобы получить Шпаргалку по Python и изучить основы Python 3, такие как работа с типами данных, словарями, списками и функциями Python.
Начало работы с методами сортировки в pandas
Как было напоминание, DataFrame - это таблица данных, которая состоит из строк и столбцов. Прежде чем начать использовать методы сортировки, нужно создать DataFrame. Вот несколько примеров создания DataFrame:
1. Использование списков Python
Вывод:
2. Использование словарей Python
Вывод:
3. Использование файла CSV
Вывод:
Теперь у нас есть DataFrame и мы можем приступить к использованию методов сортировки.
Знакомство с методом .sort_values()
Один из наиболее распространенных методов сортировки в pandas - это .sort_values()
. Он позволяет сортировать DataFrame по значениям одного или нескольких столбцов.
Сортировка DataFrame по одному столбцу
Для сортировки DataFrame по одному столбцу используйте метод .sort_values()
и укажите название столбца, в котором хотите произвести сортировку.
Вывод:
Изменение порядка сортировки
По умолчанию .sort_values()
сортирует значения в порядке возрастания. Чтобы отсортировать значения в порядке убывания, используйте параметр ascending=False
.
Вывод:
Выбор алгоритма сортировки
По умолчанию, .sort_values()
использует быструю сортировку (quicksort). Однако, вы можете выбрать другой алгоритм сортировки, используя параметр kind
. Допустимые значения: quicksort
, mergesort
и heapsort
.
Вывод:
Знакомство с методом .sort_index()
.sort_index()
позволяет сортировать DataFrame по индексу.
Сортировка по индексу в порядке возрастания
Вывод:
Сортировка по индексу в порядке убывания
Вывод:
Исследование продвинутых концепций сортировки по индексу
.sort_index()
может принимать другие параметры, которые позволяют более гибко настраивать сортировку. Например, параметр level
позволяет сортировать DataFrame по уровням индекса для иерархических индексов.
Вывод:
Сортировка столбцов DataFrame
Вы также можете сортировать столбцы DataFrame, устанавливая правильное значение параметра axis
в методе .sort_values()
.
Работа с осью DataFrame
Axis 0 означает сортировку по строкам, а axis 1 - по столбцам. По умолчанию, метод .sort_values()
использует axis=0
, то есть сортирует строки.
Вывод:
Использование меток столбцов для сортировки
Вместо порядковых номеров столбцов вы можете использовать метки столбцов для сортировки DataFrame.
Вывод:
Работа с отсутствующими данными при сортировке в pandas
В pandas пропущенные значения могут быть обозначены как NaN
. При сортировке DataFrame с отсутствующими данными, вы можете управлять их размещением с помощью параметра na_position
.
Размещение отсутствующих значений в методе .sort_values()
Вывод:
Размещение отсутствующих значений в методе .sort_index()
Вывод:
Использование методов сортировки для изменения DataFrame
.sort_values()
и .sort_index()
могут быть использованы для изменения DataFrame.
Использование метода .sort_values() на месте
inplace=True
позволяет изменять DataFrame на месте, без создания копии.
Вывод:
Использование метода .sort_index() на месте
Вывод:
Заключение
В этом руководстве вы узнали, как использовать методы .sort_values()
и .sort_index()
для сортировки данных в DataFrame. Вы также изучили различные параметры, позволяющие гибко настраивать сортировку. Теперь вы можете эффективно сортировать и управлять данными в pandas.
Если у вас возникли вопросы или трудности, не стесняйтесь обращаться за помощью к сообществу Python-разработчиков. Удачи в вашем путешествии в анализ данных с помощью pandas!