Пропустить до содержимого

Как использовать pandas сравнительно.

[

NumPy, SciPy и pandas: Корреляция с помощью Python

Коэффициенты корреляции количественно характеризуют связь между переменными или признаками набора данных. Эти статистические показатели имеют высокую важность для науки и технологий, и в Python есть отличные инструменты, с помощью которых их можно рассчитать. Методы корреляции в SciPy, NumPy и pandas быстры, полноценны и имеют хорошую документацию.

В этом руководстве вы узнаете:

  • Что такое коэффициенты корреляции Пирсона, Спирмена и Кендалла
  • Как использовать функции корреляции в SciPy, NumPy и pandas
  • Как визуализировать данные, регрессионные линии и матрицы корреляции с помощью Matplotlib

Мы начнем с объяснения корреляции, затем рассмотрим три быстрых примера и, наконец, погрузимся в детали корреляции в NumPy, SciPy и pandas.

Бесплатный бонус: Нажмите здесь, чтобы получить доступ к бесплатному Руководству по ресурсам NumPy, которое поможет вам найти лучшие учебники, видео и книги для улучшения ваших навыков работы с NumPy.

Корреляция

Статистика и наука о данных часто касаются отношений между двумя или более переменными (или признаками) набора данных. Каждая точка данных в наборе данных — это наблюдение, а признаки — свойства или характеристики этих наблюдений.

Каждый набор данных, с которым вы работаете, использует переменные и наблюдения. Например, вам может быть интересно понять следующее:

  • Как связана высота баскетболистов с их точностью бросков
  • Существует ли связь между опытом работы сотрудников и их заработной платой
  • Какова математическая зависимость между плотностью населения и валовым внутренним продуктом различных стран

В приведенных выше примерах высота, точность бросков, стаж работы, заработная плата, плотность населения и валовый внутренний продукт являются признаками или переменными. Данные, связанные с каждым игроком, сотрудником и каждой страной, являются наблюдениями.

Когда данные представлены в виде таблицы, строки этой таблицы обычно представляют собой наблюдения, а столбцы — признаки или переменные. На основе этих данных можно рассчитать различные коэффициенты корреляции, которые позволяют оценить степень линейной зависимости между признаками и определить направление этой зависимости.

Примеры:

  • Коэффициент корреляции Пирсона измеряет линейную зависимость между двумя переменными. Он может принимать значения от -1 до 1. Значение 1 означает положительную линейную зависимость, значение -1 означает отрицательную линейную зависимость, а значение 0 означает отсутствие линейной зависимости.
  • Коэффициент ранговой корреляции Спирмена также измеряет степень линейной зависимости между переменными, но он опирается на ранги значений переменных. Это означает, что ранги значений используются вместо самих значений. Коэффициент Спирмена также может принимать значения от -1 до 1.
  • Коэффициент ранговой корреляции Кендалла измеряет степень совпадения порядка между двумя переменными. Он оценивает вероятность того, что два наблюдения будут иметь одинаковый порядок по одной и той же переменной. Значение коэффициента Кендалла может также быть от -1 до 1.

Теперь, когда вы понимаете концепцию корреляции, мы можем перейти к рассмотрению примеров реализации корреляции с помощью NumPy, SciPy и pandas.

Пример: Расчет корреляции с помощью NumPy

Начнем с примера расчета корреляции с помощью библиотеки NumPy. NumPy предоставляет функцию corrcoef, которая позволяет рассчитать коэффициент корреляции Пирсона. Эта функция возвращает матрицу корреляции, где каждый элемент показывает коэффициент корреляции между соответствующими переменными.

Вот пример кода, демонстрирующий расчет корреляции с помощью NumPy:

import numpy as np
# Создание двух переменных
x = np.array([1, 2, 3, 4, 5])
y = np.array([5, 4, 3, 2, 1])
# Расчет корреляции
correlation_matrix = np.corrcoef(x, y)
print(correlation_matrix)

В этом примере мы создаем две переменные x и y, и затем используем функцию corrcoef, чтобы рассчитать матрицу корреляции. Результат будет выведен на экран.