コンテンツにスキップ

pandas相関を使いこなす方法を簡単に解説します

[

NumPy、SciPy、およびpandas:Pythonにおける相関

相関係数は、データセットの変数や特徴量の関連性を定量化するものです。これらの統計量は、科学や技術において非常に重要であり、Pythonには計算に使用できる優れたツールがあります。SciPy、NumPy、およびpandasの相関メソッドは、高速で包括的であり、ドキュメントも充実しています。

このチュートリアルでは、次のことを学びます:

  • Pearson、Spearman、およびKendallの相関係数とは何か
  • SciPy、NumPy、およびpandasの相関関数の使用方法
  • データ、回帰直線、および相関行列の可視化方法(Matplotlibを使用)

相関に関する説明から始め、3つの簡単な例を見てから、NumPy、SciPy、およびpandasの相関の詳細に入っていきます。

無料ボーナス: ここをクリックして、NumPyのスキルを向上させるための最高のチュートリアル、ビデオ、書籍を紹介する無料のNumPyリソースガイドにアクセスしてください。

相関

統計学やデータサイエンスでは、データセットの2つ以上の変数(または特徴量)の関係に関心があります。データセットの各データポイントは観測値であり、特徴量はそれらの観測値の特性や属性です。

使用するデータセットには常に変数と観測値があります。たとえば、以下のことを理解したいと思うかもしれません。

上の例では、身長、シューティング精度、勤続年数、給与、人口密度、国内総生産が特徴量や変数です。各選手、従業員、および各国に関連するデータは観測値です。

データが表の形で表される場合、その表の行は通常観測値であり、列は特徴量や変数です。