pandas相関を使いこなす方法を簡単に解説します
NumPy、SciPy、およびpandas:Pythonにおける相関
相関係数は、データセットの変数や特徴量の関連性を定量化するものです。これらの統計量は、科学や技術において非常に重要であり、Pythonには計算に使用できる優れたツールがあります。SciPy、NumPy、およびpandasの相関メソッドは、高速で包括的であり、ドキュメントも充実しています。
このチュートリアルでは、次のことを学びます:
- Pearson、Spearman、およびKendallの相関係数とは何か
- SciPy、NumPy、およびpandasの相関関数の使用方法
- データ、回帰直線、および相関行列の可視化方法(Matplotlibを使用)
相関に関する説明から始め、3つの簡単な例を見てから、NumPy、SciPy、およびpandasの相関の詳細に入っていきます。
無料ボーナス: ここをクリックして、NumPyのスキルを向上させるための最高のチュートリアル、ビデオ、書籍を紹介する無料のNumPyリソースガイドにアクセスしてください。
相関
統計学やデータサイエンスでは、データセットの2つ以上の変数(または特徴量)の関係に関心があります。データセットの各データポイントは観測値であり、特徴量はそれらの観測値の特性や属性です。
使用するデータセットには常に変数と観測値があります。たとえば、以下のことを理解したいと思うかもしれません。
- バスケットボール選手の身長とシューティングの精度の間の関係はどのようなものか
- 従業員の勤続年数と給与の間に関係があるかどうかは
- 異なる国の人口密度と国内総生産の間に数学的な依存関係が存在するかどうか
上の例では、身長、シューティング精度、勤続年数、給与、人口密度、国内総生産が特徴量や変数です。各選手、従業員、および各国に関連するデータは観測値です。
データが表の形で表される場合、その表の行は通常観測値であり、列は特徴量や変数です。