콘텐츠로 건너뛰기

제목 생성 도움을 받을까요?

[

팬더스(Pandas) 입문 가이드


개요

팬더스(Pandas)는 파이썬에서 데이터 조작과 분석을 위해 사용되는 강력한 라이브러리입니다. 이 튜토리얼에서는 팬더스의 주요 기능과 사용법에 대해 알려드리겠습니다. 또한 팬더스를 사용하여 데이터를 효과적으로 조작하고 분석하는 방법에 대해 상세한 단계별 가이드와 실제 사용 코드를 제공하겠습니다.


주요 기능

팬더스는 다음과 같은 주요 기능을 제공합니다:

  1. 데이터 적재 및 저장: CSV, Excel, SQL 데이터베이스, JSON 등 다양한 데이터 소스에서 데이터를 적재하고 저장할 수 있습니다.
  2. 데이터 조작: 데이터프레임(DataFrame)이라는 자료구조를 사용하여 데이터를 조작하고 변환할 수 있습니다.
  3. 데이터 요약: 통계적 요약, 그룹화, 피벗팅 등을 사용하여 데이터를 요약하고 집계할 수 있습니다.
  4. 데이터 시각화: Matplotlib 라이브러리와 함께 사용하여 데이터를 시각적으로 표현할 수 있습니다.
  5. 누락된 데이터 처리: 누락된 데이터 처리를 위한 다양한 기능을 제공합니다.
  6. 시계열 데이터 지원: 시계열 데이터를 다룰 수 있는 기능을 제공합니다.

팬더스 설치 및 임포트

아래 명령을 사용하여 팬더스를 설치할 수 있습니다:

Terminal window
pip install pandas

설치가 완료되면 아래와 같이 팬더스를 임포트하여 사용할 수 있습니다:

import pandas as pd

데이터 적재 및 저장

CSV 파일 적재

CSV 파일을 팬더스의 데이터프레임으로 적재하려면 pd.read_csv() 함수를 사용합니다. 예를 들어, data.csv 파일을 적재하려면 다음과 같이 하십시오:

df = pd.read_csv('data.csv')

Excel 파일 적재

Excel 파일을 팬더스의 데이터프레임으로 적재하려면 pd.read_excel() 함수를 사용합니다. 예를 들어, data.xlsx 파일의 Sheet1을 적재하려면 다음과 같이 하십시오:

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

데이터베이스 적재

SQL 데이터베이스에서 데이터를 적재하려면 pd.read_sql() 함수를 사용합니다. 예를 들어, SQLite 데이터베이스의 customers 테이블을 적재하려면 다음과 같이 하십시오:

import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM customers', conn)

CSV 파일 저장

데이터프레임을 CSV 파일로 저장하려면 df.to_csv() 함수를 사용합니다. 예를 들어, output.csv 파일로 저장하려면 다음과 같이 하십시오:

df.to_csv('output.csv', index=False)

데이터 조작

데이터프레임 살펴보기

데이터프레임의 상위 몇 개의 행을 확인하려면 df.head() 함수를 사용합니다. 기본적으로 상위 5개의 행이 표시됩니다. 예를 들어, 상위 10개의 행을 확인하려면 다음과 같이 하십시오:

df.head(10)

컬럼 선택

특정 컬럼만 선택하려면 다음과 같이 컬럼의 이름을 전달하면 됩니다:

df['column_name']

여러 개의 컬럼을 선택하려면 컬럼 이름의 리스트를 전달하면 됩니다:

df[['column1', 'column2']]

조건에 따른 행 필터링

특정 조건에 맞는 행만 필터링하려면 다음과 같이 조건을 전달하면 됩니다:

df[df['column'] > value]

데이터프레임 정렬

특정 컬럼을 기준으로 데이터프레임을 정렬하려면 df.sort_values() 함수를 사용합니다. 예를 들어, column을 기준으로 오름차순으로 정렬하려면 다음과 같이 하십시오:

df.sort_values(by='column')

데이터 요약

기초 통계 정보

데이터프레임의 기초 통계 정보를 확인하려면 df.describe() 함수를 사용합니다:

df.describe()

그룹화와 집계

특정 컬럼을 기준으로 그룹화하고 집계를 수행하려면 df.groupby() 함수와 집계 함수를 함께 사용합니다. 예를 들어, column을 기준으로 그룹화하고 mean() 함수를 사용하여 평균을 계산하려면 다음과 같이 하십시오:

df.groupby('column').mean()

피벗팅

데이터프레임을 피벗팅하여 인덱스와 컬럼을 변경하고 값을 재구조화할 수 있습니다. 예를 들어, index를 인덱스로 사용하고 columns를 컬럼으로 사용하여 values로 값을 채워넣으려면 다음과 같이 하십시오:

df.pivot_table(index='index', columns='columns', values='values')

데이터 시각화

선 그래프

데이터프레임의 컬럼을 선 그래프로 표현하려면 df.plot() 함수를 사용합니다. 예를 들어, column 컬럼을 선 그래프로 표현하려면 다음과 같이 하십시오:

df['column'].plot()

막대 그래프

데이터프레임의 컬럼을 막대 그래프로 표현하려면 df.plot.bar() 함수를 사용합니다. 예를 들어, column 컬럼을 막대 그래프로 표현하려면 다음과 같이 하십시오:

df['column'].plot.bar()

누락된 데이터 처리

누락된 데이터 확인

데이터프레임에서 누락된 데이터를 확인하려면 df.isna() 함수를 사용합니다. 예를 들어, 누락된 데이터가 있는지 확인하려면 다음과 같이 하십시오:

df.isna()

누락된 데이터 대체

누락된 데이터를 다른 값으로 대체하려면 df.fillna() 함수를 사용합니다. 예를 들어, 누락된 데이터를 0으로 대체하려면 다음과 같이 하십시오:

df.fillna(0)

시계열 데이터 지원

팬더스는 시계열 데이터를 다루는데 유용한 기능을 제공합니다. 예를 들어, 특정 컬럼을 날짜/시간 형식으로 변환하려면 pd.to_datetime() 함수를 사용합니다. 예를 들어, column 컬럼을 날짜/시간 형식으로 변환하려면 다음과 같이 하십시오:

df['column'] = pd.to_datetime(df['column'])

결론

이제 팬더스의 주요 기능과 사용법에 대해 알아보았습니다. 본 튜토리얼을 통해 팬더스를 사용하여 데이터를 적재, 조작 및 분석하는 방법에 대해 배웠습니다. 이제 여러분은 팬더스를 이용하여 데이터 처리 및 분석 작업을 보다 효과적으로 수행할 수 있을 것입니다.

더 자세한 내용은 팬더스 공식 문서를 참고하시기 바랍니다.


References: