Пропустить до содержимого

Как использовать розового питона в учебниках Python?

[

Роза против Джека, или женщины против мужчин | Python Learn / Courses / Kaggle Python

В этом руководстве мы рассмотрим основные шаги, которые вам понадобятся, прежде чем начнете строить предиктивные модели. Вот пошаговое руководство, охватывающее основные этапы работы с Python в машинном обучении.

Получение данных с помощью Pandas

Перед тем, как начать строить предиктивные модели, вам необходимо получить данные. Одним из способов сделать это является использование библиотеки Pandas.

import pandas as pd
# Загрузка данных
data = pd.read_csv('data.csv')
# Вывод первых 5 строк данных
print(data.head())

Понимание ваших данных

После того, как вы получили данные, важно понять их структуру и содержание.

# Вывод информации о данных
print(data.info())
# Вывод статистической сводки
print(data.describe())

Роза против Джека, или женщины против мужчин

Используя полученные данные, мы можем проанализировать, как пол влияет на выживаемость пассажиров.

# Вычисление выживаемости для каждого пола
survived_by_sex = data['Survived'].value_counts(normalize=True)
print(survived_by_sex)
# Вычисление выживаемости для каждого пола в абсолютных числах
survived_by_sex_absolute = data.groupby('Sex')['Survived'].value_counts()
print(survived_by_sex_absolute)

Первое предсказание

Мы можем использовать полученные данные для создания первого предсказания.

# Создание новой колонки "Predicted" и заполнение значений "Not Survived"
data['Predicted'] = 'Not Survived'
# Изменение значения "Predicted" для женщин на "Survived"
data.loc[data['Sex'] == 'female', 'Predicted'] = 'Survived'
# Вычисление точности предсказания
accuracy = (data['Predicted'] == data['Survived']).mean()
print('Prediction Accuracy:', accuracy)

Улучшение предсказаний с помощью случайного леса

Чтобы улучшить наши предсказания, мы можем использовать метод машинного обучения, называемый случайный лес.

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(data.drop('Survived', axis=1), data['Survived'], test_size=0.2)
# Создание и обучение модели случайного леса
model = RandomForestClassifier()
model.fit(X_train, y_train)
# Вычисление точности предсказания на тестовой выборке
accuracy = model.score(X_test, y_test)
print('Prediction Accuracy:', accuracy)

Заключение

В этом руководстве мы рассмотрели основные шаги работы с Python в машинном обучении, включая получение данных, анализ, предсказание и улучшение предсказаний с помощью случайного леса. Эти навыки и инструменты помогут вам стать более эффективным в работе с Python и машинным обучением.