Пропустить до содержимого

Как присоединиться pandas

[

Комбинирование данных в pandas с использованием merge(), join() и concat()

Series и DataFrame в pandas являются мощными инструментами для исследования и анализа данных. Одной из их главных особенностей является их способность комбинировать отдельные наборы данных. С помощью pandas вы можете объединять, присоединять и конкатенировать ваши наборы данных, позволяя вам объединить и лучше понять данные при их анализе.

В этом руководстве вы узнаете, как и когда комбинировать ваши данные в pandas с помощью следующих методов:

  • merge() для объединения данных по общим столбцам или индексам
  • join() для объединения данных по ключевому столбцу или индексу
  • concat() для объединения DataFrame по строкам или столбцам

Если у вас есть опыт работы с объектами DataFrame и Series в pandas и вы готовы научиться их комбинировать, то это руководство поможет вам сделать это. Если вы чувствуете себя немного растерянными, вы можете обновить свои знания, просмотрев быстрые инструкции о работе с DataFrame перед продолжением.

Вы можете следовать примерам в этом руководстве, используя интерактивную Jupyter Notebook и файлы данных, доступные по ссылке ниже:

Примечание: Техники, которые вы узнаете ниже, в основном будут работать как для объектов DataFrame, так и для Series. Однако для краткости и ясности примеры будут использовать термин набор данных для обозначения объектов, которые могут быть как DataFrame, так и Series.

pandas merge(): объединение данных по общим столбцам или индексам

Первый метод, который вы узнаете, - это merge(). Вы можете использовать merge() всякий раз, когда вам требуется функциональность, подобная операциям объединения баз данных. Это самый гибкий из трех методов, которые вы узнаете.

Merge() позволяет объединять объекты данных на основе одного или нескольких ключей, как в реляционной базе данных. Более конкретно, merge() наиболее полезен, когда вам нужно объединить строки, которые имеют общие данные.

С помощью merge() вы можете выполнять объединения один-к-одному и многие-к-одному. В объединении один-к-одному один из ваших наборов данных будет иметь множество повторяющихся значений в столбце объединения. Например, значения могут быть 1, 1, 3, 5 и 5. В то же время столбец объединения в другом наборе данных не будет иметь повторяющихся значений. Возьмем, например, значения 1, 3 и 5.

Как вы могли догадаться, в объединении многие-к-многим оба столбца объединения будут иметь повторяющиеся значения. Такие объединения более сложные и приводят к формированию декартова произведения объединенных строк.

Это означает, что после объединения у вас будут все возможные комбинации строк, имеющих одинаковое значение в ключевом столбце.