Учебники

Питон — Панды

Pandas — это библиотека Python с открытым исходным кодом, используемая для высокопроизводительной обработки данных и анализа данных с использованием ее мощных структур данных. Python с пандами используется в различных академических и коммерческих областях, включая финансы, экономику, статистику, рекламу, веб-аналитику и многое другое. Используя Pandas, мы можем выполнить пять типичных шагов по обработке и анализу данных, независимо от происхождения данных — загрузить, организовать, манипулировать, моделировать и анализировать данные.

Ниже приведены некоторые важные функции Pandas, которые используются специально для обработки данных и анализа данных.

Ключевые особенности панд

  • Быстрый и эффективный объект DataFrame с индивидуальной индексацией по умолчанию.
  • Инструменты для загрузки данных в объекты данных в памяти из разных форматов файлов.
  • Выравнивание данных и интегрированная обработка отсутствующих данных.
  • Изменение формы и поворот наборов дат.
  • Метка нарезки, индексация и подмножество больших наборов данных.
  • Столбцы из структуры данных могут быть удалены или вставлены.
  • Группировка по данным для агрегации и преобразований.
  • Высокая производительность слияния и объединения данных.
  • Функциональность временных рядов.

Панды имеют дело со следующими тремя структурами данных —

  • Серии
  • DataFrame

Эти структуры данных построены на основе массива Numpy, что делает их быстрыми и эффективными.

Размер и описание

Лучший способ думать об этих структурах данных состоит в том, что многомерная структура данных является контейнером ее низкоразмерной структуры данных. Например, DataFrame — это контейнер Series, Panel — это контейнер DataFrame.

Структура данных Размеры Описание
Серии 1 1D помеченный однородный массив, неизменяемый по размеру.
Фреймы данных 2 Общая двумерная помеченная таблично-изменяемая структура с потенциально разнородными столбцами.

DataFrame широко используется и является наиболее важной структурой данных.

Серии

Серия представляет собой одномерную массивоподобную структуру с однородными данными. Например, следующий ряд представляет собой набор целых чисел 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Ключевые моменты серии

  • Однородные данные
  • Размер неизменный
  • Значения изменяемых данных

DataFrame

DataFrame — это двумерный массив с разнородными данными. Например,

название Возраст Пол Рейтинг
Стив 32 мужчина 3,45
Lia 28 женский 4,6
Vin 45 мужчина 3,9
Кэти 38 женский 2,78

В таблице представлены данные отдела продаж организации с их общей оценкой эффективности. Данные представлены в строках и столбцах. Каждый столбец представляет атрибут, а каждая строка представляет человека.

Тип данных столбцов

Типы данных четырех столбцов следующие:

колонка Тип
название строка
Возраст целое число
Пол строка
Рейтинг терка

Ключевые моменты фрейма данных

  • Гетерогенные данные
  • Размер изменчивый
  • Изменяемые данные

В следующих главах мы увидим множество примеров использования библиотеки Python для pandas в работе над наукой о данных.