Pandas — это библиотека Python с открытым исходным кодом, используемая для высокопроизводительной обработки данных и анализа данных с использованием ее мощных структур данных. Python с пандами используется в различных академических и коммерческих областях, включая финансы, экономику, статистику, рекламу, веб-аналитику и многое другое. Используя Pandas, мы можем выполнить пять типичных шагов по обработке и анализу данных, независимо от происхождения данных — загрузить, организовать, манипулировать, моделировать и анализировать данные.
Ниже приведены некоторые важные функции Pandas, которые используются специально для обработки данных и анализа данных.
Ключевые особенности панд
- Быстрый и эффективный объект DataFrame с индивидуальной индексацией по умолчанию.
- Инструменты для загрузки данных в объекты данных в памяти из разных форматов файлов.
- Выравнивание данных и интегрированная обработка отсутствующих данных.
- Изменение формы и поворот наборов дат.
- Метка нарезки, индексация и подмножество больших наборов данных.
- Столбцы из структуры данных могут быть удалены или вставлены.
- Группировка по данным для агрегации и преобразований.
- Высокая производительность слияния и объединения данных.
- Функциональность временных рядов.
Панды имеют дело со следующими тремя структурами данных —
- Серии
- DataFrame
Эти структуры данных построены на основе массива Numpy, что делает их быстрыми и эффективными.
Размер и описание
Лучший способ думать об этих структурах данных состоит в том, что многомерная структура данных является контейнером ее низкоразмерной структуры данных. Например, DataFrame — это контейнер Series, Panel — это контейнер DataFrame.
Структура данных | Размеры | Описание |
---|---|---|
Серии | 1 | 1D помеченный однородный массив, неизменяемый по размеру. |
Фреймы данных | 2 | Общая двумерная помеченная таблично-изменяемая структура с потенциально разнородными столбцами. |
DataFrame широко используется и является наиболее важной структурой данных.
Серии
Серия представляет собой одномерную массивоподобную структуру с однородными данными. Например, следующий ряд представляет собой набор целых чисел 10, 23, 56,…
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Ключевые моменты серии
- Однородные данные
- Размер неизменный
- Значения изменяемых данных
DataFrame
DataFrame — это двумерный массив с разнородными данными. Например,
название | Возраст | Пол | Рейтинг |
---|---|---|---|
Стив | 32 | мужчина | 3,45 |
Lia | 28 | женский | 4,6 |
Vin | 45 | мужчина | 3,9 |
Кэти | 38 | женский | 2,78 |
В таблице представлены данные отдела продаж организации с их общей оценкой эффективности. Данные представлены в строках и столбцах. Каждый столбец представляет атрибут, а каждая строка представляет человека.
Тип данных столбцов
Типы данных четырех столбцов следующие:
колонка | Тип |
---|---|
название | строка |
Возраст | целое число |
Пол | строка |
Рейтинг | терка |
Ключевые моменты фрейма данных
- Гетерогенные данные
- Размер изменчивый
- Изменяемые данные
В следующих главах мы увидим множество примеров использования библиотеки Python для pandas в работе над наукой о данных.