Учебники

Введение в структуры данных

Панды имеют дело со следующими тремя структурами данных –

  • Серии
  • DataFrame
  • панель

Эти структуры данных построены поверх массива Numpy, что означает, что они быстрые.

Размер и описание

Лучший способ думать об этих структурах данных состоит в том, что многомерная структура данных является контейнером ее низкоразмерной структуры данных. Например, DataFrame – это контейнер Series, Panel – это контейнер DataFrame.

Структура данных Размеры Описание
Серии 1 1D помечен однородный массив, размер не изменяемый.
Фреймы данных 2 Общая двумерная помеченная таблично-изменяемая структура с потенциально разнородными столбцами.
панель 3 Общий 3D помеченный, изменяемый по размеру массив.

Построение и обработка двух или более многомерных массивов – это утомительная задача, на которую ложится нагрузка на пользователя, чтобы учитывать ориентацию набора данных при написании функций. Но при использовании структур данных Pandas умственные усилия пользователя снижаются.

Например, для табличных данных (DataFrame) более семантически полезно думать об индексе (строках) и столбцах, а не оси 0 и оси 1.

переменчивость

Все структуры данных Pandas являются изменяемыми по значению (могут быть изменены) и, кроме Series, все могут изменяться по размеру. Серия неизменна по размеру.

Примечание. DataFrame широко используется и является одной из наиболее важных структур данных. Панель используется гораздо меньше.

Серии

Серия представляет собой одномерную массивоподобную структуру с однородными данными. Например, следующий ряд представляет собой набор целых чисел 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Ключевые моменты

  • Однородные данные
  • Размер неизменный
  • Значения изменяемых данных

DataFrame

DataFrame – это двумерный массив с разнородными данными. Например,

название Возраст Пол Рейтинг
Стив 32 мужчина 3,45
Lia 28 женский 4,6
Vin 45 мужчина 3,9
Кэти 38 женский 2,78

В таблице представлены данные отдела продаж организации с их общей оценкой эффективности. Данные представлены в строках и столбцах. Каждый столбец представляет атрибут, а каждая строка представляет человека.

Тип данных столбцов

Типы данных четырех столбцов следующие:

колонка Тип
название строка
Возраст целое число
Пол строка
Рейтинг терка

Ключевые моменты

  • Гетерогенные данные
  • Размер изменчивый
  • Изменяемые данные

панель

Панель представляет собой трехмерную структуру данных с разнородными данными. Трудно представить панель в графическом представлении. Но панель может быть проиллюстрирована как контейнер DataFrame.