В этой главе мы обсудим, как импортировать наборы данных и библиотеки. Давайте начнем с понимания того, как импортировать библиотеки.
Импорт библиотек
Давайте начнем с импорта Pandas, отличной библиотеки для управления реляционными (в табличном формате) наборами данных. Seaborn очень удобен при работе с DataFrames, наиболее широко используемой структурой данных для анализа данных.
Следующая команда поможет вам импортировать панд —
# Pandas for managing datasets import pandas as pd
Теперь давайте импортируем библиотеку Matplotlib, которая помогает нам настраивать наши графики.
# Matplotlib for additional customization from matplotlib import pyplot as plt
Мы импортируем библиотеку Seaborn с помощью следующей команды:
# Seaborn for plotting and styling import seaborn as sb
Импорт наборов данных
Мы импортировали необходимые библиотеки. В этом разделе мы поймем, как импортировать необходимые наборы данных.
Seaborn поставляется с несколькими важными наборами данных в библиотеке. Когда Seaborn установлен, наборы данных загружаются автоматически.
Вы можете использовать любой из этих наборов данных для обучения. С помощью следующей функции вы можете загрузить необходимый набор данных
load_dataset()
Импортирование данных как Pandas DataFrame
В этом разделе мы импортируем набор данных. Этот набор данных загружается как Pandas DataFrame по умолчанию. Если в DataFrame Pandas есть какая-либо функция, она работает в этом DataFrame.
Следующая строка кода поможет вам импортировать набор данных —
# Seaborn for plotting and styling import seaborn as sb df = sb.load_dataset('tips') print df.head()
Выше строка кода будет генерировать следующий вывод —
total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4
Чтобы просмотреть все доступные наборы данных в библиотеке Seaborn, вы можете использовать следующую команду с функцией get_dataset_names (), как показано ниже:
import seaborn as sb print sb.get_dataset_names()
Приведенная выше строка кода вернет список наборов данных, доступных как следующий вывод
[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', u'titanic']
DataFrames хранят данные в форме прямоугольных сеток, с помощью которых можно легко просматривать данные. Каждая строка прямоугольной сетки содержит значения экземпляра, а каждый столбец сетки представляет собой вектор, который содержит данные для определенной переменной. Это означает, что строки DataFrame не обязательно должны содержать значения одного и того же типа данных, они могут быть числовыми, символьными, логическими и т. Д. DataFrames для Python поставляются с библиотекой Pandas и определяются как двумерные помеченные структуры данных. с потенциально разными типами столбцов.
Для более подробной информации о DataFrames, посетите наш учебник по пандам.