Учебники

Agile Data Science — Визуализация данных

Визуализация данных играет очень важную роль в науке о данных. Мы можем рассматривать визуализацию данных как модуль науки о данных. Наука данных включает в себя нечто большее, чем построение прогностических моделей. Он включает в себя объяснение моделей и их использование для понимания данных и принятия решений. Визуализация данных является неотъемлемой частью представления данных наиболее убедительным образом.

С точки зрения науки о данных визуализация данных — это особенность, которая показывает изменения и тенденции.

Рассмотрим следующие рекомендации для эффективной визуализации данных —

  • Расположите данные по общему масштабу.

  • Использование баров более эффективно по сравнению кругов и квадратов.

  • Правильный цвет должен быть использован для точечных графиков.

  • Используйте круговую диаграмму, чтобы показать пропорции.

  • Визуализация солнечных лучей более эффективна для иерархических графиков.

Расположите данные по общему масштабу.

Использование баров более эффективно по сравнению кругов и квадратов.

Правильный цвет должен быть использован для точечных графиков.

Используйте круговую диаграмму, чтобы показать пропорции.

Визуализация солнечных лучей более эффективна для иерархических графиков.

Для Agile нужен простой язык сценариев для визуализации данных, а вместе с наукой о данных в сотрудничестве «Python» — это рекомендуемый язык для визуализации данных.

Пример 1

В следующем примере демонстрируется визуализация данных ВВП, рассчитанного в определенные годы. Matplotlib — лучшая библиотека для визуализации данных в Python. Установка этой библиотеки показана ниже —

Демонстрирует визуализацию данных

Рассмотрим следующий код, чтобы понять это —

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Выход

Приведенный выше код генерирует следующий вывод —

Код генерирует

Существует множество способов настроить диаграммы с помощью меток осей, стилей линий и маркеров точек. Давайте сосредоточимся на следующем примере, который демонстрирует лучшую визуализацию данных. Эти результаты могут быть использованы для лучшего результата.

Пример 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Выход

Приведенный выше код генерирует следующий вывод —