Учебники

Анализ данных — процесс

Анализ данных — это процесс сбора, преобразования, очистки и моделирования данных с целью обнаружения необходимой информации. Полученные результаты сообщаются, предлагая выводы и поддерживая принятие решений. Визуализация данных иногда используется для изображения данных для облегчения обнаружения полезных шаблонов в данных. Термины «Моделирование данных» и «Анализ данных» означают одно и то же.

Процесс анализа данных состоит из следующих этапов, которые являются итеративными по своей природе —

  • Спецификация требований к данным
  • Сбор информации
  • Обработка данных
  • Очистка данных
  • Анализ данных
  • связь

Процесс анализа данных

Спецификация требований к данным

Данные, необходимые для анализа, основаны на вопросе или эксперименте. На основании требований тех, кто руководит анализом, определяются данные, необходимые в качестве исходных данных для анализа (например, население). Конкретные переменные, касающиеся населения (например, возраст и доход) могут быть указаны и получены. Данные могут быть числовыми или категориальными.

Сбор информации

Сбор данных — это процесс сбора информации о целевых переменных, определенных как требования к данным. Акцент делается на обеспечение точного и честного сбора данных. Сбор данных гарантирует, что собранные данные являются точными, так что соответствующие решения являются действительными. Сбор данных обеспечивает как базовую линию для измерения, так и цель для улучшения.

Данные собираются из различных источников, начиная от организационных баз данных и заканчивая информацией на веб-страницах. Полученные таким образом данные могут не быть структурированными и могут содержать не относящуюся к делу информацию. Следовательно, собранные данные должны быть подвергнуты обработке и очистке данных.

Обработка данных

Собранные данные должны быть обработаны или организованы для анализа. Это включает структурирование данных в соответствии с требованиями для соответствующих инструментов анализа. Например, данные могут быть помещены в строки и столбцы таблицы в электронной таблице или статистическом приложении. Модель данных может быть необходимо создать.

Очистка данных

Обработанные и упорядоченные данные могут быть неполными, содержать дубликаты или содержать ошибки. Очистка данных — это процесс предотвращения и исправления этих ошибок. Существует несколько типов очистки данных, которые зависят от типа данных. Например, при очистке финансовых данных некоторые итоги могут сравниваться с достоверными опубликованными числами или определенными пороговыми значениями. Аналогично, методы количественных данных могут использоваться для обнаружения выбросов, которые впоследствии будут исключены из анализа.

Анализ данных

Данные, которые обрабатываются, организуются и очищаются, будут готовы для анализа. Различные методы анализа данных доступны для понимания, интерпретации и вывода выводов на основе требований. Визуализация данных также может использоваться для проверки данных в графическом формате, чтобы получить дополнительную информацию о сообщениях в данных.

Статистические модели данных, такие как корреляция, регрессионный анализ, могут использоваться для определения отношений между переменными данных. Эти модели, которые описывают данные, полезны для упрощения анализа и передачи результатов.

Процесс может потребовать дополнительной очистки данных или дополнительного сбора данных, и, следовательно, эти действия носят итеративный характер.

связь

Результаты анализа данных должны сообщаться в формате, который требуется пользователям для поддержки их решений и дальнейших действий. Отзывы пользователей могут привести к дополнительному анализу.

Аналитики данных могут выбирать методы визуализации данных, такие как таблицы и диаграммы, которые помогают четко и эффективно донести сообщение до пользователей. Инструменты анализа предоставляют возможность выделить необходимую информацию с помощью цветовых кодов и форматирования в таблицах и диаграммах.