Анализ данных — это процесс сбора, преобразования, очистки и моделирования данных с целью обнаружения необходимой информации. Полученные результаты сообщаются, предлагая выводы и поддерживая принятие решений. Визуализация данных иногда используется для изображения данных для облегчения обнаружения полезных шаблонов в данных. Термины «Моделирование данных» и «Анализ данных» означают одно и то же.
Процесс анализа данных состоит из следующих этапов, которые являются итеративными по своей природе —
- Спецификация требований к данным
- Сбор информации
- Обработка данных
- Очистка данных
- Анализ данных
- связь
Спецификация требований к данным
Данные, необходимые для анализа, основаны на вопросе или эксперименте. На основании требований тех, кто руководит анализом, определяются данные, необходимые в качестве исходных данных для анализа (например, население). Конкретные переменные, касающиеся населения (например, возраст и доход) могут быть указаны и получены. Данные могут быть числовыми или категориальными.
Сбор информации
Сбор данных — это процесс сбора информации о целевых переменных, определенных как требования к данным. Акцент делается на обеспечение точного и честного сбора данных. Сбор данных гарантирует, что собранные данные являются точными, так что соответствующие решения являются действительными. Сбор данных обеспечивает как базовую линию для измерения, так и цель для улучшения.
Данные собираются из различных источников, начиная от организационных баз данных и заканчивая информацией на веб-страницах. Полученные таким образом данные могут не быть структурированными и могут содержать не относящуюся к делу информацию. Следовательно, собранные данные должны быть подвергнуты обработке и очистке данных.
Обработка данных
Собранные данные должны быть обработаны или организованы для анализа. Это включает структурирование данных в соответствии с требованиями для соответствующих инструментов анализа. Например, данные могут быть помещены в строки и столбцы таблицы в электронной таблице или статистическом приложении. Модель данных может быть необходимо создать.
Очистка данных
Обработанные и упорядоченные данные могут быть неполными, содержать дубликаты или содержать ошибки. Очистка данных — это процесс предотвращения и исправления этих ошибок. Существует несколько типов очистки данных, которые зависят от типа данных. Например, при очистке финансовых данных некоторые итоги могут сравниваться с достоверными опубликованными числами или определенными пороговыми значениями. Аналогично, методы количественных данных могут использоваться для обнаружения выбросов, которые впоследствии будут исключены из анализа.
Анализ данных
Данные, которые обрабатываются, организуются и очищаются, будут готовы для анализа. Различные методы анализа данных доступны для понимания, интерпретации и вывода выводов на основе требований. Визуализация данных также может использоваться для проверки данных в графическом формате, чтобы получить дополнительную информацию о сообщениях в данных.
Статистические модели данных, такие как корреляция, регрессионный анализ, могут использоваться для определения отношений между переменными данных. Эти модели, которые описывают данные, полезны для упрощения анализа и передачи результатов.
Процесс может потребовать дополнительной очистки данных или дополнительного сбора данных, и, следовательно, эти действия носят итеративный характер.
связь
Результаты анализа данных должны сообщаться в формате, который требуется пользователям для поддержки их решений и дальнейших действий. Отзывы пользователей могут привести к дополнительному анализу.
Аналитики данных могут выбирать методы визуализации данных, такие как таблицы и диаграммы, которые помогают четко и эффективно донести сообщение до пользователей. Инструменты анализа предоставляют возможность выделить необходимую информацию с помощью цветовых кодов и форматирования в таблицах и диаграммах.