Учебники

Аналитика больших данных — жизненный цикл данных

Чтобы обеспечить основу для организации работы, необходимой для организации, и предоставить четкое представление о больших данных, полезно рассматривать ее как цикл с различными этапами. Это ни в коем случае не линейно, то есть все этапы связаны друг с другом. Этот цикл имеет поверхностное сходство с более традиционным циклом интеллектуального анализа данных, как описано в методологии CRISP .

Методология CRISP-DM

Методология CRISP-DM , обозначающая межотраслевой стандартный процесс интеллектуального анализа данных, представляет собой цикл, описывающий часто используемые подходы, используемые экспертами по интеллектуальному анализу данных для решения проблем в традиционном интеллектуальном анализе данных BI. Он все еще используется в традиционных командах интеллектуального анализа данных.

Посмотрите на следующую иллюстрацию. Он показывает основные этапы цикла, описанные методологией CRISP-DM, и их взаимосвязь.

Жизненный цикл

CRISP-DM был задуман в 1996 году, а в следующем году он был реализован как проект Европейского Союза в рамках инициативы финансирования ESPRIT. Проект возглавляли пять компаний: SPSS, Teradata, Daimler AG, NCR Corporation и OHRA (страховая компания). Проект был наконец включен в SPSS. Методология чрезвычайно детально ориентирована на то, как должен быть определен проект интеллектуального анализа данных.

Давайте теперь узнаем немного больше о каждом из этапов жизненного цикла CRISP-DM —

  • Понимание бизнеса — на этом начальном этапе основное внимание уделяется пониманию целей и требований проекта с точки зрения бизнеса, а затем преобразованию этих знаний в определение проблемы интеллектуального анализа данных. Предварительный план предназначен для достижения целей. Можно использовать модель принятия решений, особенно модель, построенную с использованием модели принятия решений и стандарта обозначений.

  • Понимание данных. Фаза понимания данных начинается с первоначального сбора данных и продолжается действиями, чтобы ознакомиться с данными, выявить проблемы с качеством данных, обнаружить первое понимание данных или обнаружить интересные подмножества, чтобы сформировать гипотезы для скрытого Информация.

  • Подготовка данных. Этап подготовки данных охватывает все действия по построению окончательного набора данных (данных, которые будут вводиться в инструмент (ы) моделирования) из исходных необработанных данных. Задачи подготовки данных, вероятно, будут выполняться несколько раз, а не в каком-либо предписанном порядке. Задачи включают выбор таблиц, записей и атрибутов, а также преобразование и очистку данных для инструментов моделирования.

  • Моделирование — на этом этапе выбираются и применяются различные методы моделирования, а их параметры калибруются до оптимальных значений. Как правило, существует несколько методов для одного и того же типа проблемы интеллектуального анализа данных. Некоторые методы предъявляют особые требования к форме данных. Поэтому часто требуется вернуться к этапу подготовки данных.

  • Оценка — на этом этапе проекта вы создали модель (или модели), которая, по-видимому, имеет высокое качество с точки зрения анализа данных. Прежде чем приступить к окончательному развертыванию модели, важно тщательно оценить модель и рассмотреть шаги, выполненные для построения модели, чтобы убедиться, что она правильно достигает бизнес-целей.

    Основная цель — определить, существует ли какая-то важная бизнес-проблема, которая не была в достаточной мере рассмотрена. В конце этого этапа должно быть принято решение об использовании результатов интеллектуального анализа данных.

  • Развертывание — создание модели, как правило, не является концом проекта. Даже если целью модели является повышение знаний о данных, полученные знания необходимо будет организовать и представить так, чтобы это было полезно для клиента.

    В зависимости от требований фаза развертывания может быть такой же простой, как создание отчета, или такой сложной, как реализация повторяющейся оценки данных (например, распределение сегментов) или процесса интеллектуального анализа данных.

Понимание бизнеса — на этом начальном этапе основное внимание уделяется пониманию целей и требований проекта с точки зрения бизнеса, а затем преобразованию этих знаний в определение проблемы интеллектуального анализа данных. Предварительный план предназначен для достижения целей. Можно использовать модель принятия решений, особенно модель, построенную с использованием модели принятия решений и стандарта обозначений.

Понимание данных. Фаза понимания данных начинается с первоначального сбора данных и продолжается действиями, чтобы ознакомиться с данными, выявить проблемы с качеством данных, обнаружить первое понимание данных или обнаружить интересные подмножества, чтобы сформировать гипотезы для скрытого Информация.

Подготовка данных. Этап подготовки данных охватывает все действия по построению окончательного набора данных (данных, которые будут вводиться в инструмент (ы) моделирования) из исходных необработанных данных. Задачи подготовки данных, вероятно, будут выполняться несколько раз, а не в каком-либо предписанном порядке. Задачи включают выбор таблиц, записей и атрибутов, а также преобразование и очистку данных для инструментов моделирования.

Моделирование — на этом этапе выбираются и применяются различные методы моделирования, а их параметры калибруются до оптимальных значений. Как правило, существует несколько методов для одного и того же типа проблемы интеллектуального анализа данных. Некоторые методы предъявляют особые требования к форме данных. Поэтому часто требуется вернуться к этапу подготовки данных.

Оценка — на этом этапе проекта вы создали модель (или модели), которая, по-видимому, имеет высокое качество с точки зрения анализа данных. Прежде чем приступить к окончательному развертыванию модели, важно тщательно оценить модель и рассмотреть шаги, выполненные для построения модели, чтобы убедиться, что она правильно достигает бизнес-целей.

Основная цель — определить, существует ли какая-то важная бизнес-проблема, которая не была в достаточной мере рассмотрена. В конце этого этапа должно быть принято решение об использовании результатов интеллектуального анализа данных.

Развертывание — создание модели, как правило, не является концом проекта. Даже если целью модели является повышение знаний о данных, полученные знания необходимо будет организовать и представить так, чтобы это было полезно для клиента.

В зависимости от требований фаза развертывания может быть такой же простой, как создание отчета, или такой сложной, как реализация повторяющейся оценки данных (например, распределение сегментов) или процесса интеллектуального анализа данных.

Во многих случаях именно заказчик, а не аналитик данных, будет выполнять этапы развертывания. Даже если аналитик развертывает модель, для клиента важно заранее понять действия, которые необходимо будет выполнить для фактического использования созданных моделей.

Методология SEMMA

SEMMA — это еще одна методология, разработанная SAS для моделирования интеллектуального анализа данных. Он обозначает S достаточно, E xplore, M odify, M odel и A sses. Вот краткое описание его этапов —

  • Выборка — процесс начинается с выборки данных, например, с выбора набора данных для моделирования. Набор данных должен быть достаточно большим, чтобы содержать достаточную информацию для извлечения, но достаточно маленьким, чтобы его можно было эффективно использовать. Этот этап также касается разделения данных.

  • Исследовать — Эта фаза охватывает понимание данных путем обнаружения ожидаемых и непредвиденных связей между переменными, а также отклонений с помощью визуализации данных.

  • Modify — фаза Modify содержит методы для выбора, создания и преобразования переменных при подготовке к моделированию данных.

  • Модель. На этапе модели основное внимание уделяется применению различных методов моделирования (интеллектуального анализа данных) к подготовленным переменным с целью создания моделей, которые могут обеспечить желаемый результат.

  • Оценка — Оценка результатов моделирования показывает надежность и полезность созданных моделей.

Выборка — процесс начинается с выборки данных, например, с выбора набора данных для моделирования. Набор данных должен быть достаточно большим, чтобы содержать достаточную информацию для извлечения, но достаточно маленьким, чтобы его можно было эффективно использовать. Этот этап также касается разделения данных.

Исследовать — Эта фаза охватывает понимание данных путем обнаружения ожидаемых и непредвиденных связей между переменными, а также отклонений с помощью визуализации данных.

Modify — фаза Modify содержит методы для выбора, создания и преобразования переменных при подготовке к моделированию данных.

Модель. На этапе модели основное внимание уделяется применению различных методов моделирования (интеллектуального анализа данных) к подготовленным переменным с целью создания моделей, которые могут обеспечить желаемый результат.

Оценка — Оценка результатов моделирования показывает надежность и полезность созданных моделей.

Основное различие между CRISM-DM и SEMMA заключается в том, что SEMMA фокусируется на аспекте моделирования, тогда как CRISP-DM придает большее значение этапам цикла, предшествующим моделированию, таким как понимание бизнес-проблемы, подлежащей решению, понимание и предварительная обработка данных, подлежащих обработке. используется в качестве входных данных, например, алгоритмы машинного обучения.

Жизненный цикл больших данных

В сегодняшнем контексте больших данных предыдущие подходы являются либо неполными, либо неоптимальными. Например, методология SEMMA полностью игнорирует сбор данных и предварительную обработку различных источников данных. Эти этапы обычно составляют большую часть работы в успешном проекте больших данных.

Большой цикл анализа данных может быть описан следующим этапом —

  • Определение бизнес-проблемы
  • Исследование
  • Оценка человеческих ресурсов
  • Получение данных
  • Data Munging
  • Хранилище данных
  • Исследовательский анализ данных
  • Подготовка данных для моделирования и оценки
  • моделирование
  • Реализация

В этом разделе мы расскажем о каждом из этих этапов жизненного цикла больших данных.

Определение бизнес-проблемы

Это обычное явление в традиционном жизненном цикле BI и аналитики больших данных. Обычно это нетривиальный этап проекта больших данных, чтобы определить проблему и правильно оценить, какой потенциальный выигрыш он может принести для организации. Кажется очевидным упомянуть об этом, но необходимо оценить, каковы ожидаемые выгоды и затраты по проекту.

Исследование

Проанализируйте, что другие компании сделали в такой же ситуации. Это включает в себя поиск решений, которые являются разумными для вашей компании, даже если это включает в себя адаптацию других решений к ресурсам и требованиям, которые есть у вашей компании. На этом этапе следует определить методологию будущих этапов.

Оценка человеческих ресурсов

Как только проблема будет определена, целесообразно продолжить анализ того, сможет ли текущий персонал успешно завершить проект. Традиционные команды BI могут быть не в состоянии предоставить оптимальное решение для всех этапов, поэтому следует рассмотреть это перед началом проекта, если есть необходимость передать часть проекта на аутсорсинг или нанять больше людей.

Получение данных

Этот раздел является ключевым в жизненном цикле больших данных; он определяет, какой тип профилей потребуется для доставки итогового продукта данных. Сбор данных является нетривиальным шагом процесса; обычно он включает сбор неструктурированных данных из разных источников. В качестве примера можно привести написание сканера для получения отзывов с веб-сайта. Это включает в себя работу с текстом, возможно, на разных языках, обычно требующих значительного времени для завершения.

Data Munging

Когда данные извлекаются, например, из Интернета, они должны храниться в удобном для использования формате. Чтобы продолжить с примерами обзоров, давайте предположим, что данные извлекаются с разных сайтов, каждый из которых по-разному отображает данные.

Предположим, что один источник данных дает обзоры с точки зрения рейтинга в звездах, поэтому его можно считать отображением для переменной отклика y ∈ {1, 2, 3, 4, 5} . Другой источник данных дает обзоры с использованием системы двух стрелок, одна для голосования «за», а другая для голосования «за». Это подразумевало бы переменную ответа вида y ∈ {положительный, отрицательный} .

Чтобы объединить оба источника данных, необходимо принять решение, чтобы сделать эти два представления ответов эквивалентными. Это может включать преобразование первого отклика представления источника данных во вторую форму, считая одну звезду отрицательной и пять звезд положительной. Этот процесс часто требует больших временных затрат для обеспечения хорошего качества.

Хранилище данных

Как только данные обработаны, их иногда необходимо сохранить в базе данных. Технологии больших данных предлагают множество альтернатив в этом отношении. Наиболее распространенной альтернативой является использование файловой системы Hadoop для хранения, которая предоставляет пользователям ограниченную версию SQL, известную как язык запросов HIVE. Это позволяет выполнять большинство задач аналитики аналогично тому, как это делается в традиционных хранилищах данных BI, с точки зрения пользователя. Другими вариантами хранения, которые следует учитывать, являются MongoDB, Redis и SPARK.

Эта стадия цикла связана со знаниями человеческих ресурсов с точки зрения их способности реализовывать различные архитектуры. Модифицированные версии традиционных хранилищ данных все еще используются в крупномасштабных приложениях. Например, teradata и IBM предлагают базы данных SQL, которые могут обрабатывать терабайты данных; Решения с открытым исходным кодом, такие как postgreSQL и MySQL, все еще используются для крупномасштабных приложений.

Несмотря на различия в работе различных хранилищ в фоновом режиме, на стороне клиента большинство решений предоставляют SQL API. Следовательно, хорошее понимание SQL по-прежнему является ключевым навыком для анализа больших данных.

Этот этап априори представляется наиболее важной темой, на практике это не так. Это даже не существенная стадия. Можно реализовать решение для больших данных, которое будет работать с данными в реальном времени, поэтому в этом случае нам нужно только собрать данные для разработки модели, а затем реализовать ее в режиме реального времени. Таким образом, не было бы необходимости формально хранить данные вообще.

Исследовательский анализ данных

После того, как данные были очищены и сохранены таким образом, что из них можно извлечь информацию, фаза исследования данных является обязательной. Целью этого этапа является понимание данных, обычно это делается с помощью статистических методов, а также построения графиков данных. Это хороший этап для оценки того, имеет ли определение проблемы смысл или выполнимость.

Подготовка данных для моделирования и оценки

Этот этап включает изменение предварительно очищенных данных, полученных ранее, и использование статистической предварительной обработки для определения пропущенных значений, обнаружения выбросов, нормализации, выделения признаков и выбора признаков.

моделирование

На предыдущем этапе должно было быть подготовлено несколько наборов данных для обучения и тестирования, например, прогнозирующая модель. Этот этап включает в себя попытки различных моделей и с нетерпением ждем решения проблемы бизнеса под рукой. На практике обычно желательно, чтобы модель дала некоторое представление о бизнесе. И, наконец, выбирается лучшая модель или комбинация моделей, которая оценивает ее производительность в неактивном наборе данных.

Реализация

На данном этапе разработанный продукт данных внедряется в конвейер данных компании. Это включает в себя настройку схемы проверки во время работы продукта данных, чтобы отслеживать его производительность. Например, в случае реализации прогнозирующей модели, этот этап будет включать применение модели к новым данным и, как только ответ будет получен, оцените модель.