Учебники

Аналитика больших данных — методология

С точки зрения методологии, анализ больших данных значительно отличается от традиционного статистического подхода к планированию эксперимента. Аналитика начинается с данных. Обычно мы моделируем данные таким образом, чтобы объяснить ответ. Задачи этого подхода — предсказать поведение ответа или понять, как входные переменные связаны с ответом. Обычно в статистических экспериментальных планах эксперимент разрабатывается, и в результате извлекаются данные. Это позволяет генерировать данные таким образом, чтобы их можно было использовать в статистической модели, где соблюдаются определенные допущения, такие как независимость, нормальность и рандомизация.

В аналитике больших данных нам представляются данные. Мы не можем разработать эксперимент, который соответствует нашей любимой статистической модели. В крупномасштабных аналитических приложениях требуется большой объем работы (обычно 80% усилий) только для очистки данных, поэтому он может использоваться моделью машинного обучения.

У нас нет уникальной методологии, которой нужно следовать в реальных масштабных приложениях. Обычно, как только проблема бизнеса определена, необходим этап исследования для разработки методологии, которая будет использоваться. Тем не менее, общие рекомендации имеют отношение к упоминанию и применимы практически ко всем проблемам.

Одной из наиболее важных задач в анализе больших данных является статистическое моделирование , то есть проблемы с контролируемой и неконтролируемой классификацией или регрессией. После того, как данные очищены и предварительно обработаны, доступны для моделирования, следует позаботиться об оценке различных моделей с приемлемыми показателями потерь, а затем, как только модель будет внедрена, следует сообщать о дальнейшей оценке и результатах. Распространенная ошибка в прогнозном моделировании — просто реализовать модель и никогда не измерять ее производительность.