Мы живем в эпоху, когда информация доступна в изобилии. Информационная перегрузка масштабируется до такой высоты, что иногда становится трудно управлять нашими маленькими почтовыми ящиками! Представьте себе объем данных и записей, которые некоторые популярные сайты (такие как Facebook, Twitter и Youtube) должны собирать и управлять ими ежедневно. Нередко даже менее известные сайты получают огромное количество информации в больших количествах.
Обычно мы применяем алгоритмы интеллектуального анализа данных, чтобы анализировать объемные данные, выявлять тенденции и делать выводы. Однако ни один алгоритм анализа данных не может быть настолько эффективным, чтобы обрабатывать очень большие наборы данных и быстро получать результаты, если только вычислительные задачи не выполняются на нескольких компьютерах, распределенных в облаке.
Теперь у нас есть новые фреймворки, которые позволяют разбить вычислительную задачу на несколько сегментов и запустить каждый сегмент на другой машине. Mahout — это такая среда интеллектуального анализа данных, которая обычно работает в сочетании с инфраструктурой Hadoop на заднем плане для управления огромными объемами данных.
Что такое Apache Mahout?
Махоут это тот, кто водит слона как своего хозяина. Название происходит от его тесной связи с Apache Hadoop, который использует слона в качестве логотипа.
Hadoop — это платформа с открытым исходным кодом от Apache, которая позволяет хранить и обрабатывать большие данные в распределенной среде на кластерах компьютеров с использованием простых моделей программирования.
Apache Mahout — проект с открытым исходным кодом, который в основном используется для создания масштабируемых алгоритмов машинного обучения. Он реализует популярные методы машинного обучения, такие как:
- Рекомендация
- классификация
- Кластеризация
Apache Mahout начался как подпроект Apache’s Lucene в 2008 году. В 2010 году Mahout стал проектом Apache высшего уровня.
Особенности Mahout
Примитивные особенности Apache Mahout перечислены ниже.
Алгоритмы Mahout написаны поверх Hadoop, поэтому он хорошо работает в распределенной среде. Mahout использует библиотеку Apache Hadoop для эффективного масштабирования в облаке.
Mahout предлагает кодировщику готовую к использованию среду для выполнения задач интеллектуального анализа данных на больших объемах данных.
Mahout позволяет приложениям эффективно и быстро анализировать большие наборы данных.
Включает несколько реализаций кластеризации с поддержкой MapReduce, таких как k-средних, нечетких k-средних, Canopy, Dirichlet и Mean-Shift.
Поддержка распределенных наивных байесовских и дополнительных наивных байесовских классификаций.
Поставляется с распределенными функциями фитнес-функций для эволюционного программирования.
Включает матричные и векторные библиотеки.
Такие компании, как Adobe, Facebook, LinkedIn, Foursquare, Twitter и Yahoo используют Mahout для внутреннего использования.
Foursquare поможет вам найти места, еду и развлечения, доступные в определенном районе. Он использует механизм рекомендации Mahout.
Twitter использует Mahout для моделирования интересов пользователей.
Yahoo! использует Mahout для майнинга.