Учебники

Mahout — Введение

Мы живем в эпоху, когда информация доступна в изобилии. Информационная перегрузка масштабируется до такой высоты, что иногда становится трудно управлять нашими маленькими почтовыми ящиками! Представьте себе объем данных и записей, которые некоторые популярные сайты (такие как Facebook, Twitter и Youtube) должны собирать и управлять ими ежедневно. Нередко даже менее известные сайты получают огромное количество информации в больших количествах.

Обычно мы применяем алгоритмы интеллектуального анализа данных, чтобы анализировать объемные данные, выявлять тенденции и делать выводы. Однако ни один алгоритм анализа данных не может быть настолько эффективным, чтобы обрабатывать очень большие наборы данных и быстро получать результаты, если только вычислительные задачи не выполняются на нескольких компьютерах, распределенных в облаке.

Теперь у нас есть новые фреймворки, которые позволяют разбить вычислительную задачу на несколько сегментов и запустить каждый сегмент на другой машине. Mahout — это такая среда интеллектуального анализа данных, которая обычно работает в сочетании с инфраструктурой Hadoop на заднем плане для управления огромными объемами данных.

Что такое Apache Mahout?

Махоут это тот, кто водит слона как своего хозяина. Название происходит от его тесной связи с Apache Hadoop, который использует слона в качестве логотипа.

Hadoop — это платформа с открытым исходным кодом от Apache, которая позволяет хранить и обрабатывать большие данные в распределенной среде на кластерах компьютеров с использованием простых моделей программирования.

Apache Mahout — проект с открытым исходным кодом, который в основном используется для создания масштабируемых алгоритмов машинного обучения. Он реализует популярные методы машинного обучения, такие как:

  • Рекомендация
  • классификация
  • Кластеризация

Apache Mahout начался как подпроект Apache’s Lucene в 2008 году. В 2010 году Mahout стал проектом Apache высшего уровня.

Особенности Mahout

Примитивные особенности Apache Mahout перечислены ниже.

Алгоритмы Mahout написаны поверх Hadoop, поэтому он хорошо работает в распределенной среде. Mahout использует библиотеку Apache Hadoop для эффективного масштабирования в облаке.

Mahout предлагает кодировщику готовую к использованию среду для выполнения задач интеллектуального анализа данных на больших объемах данных.

Mahout позволяет приложениям эффективно и быстро анализировать большие наборы данных.

Включает несколько реализаций кластеризации с поддержкой MapReduce, таких как k-средних, нечетких k-средних, Canopy, Dirichlet и Mean-Shift.

Поддержка распределенных наивных байесовских и дополнительных наивных байесовских классификаций.

Поставляется с распределенными функциями фитнес-функций для эволюционного программирования.

Включает матричные и векторные библиотеки.

Такие компании, как Adobe, Facebook, LinkedIn, Foursquare, Twitter и Yahoo используют Mahout для внутреннего использования.

Foursquare поможет вам найти места, еду и развлечения, доступные в определенном районе. Он использует механизм рекомендации Mahout.

Twitter использует Mahout для моделирования интересов пользователей.

Yahoo! использует Mahout для майнинга.