Учебники

1) Что такое R-программирование?

Что такое R?

R — язык программирования, разработанный Россом Ихакой и Робертом Джентльменом в 1993 году. R обладает обширным каталогом статистических и графических методов. Он включает в себя алгоритмы машинного обучения, линейную регрессию, временные ряды, статистический вывод и многое другое. Большинство библиотек R написаны на R, но для сложных вычислительных задач предпочтительны коды C, C ++ и Fortran.

R не только доверяют ученым, но многие крупные компании также используют язык программирования R, включая Uber, Google, Airbnb, Facebook и так далее.

Анализ данных с помощью R выполняется в несколько этапов; программирование, преобразование, обнаружение, моделирование и передача результатов

  • Программа : R — понятный и доступный инструмент программирования
  • Transform : R состоит из набора библиотек, разработанных специально для науки о данных
  • Откройте для себя : исследуйте данные, уточните свою гипотезу и проанализируйте их
  • Модель : R предоставляет широкий спектр инструментов для захвата правильной модели для ваших данных
  • Общайтесь : объединяйте коды, графики и выходные данные в отчет с R Markdown или создавайте блестящие приложения, чтобы поделиться ими со всем миром

В этом уроке вы узнаете

Для чего используется R?

  • Статистические выводы
  • Анализ данных
  • Алгоритм машинного обучения

R по отрасли

Если мы разберем использование R по отраслям, мы увидим, что ученые стоят на первом месте. R это язык для статистики. R является первым выбором в отрасли здравоохранения, за которым следуют правительство и консалтинг.

R пакет

Основным использованием R является и всегда будет статистика, визуализация и машинное обучение. На рисунке ниже показано, какой пакет R получил больше всего вопросов в Stack Overflow. В топ-10 большинство из них связано с рабочим процессом ученого по данным: подготовка данных и передача результатов.

Все библиотеки R, почти 12k, хранятся в CRAN. CRAN является бесплатным и открытым исходным кодом. Вы можете скачать и использовать многочисленные библиотеки для машинного обучения или анализа временных рядов.

Общаться с R

У R есть несколько способов представить и поделиться работой, используя документ уценки или блестящее приложение. Все может быть размещено в Rpub, GitHub или на веб-сайте компании.

Ниже приведен пример презентации, размещенной на Rpub.

Rstudio принимает уценку, чтобы написать документ. Вы можете экспортировать документы в разных форматах:

  • Документ:
    • HTML
    • PDF / Latex
    • слово
  • презентация
    • HTML
    • PDF проектор

Rstudio имеет отличный инструмент для создания приложения легко. Ниже приведен пример приложения с данными Всемирного банка.

Зачем использовать R?

Наука о данных формирует способ ведения бизнеса компаниями. Без сомнения, отказ от искусственного интеллекта и машин приведет к краху компании. Большой вопрос, какой инструмент / язык вы должны использовать?

На рынке имеется множество инструментов для анализа данных. Изучение нового языка требует временных затрат. На рисунке ниже показана кривая обучения в сравнении с возможностями бизнеса, предлагаемыми языком. Отрицательные отношения подразумевают, что нет бесплатного обеда. Если вы хотите получить лучшее представление о данных, то вам нужно потратить некоторое время на изучение соответствующего инструмента, который является R.

В левом верхнем углу графика вы можете увидеть Excel и PowerBI. Эти два инструмента просты в освоении, но не предлагают выдающихся бизнес-возможностей, особенно в плане моделирования. В середине вы можете увидеть Python и SAS. SAS — это специальный инструмент для проведения статистического анализа для бизнеса, но он не бесплатный. SAS — это программное обеспечение, запускаемое по клику и запуску. Python, однако, является языком с монотонной кривой обучения. Python — это фантастический инструмент для развертывания машинного обучения и искусственного интеллекта, но в нем отсутствуют коммуникационные функции. С идентичной кривой обучения R является хорошим компромиссом между реализацией и анализом данных.

Когда дело доходит до визуализации данных (DataViz), вы наверняка слышали о Tableau. Tableau, без сомнения, отличный инструмент для обнаружения шаблонов с помощью графиков и диаграмм. Кроме того, изучение Tableau не занимает много времени. Одна большая проблема с визуализацией данных заключается в том, что вы можете никогда не найти шаблон или просто создать множество бесполезных диаграмм. Tableau — это хороший инструмент для быстрой визуализации данных или бизнес-аналитики. Когда дело доходит до инструмента статистики и принятия решений, R более уместен.

Stack Overflow — это большое сообщество языков программирования. Если у вас есть проблема с кодированием или вам необходимо понять модель, переполнение стека поможет вам. В течение года процент вопросов-ответов резко увеличился для R по сравнению с другими языками. Эта тенденция, конечно, тесно связана с бурным веком науки о данных, но она отражает потребность в языке R для науки о данных.

В науке о данных существует два инструмента, конкурирующих друг с другом. R и Python, вероятно, являются языком программирования, который определяет науку о данных.

Стоит ли выбирать R?

Специалист по данным может использовать два превосходных инструмента: R и Python. У вас может не быть времени, чтобы выучить их обоих, особенно если вы начинаете изучать науку о данных. Обучение статистическому моделированию и алгоритмугораздо важнее, чем выучить язык программирования. Язык программирования — это инструмент для вычисления и передачи вашего открытия. Наиболее важной задачей в науке о данных является то, как вы работаете с данными: импорт, очистка, подготовка, разработка функций, выбор функций. Это должно быть вашим основным фокусом. Если вы пытаетесь изучать R и Python одновременно, не имея достаточных знаний в области статистики, это глупо. Ученые по данным не программисты. Их работа состоит в том, чтобы понимать данные, манипулировать ими и раскрывать наилучший подход. Если вы думаете о том, какой язык выучить, давайте посмотрим, какой язык вам наиболее подходит.

Основная аудитория для науки о данных — профессионал бизнеса. В бизнесе одно большое значение — это общение. Есть много способов общения: отчет, веб-приложение, панель инструментов. Вам нужен инструмент, который делает все это вместе.

R сложно?

Несколько лет назад R был сложным языком для изучения. Язык был запутанным и не таким структурированным, как другие инструменты программирования. Чтобы преодолеть эту серьезную проблему, Хэдли Уикхем разработал коллекцию пакетов под названием tidyverse. Правила игры изменились в лучшую сторону. Манипулирование данными становится тривиальным и интуитивно понятным. Создание графика больше не было таким сложным.

Лучшие алгоритмы для машинного обучения могут быть реализованы с помощью R. Пакеты, такие как Keras и TensorFlow, позволяют создавать высокотехнологичную технику машинного обучения. R также имеет пакет для выполнения Xgboost, одного из лучших алгоритмов для соревнований Kaggle.

R может общаться с другим языком. Можно назвать Python, Java, C ++ в R. Мир больших данных также доступен для R. Вы можете связать R с различными базами данных, такими как Spark или Hadoop.

Наконец, R развился и позволил распараллеливать операции, чтобы ускорить вычисления. На самом деле, R критиковали за использование только одного процессора за раз. Параллельный пакет позволяет выполнять задачи в разных ядрах машины.

Резюме

В двух словах, R является отличным инструментом для изучения и изучения данных. Тщательный анализ, такой как кластеризация, корреляция и редукция данных, выполняется с помощью R. Это самая важная часть, без хорошей разработки функций и модели развертывание машинного обучения не даст значимых результатов.