Учебники

Наука о данных

Data Science — это междисциплинарная область, которая позволяет извлекать знания из структурированных или неструктурированных данных. Наука о данных позволяет вам перевести бизнес-задачу в исследовательский проект, а затем перевести ее обратно в практическое решение.

В этом уроке вы узнаете

Почему наука о данных?

Вот существенные преимущества использования технологии Data Analytics:

  • Данные — это масло для современного мира. С правильными инструментами, технологиями, алгоритмами мы можем использовать данные и превращать их в отличительное деловое преимущество
  • Data Science может помочь вам обнаружить мошенничество с помощью современных алгоритмов машинного обучения
  • Это поможет вам предотвратить любые значительные денежные потери
  • Позволяет строить интеллектуальные способности в машинах
  • Вы можете выполнить анализ настроений, чтобы оценить лояльность клиентов к бренду.
  • Это позволяет вам принимать лучшие и быстрые решения
  • Помогает вам порекомендовать нужный продукт нужному клиенту для развития вашего бизнеса
Эволюция DataSciences

Компоненты Науки Данных

Статистика:

Статистика является наиболее важной единицей в науке о данных. Это метод или наука сбора и анализа числовых данных в больших количествах, чтобы получить полезную информацию.

Визуализация:

Техника визуализации помогает вам получить доступ к огромным количествам

данных в понятном и удобном для восприятия виде.

Машинное обучение:

Машинное обучение исследует создание и изучение алгоритмов, которые учатся делать предсказания о непредвиденных / будущих данных.

Глубокое обучение:

Метод глубокого обучения — это новое исследование машинного обучения, где алгоритм выбирает модель анализа, которой нужно следовать.

Data Science Process

Data Science Process

1.Discovery:

Этап обнаружения включает получение данных из всех выявленных внутренних и внешних источников, что поможет вам ответить на деловой вопрос.

Данные могут быть:

  • Логи с веб-серверов
  • Данные собраны из социальных сетей
  • Наборы данных переписи
  • Данные передаются из онлайн-источников с использованием API

2. Подготовка данных:

Данные могут иметь множество несоответствий, таких как отсутствующее значение, пустые столбцы, неправильный формат данных, который необходимо очистить. Вам необходимо обработать, изучить и обработать данные перед моделированием. Чем чище ваши данные, тем лучше ваши прогнозы.

3. Модельное планирование:

На этом этапе вам нужно определить метод и технику, чтобы нарисовать связь между входными переменными. Планирование модели выполняется с использованием различных статистических формул и инструментов визуализации. Службы анализа SQL, R и SAS / access являются одними из инструментов, используемых для этой цели.

4. Моделестроение:

На этом этапе начинается процесс фактического построения модели. Здесь специалист по данным распространяет наборы данных для обучения и тестирования. Такие методы, как ассоциация, классификация и кластеризация, применяются к набору обучающих данных. Однажды подготовленная модель проверяется на соответствие «тестирующему» набору данных.

5. Операционализировать:

На этом этапе вы предоставляете окончательную базовую модель с отчетами, кодом и технической документацией. Модель развернута в производственной среде реального времени после тщательного тестирования.

6. Сообщите результаты

На этом этапе основные выводы доводятся до сведения всех заинтересованных сторон. Это поможет вам решить, являются ли результаты проекта успешными или неудачными на основе входных данных модели.

Роли в науке о работе

Наиболее известные названия должностей Data Scientist:

  • Ученый данных
  • Инженер данных
  • Аналитик данных
  • статистик
  • Архитектор данных
  • Администратор данных
  • Бизнес-аналитик
  • Менеджер данных / аналитики

Давайте узнаем, что влечет за собой каждая роль в деталях:

Ученый данных:

Роль:

Data Scientist — это профессионал, который управляет огромными объемами данных, чтобы придать им убедительные видения бизнеса, используя различные инструменты, методы, методологии, алгоритмы и т. Д.

Языки :

R, SAS, Python, SQL, Hive, Matlab, Pig, Spark

Инженер данных:

Роль :

Роль инженера данных заключается в работе с большими объемами данных. Он разрабатывает, конструирует, тестирует и поддерживает такие архитектуры, как крупномасштабная система обработки и базы данных.

Языки :

SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C ++ и Perl

Аналитик данных:

Роль :

Аналитик данных отвечает за добычу огромных объемов данных. Он или она будет искать отношения, модели, тенденции в данных. Позже он или она предоставит убедительные отчеты и визуализацию для анализа данных для принятия наиболее жизнеспособных бизнес-решений.

Языки :

R, Python, HTML, JS, C, C ++, SQL

статистик:

Роль :

Статистик собирает, анализирует, понимает качественные и количественные данные, используя статистические теории и методы.

Языки :

SQL, R, Matlab, Tableau, Python, Perl, Spark и Hive

Администратор данных:

Роль :

Администратор данных должен обеспечить доступность базы данных для всех соответствующих пользователей. Он также проверяет, что он работает правильно и защищен от взлома.

Языки :

Ruby on Rails, SQL, Java, C # и Python

Бизнес-аналитик:

Роль :

Этому профессионалу нужно улучшить бизнес-процессы. Он / она в качестве посредника между командой руководителей предприятий и ИТ-отделом.

Языки :

SQL, Tableau, Power BI и Python

Инструменты для DataScience

Анализ данных Хранилище данных Визуализация данных Машинное обучение
R , Spark, Python и SAS Hadoop , SQL, Hive R, Tableau , Raw Spark , студия Azure ML, Mahout

Разница между наукой о данных и бизнес-аналитикой

параметры Бизнес-аналитика Наука о данных
восприятие Оглядываясь назад Жду с нетерпением
Источники данных Структурированные данные. В основном SQL, но некоторое время хранилище данных) Структурированные и неструктурированные данные. Как журналы, SQL, NoSQL или текст
Подходить Статистика и визуализация Статистика, машинное обучение и график
акцент Прошлое настоящее Анализ и нейро-лингвистическое программирование
инструменты Pentaho. Microsoft Bl, QlikView, R, TensorFlow

Приложения науки о данных

Интернет-поиск:

Поиск Google использует технологию Data Science для поиска определенного результата в течение доли секунды.

Рекомендации системы:

Создать систему рекомендаций. Например, «предложенные друзья» на Facebook или «предложенные видео» на YouTube, все делается с помощью Data Science.

Распознавание изображений и речи:

Речь распознает такую ​​систему, как Сири, помощник Google, Alexa работает по методике Data Science. Кроме того, Facebook распознает вашего друга, когда вы загружаете фотографию с ним, с помощью Data Science.

Игровой мир:

EA Sports, Sony, Nintendo используют технологию Data Science. Это повышает ваш игровой опыт. Игры теперь разрабатываются с использованием техники машинного обучения. Он может обновляться при переходе на более высокие уровни.

Онлайн сравнение цен:

PriceRunner, Junglee, Shopzilla работают над механизмом Data Science. Здесь данные выбираются с соответствующих веб-сайтов с использованием API.

Проблемы технологий науки о данных

  • Для точного анализа требуется большое количество информации и данных.
  • Недостаточный доступ к пулу талантов в области науки о данных
  • Руководство не оказывает финансовую поддержку команде по науке о данных
  • Недоступность / сложный доступ к данным
  • Результаты Data Science неэффективно используются лицами, принимающими бизнес-решения
  • Объяснить науку данных другим сложно
  • Вопросы конфиденциальности
  • Отсутствие значительного эксперта в области
  • Если организация очень маленькая, у нее не может быть команды Data Science

Резюме

  • Наука о данных — это область исследований, которая включает извлечение информации из огромного количества данных с использованием различных научных методов, алгоритмов и процессов.
  • Статистика, визуализация, глубокое обучение, машинное обучение являются важными концепциями Data Science.
  • Процесс Data Science проходит через обнаружение, подготовку данных, планирование моделей, построение моделей, операционализацию, передачу результатов.
  • Важными рабочими ролями Data Scientist являются: 1) Data Scientist 2) Data Engineer 3) Data Analyst 4) Statistician 5) Data Architect 6) Data Admin 7) Business Analyst 8) Data / Analytics Manager
  • R, SQL, Python, SaS, являются важными инструментами науки о данных
  • Прогнозы бизнес-аналитики смотрят в прошлое, в то время как в науке о данных — в будущее.
  • Важными приложениями науки о данных являются 1) Интернет-поиск 2) Рекомендации системы 3) Распознавание изображений и речи 4) Игровой мир 5) Сравнение цен в Интернете.
  • Большое разнообразие информации и данных — самая большая проблема технологий Data Science.