Роль исследователя данных обычно связана с такими задачами, как прогнозирующее моделирование, разработка алгоритмов сегментации, системы рекомендаций, системы A / B-тестирования и часто работа с необработанными неструктурированными данными.
Характер их работы требует глубокого понимания математики, прикладной статистики и программирования. Есть несколько общих навыков между аналитиком данных и ученым, например, умение запрашивать базы данных. Оба анализируют данные, но решение ученого может оказать большее влияние на организацию.
Вот набор навыков, которыми обычно должен обладать ученый данных:
- Программирование в статистическом пакете, таком как: R, Python, SAS, SPSS или Julia
- Возможность очищать, извлекать и исследовать данные из разных источников
- Исследование, разработка и внедрение статистических моделей
- Глубокие статистические, математические и компьютерные знания
В аналитике больших данных люди обычно путают роль ученого с ролью архитектора данных. На самом деле разница довольно проста. Архитектор данных определяет инструменты и архитектуру, в которой будут храниться данные, тогда как ученый использует эту архитектуру. Конечно, специалист по обработке данных должен иметь возможность устанавливать новые инструменты, если это необходимо для специальных проектов, но определение и проектирование инфраструктуры не должны быть частью его задачи.