С точки зрения больших данных, существует два типа обработки:
- Пакетная обработка
- Обработка в реальном времени
Обработка, основанная на данных, собранных во времени, называется пакетной обработкой. Например, менеджер банка хочет обработать данные за последний месяц (собранные за определенное время), чтобы узнать количество чеков, которые были отменены за последний 1 месяц.
Обработка, основанная на непосредственных данных для мгновенного результата, называется обработкой в реальном времени. Например, менеджер банка получает предупреждение о мошенничестве сразу после совершения мошеннической операции (мгновенный результат).
В приведенной ниже таблице перечислены различия между пакетной обработкой и обработкой в реальном времени.
Пакетная обработка | Обработка в реальном времени |
---|---|
Статические файлы |
Потоки событий |
Периодически обрабатывается в минутах, часах, днях и т. Д. |
Обработано сразу наносекунд |
Прошлые данные на диске |
В памяти |
Пример — Генерация счета |
Пример — оповещение о транзакции через банкомат |
Статические файлы
Потоки событий
Периодически обрабатывается в минутах, часах, днях и т. Д.
Обработано сразу
наносекунд
Прошлые данные на диске
В памяти
Пример — Генерация счета
Пример — оповещение о транзакции через банкомат
В наши дни обработка в реальном времени широко используется в каждой организации. Варианты использования, такие как обнаружение мошенничества, оповещения в реальном времени в сфере здравоохранения и оповещения о сетевых атаках, требуют обработки мгновенных данных в режиме реального времени; задержка в несколько миллисекунд может оказать огромное влияние.
Идеальным инструментом для таких случаев использования в реальном времени был бы тот, который может вводить данные как поток, а не как пакет. Apache Flink — это инструмент для обработки в реальном времени.