Описание

Области применения:
Бизнес-аналитика
Построение достоверных графиков в реальном времени по большим объемам данных.
Централизованное хранение данных с возможностью простого доступа к ним для сотрудников компании.
Автоматизированное построение отчетов для минимизации человеческого фактора.
Ритейл и E-commerce
Анализ действий клиента для персонализированного ценообразования.
Аналитика по движениям товаров для оптимизации складской логистики.
Обогащение профиля клиента для формирования бонусной программы.
Транспортные компании
Оптимизация маршрутов для контроля расхода ГСМ.
Построение кратчайших маршрутов с учетом логистики и загруженности транспортных путей.
Централизованный учёт транспортных накладных отправителем.
ЖКХ
Выявление аварийных ситуаций на основе данных поступающих в реальном времени.
Централизованное хранение показаний поступающих с приборов учета.
Прогнозирование спроса на энергопотребление, выявление расхождений по плану и факту потребления.

Функциональные блоки и процессы:
Источники данных (Data Sources)
Это любая внешняя информация, поступающая в платформу для дальнейшего хранения и обработки. Данные с внешних источников агрегируются на шину данных Apache Kafka. Также для сбора данных может использоваться Apache NiFi.

Обработка потоков данных (ETL процессы)
Подготовка данных к размещению в хранилище и приведение их к виду более удобному для последующего анализа. Также ETL-преобразования позволяют создавать представления данных для конкретных графиков и отчетов. В качестве ETL процессора в платформе используются Apache Spark, Apache Flink или Apache Airflow.

Озеро данных (Data Lake)
Предназначено для хранения неструктурированной информации поступающей из источников данных. Озеро данных основано на базе кластера Apache Hadoop, который позволяет малозатратно хранить практически неограниченные объемы данных.

Корпоративное хранилище данных (Data Warehouse)
Предназначено для хранения структурированных данных, для использования их в аналитике и отчетах. Хранилище основано на базе кластера Pivotal Greenplum, который позволяет горизонтально масштабироваться как для увеличения объема хранимой информации, так и для повышение скорости выполнения запросов к хранилищу.

Этапы интеграции платформы:
1.Проводится аудит текущей инфраструктуры.

2.Готовится план по внедрению.

3.Платформа разворачивается в базовой конфигурации.

4.Подключаются источники данных.

5.Разрабатываются ETL-преобразования.

6.Проводится интеграция с потребителями данных.

7.Платформа запускается в эксплуатацию.