Модуль «Управление данными»

Описание модуля

Модель управления данными в Цифровом Двойнике Предприятия (ЦДП) основана на высокопроизводительных технологиях для обработки, хранения и анализа больших объемов данных в реальном времени. Основными компонентами модели являются:

  1. Технология ETL (Extract, Transform, Load)

    Для сбора данных из различных источников (ERP, MES, SCADA) используется ETL-процесс, реализованный с помощью open-source инструментов, таких как Apache Airflow и R Targets. Данные проходят этапы нормализации и агрегирования перед загрузкой в аналитические базы данных.

  2. Хранилище данных (ClickHouse)

    Колонко-ориентированная СУБД, оптимизированная для высокоскоростной аналитики больших данных. Используется для хранения и обработки временных рядов и аналитических данных, что позволяет быстро выполнять запросы к большим объемам данных.

Конвейер обработки данных строится на основе модулей и функций, необходимых для заказчика, и обеспечивает отслеживание всех преобразований исходных данных, а также применяемых моделей для получения конечного результата.

Пример конвейера обработки данных

Хранилище данных и документов

Хранение эталонных значений (данных, мастер-данных и метаданных) реализовано с помощью СУБД. Модуль хранения эталонных значений включает в себя:

  • Перечень бизнес-метрик (показателей, характеристик, параметров), методов расчета и корреспонденций между источниками, хранилищем и получателями данных

  • Схемы преобразования наборов данных (ETL-job)

  • Эталонные мастер-данные (аналитические измерения, классификации), в том числе справочники - местоположений, функций, объектов, ролей, стадий жизненного цикла, версий, сценариев и пр.

  • Модели данных, используемые для хранилища и нормирования данных, а также для управления документами

  • Каталоги (справочники) источников и получателей данных

  • Граф структурно-технологической схемы предприятия

Функции модуля

Перенос схем планово-аналитических расчетов из нормативных документов и имеющихся табличных инструментов

Позволяет автоматизировать процесс интеграции расчетных схем, описанных в различных документах или таблицах, в информационную систему.

Результат: быстрая адаптация существующих расчетных схем для системы.

Сбор и интеграция данных

Автоматический сбор данных из ERP, MES и внешних источников через API-интеграции с использованием REST API и OAuth 2.0.

Результат: обеспечение актуальности и консистентности данных для аналитики и расчетов.

Нормализация исходных данных

Предназначена для стандартизации и нормализации данных, поступающих из различных источников. Данные приводятся к эталонным справочникам бизнес-метрик и аналитических срезов для проведения многократных расчетов.

Результат: снижение ошибок при многократных расчетах, повышение точности аналитики.

ETL (Extract, Transform, Load)

Трансформация и загрузка данных в хранилище с использованием R Targets и AirFlow.

Результат: подготовка данных для аналитической обработки, консистентность данных.

Хранилище данных (PostgreSQL, ClickHouse)

Хранение данных в реляционной и колонко-ориентированной базах для обработки больших объемов данных.

Результат: высокая производительность и масштабируемость для аналитических расчетов и временных рядов.

Параллельный пересчет сценарных вычислений при изменении исходных данных, справочников и параметров расчета

Повышение эффективности вычислительных процессов за счет автоматизации сценарного анализа и параллельного выполнения множества расчетов.

Результат: высокая скорость расчета.

Версионность данных

Позволяет сохранять различные версии расчетов и поддерживать выполнение нескольких сценариев для одного и того же набора данных или модели.

Результат: возможность восстановления и трассировки версий данных, что критично для аналитики.

Создание системы показателей

Формирование и управление системой ключевых показателей эффективности (KPI) и метрик для мониторинга работы предприятия.

Результат: централизованная система мониторинга показателей, позволяющая отслеживать текущее состояние и эффективность процессов.

Создание интерактивного графа расчетов

Визуализация расчетов в виде интерактивного графа с возможностью выгрузки промежуточных результатов.

Результат: повышение наглядности расчётов, возможность анализа промежуточных данных и оценки влияния изменений на конечный результат.

Прослеживаемость (аудит) результирующих значений метрик (“как считали”)

Обеспечение полной прозрачности всех этапов вычислений и детальный анализ того, как были получены итоговые значения. Функция необходима для контроля, аудита, верификации расчетов и принятия обоснованных решений на основе точных данных. Достигается благодаря схеме преобразования данных от источника до конечных и целевых показателей.

Результат: ключевая функция для обеспечения надежности и прозрачности работы ЦДП, так как позволяет отслеживать каждый шаг процесса получения метрик и предотвращает ошибки и неточности в анализе данных.

Отслеживаемость данных (Data Lineage)

Логирование всех этапов обработки и расчетов для контроля источников и их преобразования.

Результат: прозрачность процессов и контроль за корректностью расчетов, необходимый для аудита данных.

Методология и математико-экономическое обеспечение модуля

Модуль хранения фактографических и графических данных (исходных, промежуточных и результирующих) реализован в виде хранения плоских и структурированных наборов данных на файловом хранилище, связанных с каждым узлом обработки конвейера (R Targets). Модуль включает хранилище эталонных значений бизнес-метрик, а также следующую фактографическую информацию:

  • ретроспективная и прогнозно-плановая статистика финансово-хозяйственной деятельности предприятия;

  • динамика состояния производственных фондов (оборудования, зданий и сооружений);

  • динамика рынков готовой продукции и сырья;

  • производственные и инвестиционные программы.

Targets (tar_target)

Open-source библиотека функций для декларации и исполнения расчетных узлов, связанных в сеть.

Результат: автоматизация расчетов, поддерживает многократные вычисления, версионность и трассировку изменений.

API-интеграция

Доступ к внешним источникам данных через программные интерфейсы API для автоматизации сбора и обновления данных. Поддержка получения данных в реальном времени из различных источников (БД заказчика, БД ЦД, внешние источники, API).

Результат: автоматизация процесса получения данных без ручного вмешательства, актуализация в реальном времени.

ETL (Extract, Transform, Load)

Извлечение, трансформация и загрузка данных из множества источников, преобразование их к нужной структуре и загрузка в хранилище.

Результат: единообразие и корректность данных, поступающих из различных источников, для дальнейшей обработки.

Data Validation

Применение правил для проверки данных на соответствие балансовым соотношениям, допустимым интервалам и соотношениям главных компонентов.

Результат: высокая достоверность данных, предотвращение использования некорректной информации в моделировании.

Data Normalization

Приведение данных к единому формату и структуре, устранение дублирования и пропусков, восстановление недостающих значений.

Результат: снижает избыточность и улучшает согласованность данных для аналитики и моделирования.

Parquet, CSV, XLSX, FST, QS

Форматы для хранения данных, обеспечивающие возможность эффективного хранения и доступа к данным в разных форматах в зависимости от потребностей пользователей и систем.

Результат: гибкость в предоставлении данных, возможность использования различных инструментов для их анализа и обработки.

PostgreSQL/ClickHouse

Хранение данных для аналитики и больших объемов временных рядов с высокой скоростью доступа.

Результат: обеспечивает надежное и быстрое хранение данных, что критично для работы с большими объемами информации и временными рядами.

Last updated