Модуль «Управление данными»
Описание модуля
Модель управления данными в Цифровом Двойнике Предприятия (ЦДП) основана на высокопроизводительных технологиях для обработки, хранения и анализа больших объемов данных в реальном времени. Основными компонентами модели являются:
Технология ETL (Extract, Transform, Load)
Для сбора данных из различных источников (ERP, MES, SCADA) используется ETL-процесс, реализованный с помощью open-source инструментов, таких как Apache Airflow и R Targets. Данные проходят этапы нормализации и агрегирования перед загрузкой в аналитические базы данных.
Хранилище данных (ClickHouse)
Колонко-ориентированная СУБД, оптимизированная для высокоскоростной аналитики больших данных. Используется для хранения и обработки временных рядов и аналитических данных, что позволяет быстро выполнять запросы к большим объемам данных.
Конвейер обработки данных строится на основе модулей и функций, необходимых для заказчика, и обеспечивает отслеживание всех преобразований исходных данных, а также применяемых моделей для получения конечного результата.

Хранилище данных и документов
Хранение эталонных значений (данных, мастер-данных и метаданных) реализовано с помощью СУБД. Модуль хранения эталонных значений включает в себя:
Перечень бизнес-метрик (показателей, характеристик, параметров), методов расчета и корреспонденций между источниками, хранилищем и получателями данных
Схемы преобразования наборов данных (ETL-job)
Эталонные мастер-данные (аналитические измерения, классификации), в том числе справочники - местоположений, функций, объектов, ролей, стадий жизненного цикла, версий, сценариев и пр.
Модели данных, используемые для хранилища и нормирования данных, а также для управления документами
Каталоги (справочники) источников и получателей данных
Граф структурно-технологической схемы предприятия

Функции модуля
Перенос схем планово-аналитических расчетов из нормативных документов и имеющихся табличных инструментов
Позволяет автоматизировать процесс интеграции расчетных схем, описанных в различных документах или таблицах, в информационную систему.
Результат: быстрая адаптация существующих расчетных схем для системы.
Сбор и интеграция данных
Автоматический сбор данных из ERP, MES и внешних источников через API-интеграции с использованием REST API и OAuth 2.0.
Результат: обеспечение актуальности и консистентности данных для аналитики и расчетов.
Нормализация исходных данных
Предназначена для стандартизации и нормализации данных, поступающих из различных источников. Данные приводятся к эталонным справочникам бизнес-метрик и аналитических срезов для проведения многократных расчетов.
Результат: снижение ошибок при многократных расчетах, повышение точности аналитики.
ETL (Extract, Transform, Load)
Трансформация и загрузка данных в хранилище с использованием R Targets и AirFlow.
Результат: подготовка данных для аналитической обработки, консистентность данных.
Хранилище данных (PostgreSQL, ClickHouse)
Хранение данных в реляционной и колонко-ориентированной базах для обработки больших объемов данных.
Результат: высокая производительность и масштабируемость для аналитических расчетов и временных рядов.
Параллельный пересчет сценарных вычислений при изменении исходных данных, справочников и параметров расчета
Повышение эффективности вычислительных процессов за счет автоматизации сценарного анализа и параллельного выполнения множества расчетов.
Результат: высокая скорость расчета.
Версионность данных
Позволяет сохранять различные версии расчетов и поддерживать выполнение нескольких сценариев для одного и того же набора данных или модели.
Результат: возможность восстановления и трассировки версий данных, что критично для аналитики.
Создание системы показателей
Формирование и управление системой ключевых показателей эффективности (KPI) и метрик для мониторинга работы предприятия.
Результат: централизованная система мониторинга показателей, позволяющая отслеживать текущее состояние и эффективность процессов.
Создание интерактивного графа расчетов
Визуализация расчетов в виде интерактивного графа с возможностью выгрузки промежуточных результатов.
Результат: повышение наглядности расчётов, возможность анализа промежуточных данных и оценки влияния изменений на конечный результат.
Прослеживаемость (аудит) результирующих значений метрик (“как считали”)
Обеспечение полной прозрачности всех этапов вычислений и детальный анализ того, как были получены итоговые значения. Функция необходима для контроля, аудита, верификации расчетов и принятия обоснованных решений на основе точных данных. Достигается благодаря схеме преобразования данных от источника до конечных и целевых показателей.
Результат: ключевая функция для обеспечения надежности и прозрачности работы ЦДП, так как позволяет отслеживать каждый шаг процесса получения метрик и предотвращает ошибки и неточности в анализе данных.
Отслеживаемость данных (Data Lineage)
Логирование всех этапов обработки и расчетов для контроля источников и их преобразования.
Результат: прозрачность процессов и контроль за корректностью расчетов, необходимый для аудита данных.
Методология и математико-экономическое обеспечение модуля
Модуль хранения фактографических и графических данных (исходных, промежуточных и результирующих) реализован в виде хранения плоских и структурированных наборов данных на файловом хранилище, связанных с каждым узлом обработки конвейера (R Targets). Модуль включает хранилище эталонных значений бизнес-метрик, а также следующую фактографическую информацию:
ретроспективная и прогнозно-плановая статистика финансово-хозяйственной деятельности предприятия;
динамика состояния производственных фондов (оборудования, зданий и сооружений);
динамика рынков готовой продукции и сырья;
производственные и инвестиционные программы.
Targets (tar_target)
Open-source библиотека функций для декларации и исполнения расчетных узлов, связанных в сеть.
Результат: автоматизация расчетов, поддерживает многократные вычисления, версионность и трассировку изменений.
API-интеграция
Доступ к внешним источникам данных через программные интерфейсы API для автоматизации сбора и обновления данных. Поддержка получения данных в реальном времени из различных источников (БД заказчика, БД ЦД, внешние источники, API).
Результат: автоматизация процесса получения данных без ручного вмешательства, актуализация в реальном времени.
ETL (Extract, Transform, Load)
Извлечение, трансформация и загрузка данных из множества источников, преобразование их к нужной структуре и загрузка в хранилище.
Результат: единообразие и корректность данных, поступающих из различных источников, для дальнейшей обработки.
Data Validation
Применение правил для проверки данных на соответствие балансовым соотношениям, допустимым интервалам и соотношениям главных компонентов.
Результат: высокая достоверность данных, предотвращение использования некорректной информации в моделировании.
Data Normalization
Приведение данных к единому формату и структуре, устранение дублирования и пропусков, восстановление недостающих значений.
Результат: снижает избыточность и улучшает согласованность данных для аналитики и моделирования.
Parquet, CSV, XLSX, FST, QS
Форматы для хранения данных, обеспечивающие возможность эффективного хранения и доступа к данным в разных форматах в зависимости от потребностей пользователей и систем.
Результат: гибкость в предоставлении данных, возможность использования различных инструментов для их анализа и обработки.
Last updated