Первое в России внедрение «умного озера данных» – комплексной платформы обработки, хранения и анализа данных с интегрированным Data Governance

Заказчик:: Дирекция региональных продаж ПАО «ГАЗПРОМ НЕФТЬ»
Руководитель проекта со стороны заказчика: Иван Черницын

Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
Поставщик: DIS Group (решения Informatica)
Год завершения проекта: 2019
Сроки выполнения проекта: Январь, 2018 - Октябрь, 2019
Масштаб проекта: 59000 человеко-часов
159 автоматизированных рабочих мест
Цели: Цель проекта – внедрить в едином решении комплексную систему для анализа данных и управления данными Дирекции региональных продаж ПАО «Газпром нефть». Основные ожидаемые бизнес-эффекты внедренного решения: снижение затрат на интеграцию данных, реализацию продуктивных аналитических проектов за счет централизованных инфраструктуры и сервисов, демократизация данных через общий пользовательский портал (доступ к единому бизнес-словарю всех аналитических витрин и приложений, актуальным картам происхождения, правилам и метрикам по качеству данных), повышение доступности данных и быстрое развертывание сред и предоставление датасетов для инициатив data science (с месяцев – до дней), повышение эффективности работы аналитиков (паспорта источников, объектов данных и их происхождение, инструменты профилирования и автоматической разметки всех данных в едином каталоге), обеспечение промышленных инструментов контроля и улучшения качества данных.

Уникальность проекта

Опубликованные кейсы внедрения «умного озера данных» в частных облаках в российской и международной практике не известны. «Умное озеро данных» существовало в исследованиях Gartner (напр., «Derive Value From Data Lakes Using Analytics Design Patterns», 2017) как наиболее продвинутый архитектурный шаблон для комплексных аналитических платформ. Концепция подразумевала совместную работу корпоративных озера данных, хранилища данных, средств их виртуализации с компонентами интеграции данных и Data Governance - DG - (управление метаданными, управление качеством данных, бизнес-глоссарий) таким образом, чтобы все категории пользователей могли получить доступ к актуальному каталогу, происхождению, правилам по качеству данных через единый пользовательский интерфейс. В мире подобные решения сейчас активно создаются вендорами в публичных облаках. Исследование Gartner Hype Cycle for Data Management (2019): решения DG сегодня еще не готовы к работе в качестве комплексной платформы управления данными.

Использованное ПО: «Умное озеро данных» включает в себя подсистемы Data Governance (каталог данных, управление качеством данных, бизнес-глоссарий, пользовательский портал обзора данных), компоненты интеграции данных, а также интегрированные с ними компоненты обработки «больших данных» (Data Lake на основе Arenadata Hadoop), аналитическое хранилище данных (Microsoft SQL Server 2017), BI (Qlik), аналитическую лабораторию с набором инструментов Data Science. Подсистемы Data Governance реализованы на платформе Informatica (Informatica Axon, Informatica Enterprise Data Catalog, Informatica Data Quality, Informatica Big Data Management, Informatica PowerCenter). Партнером по поставке и поддержке внедрения продуктов Informatica выступила компания DIS Group, официальный представитель вендора в России и СНГ Решение работает на 48 физических серверах и использует 12 выделенных систем хранения данных (СХД), оборудование размещено в Центре обработки данных ПАО «Газпром нефть» в Санкт-Петербурге. Ведется активная работа по интеграции компонент «умного озера данных» с существующими DevOps–инструментами. Это позволит автоматизировать рабочие процессы инжиниринга данных, тестирования, выпуска релизов и в дальнейшем прийти к внедрению SLA («данные как сервис») по типовым задачам поставки данных для различных категорий бизнес-заказчиков и команд аналитиков.
Сложность реализации: Проект создания «умного озера данных» первый в российской практике, у команды проекта не было возможности при его реализации опираться на опыт предшественников. При выполнении проекта были разработаны, апробированы и внедрены подходы, обеспечивающие связную работу компонент решения в специфике аналитических задач. В частности, для успеха понадобилось развернуть в обратном направлении поток метаданных между модулями интеграции и управления данными Informatica. Специально для сценария работы «умного озера данных» вендором Informatica в ходе проекта было выпущено более 20 локальных патчей, а командой – создано большое число дополнительных поддерживающих инструментов. Внедрённый сценарий интеграции данных с автоматической передачей в компоненты Data Governance потребовал радикальных изменений в практике разработки. В ходе проекта в результате совместной 7-месячной работы команды проекта с вендорами Arenadata и Informatica удалось впервые в истории обеспечить успешную совместную работу российского ПО Arenadata Hadoop со следующими компонентами платформы: Informatica Big Data Management, Enterprise Data Catalog, Data Quality. В ходе проекта на уровне всех компонент, ландшафтов и ролевой модели в результате многомесячной работы с Центром защиты информации были обеспечены требования к защите информации по стандартам группы «Газпром», решение успешно сертифицировано для работы с коммерческой тайной и персональными данными.
Описание проекта: Дирекция региональных продаж ПАО «Газпром нефть» (управляет сетью >1800 АЗС в России, СНГ и странах Восточной Европы, >800 магазинов и кафе, сетью собственных топливных терминалов, производит биржевые и оптовые продажи, доставку и контроль качества нефтепродуктов). Решение «умное озеро данных» реализует продвинутую аналитическую архитектуру, в которой компоненты обработки, хранения и анализа данных (Data Lake, хранилище данных, лаборатория Data science) работают в тесной интеграции с компонентами Data Governance (каталог данных, управление качеством данных, бизнес-глоссарий, пользовательский портал обзора данных). «Умное озеро данных» включает в себя интегрированные: · подсистемы интеграции, обработки и хранения данных (включая Data Lake и хранилище данных) · единый каталог правил по качеству данных с управлением и мониторингом · систему управления метаданными: каталог доступных источников, таблиц, витрин, моделей данных и отчетов + цепочки происхождения данных · пользовательский портал по данным: поиск объектов данных, владельцев, ролей, датасетов, просмотр актуальных цепочек происхождения и правил по качеству данных и т.д. · лабораторию Data Science для исследования гипотез и построения новых моделей на основе данных Шаблон архитектуры рекомендован компанией Gartner и рассматривается как целевой в DataOps – зарождающихся практиках операционализации аналитики и демократизации данных в крупных организациях. «Умное озеро данных» имеет два ландшафта (тестовый и продуктивный) и три зоны («Сырой слой» для хранения копий данных из источников, «Продуктивная фабрика данных» с фокусом на оптимизацию, производительность и управление, «Исследовательская лаборатория» для задач прототипирования аналитических моделей) с различным уровнем управления данными для разных режимов работы. Основной сценарий разработки в «умном озере данных» подразумевает применение промышленных средств интеграции данных Informatica (Big Data Management, PowerCenter) над озером данных (Hadoop) и хранилищем данных (MS SQL Server 2017) таким образом, чтобы обеспечить автоматическую загрузку структур, цепочек происхождения, формул преобразования данных и выборок данных до полей в каталог данных Informatica (Enterprise Data Catalog). В каталоге данных производится паспортизация источников данных, таблиц и витрин, разметка данных по доменам с помощью настроенных шаблонов (например, для коммерческой тайны и персональных данных), а также профилирование данных (выявление типов и масок для полей данных, схожесть с полями других таблиц и т.д.). Кроме этого, в каталоге данных настраивается связь между объектами технических метаданных и бизнес-метаданных, что в дальнейшем обеспечивает бесшовную интеграцию с бизнес-глоссарием. Компонента управления качеством данных Informatica (Data Quality) позволяет вести единый каталог правил по качеству данных, обогащать его (уровень критичности, аспекты качества, теги для правил), бесшовно интегрировать в ETL-цепочки над озером и хранилищем данных, что дает возможность просматривать статус и историю выполнения каждого правила. Бизнес-глоссарий Informatica позволяет вести паспорта бизнес-объектов данных (определения, методики расчёта, связь с владельцами, стюардами, бизнес-процессами), управлять изменениями. Между объектами глоссария выстраиваются связи (иерархические, логические связи, которые могут характеризоваться характером самой связи, обязательностью и множественностью). Пользовательский портал Informatica Axon автоматически объединяет информацию из каталога данных, компоненты управления качеством данных и бизнес-глоссария, предоставляет массовый доступ для пользователей. Портал позволяет проводить поиск бизнес-терминов, просматривать паспорта бизнес-объектов, их связи с другими объектами, историю изменений, связанные правила по качеству данных и датасеты на уровне хранилища, цепочки происхождения данных и формулы преобразования данных на этапах ETL. Кроме этого, пользователям портала доступны актуальные статусы и история правил по качеству данных, а также сводные дашборды по качеству данных. В ходе проекта при разработке озера данных и хранилища данных апробировались и применялись подходы, которые в итоге позволили получить уникальный функционал: автоматическое построение происхождения данных (data lineage) до полей и автоматическая разметка в каталоге данных, единый управляемый каталог правил по качеству данных, интегрированный с ETL и бизнес-глоссарием, автоматический мониторинг качества данных по каждому датасету и др. Для этого пришлось значительно изменить культуру разработки и создать большое количество инструментов для автоматической передачи данных и метаданных между компонентами решения. Возможность реализации «умного озера данных» в Дирекции региональных продаж ПАO «Газпром нефть» обусловлена очень зрелым уровнем развития централизованной BI-системы, в которой за 7 лет развития были интегрированы более 140 внутренних и внешних источников данных, а также многолетней работой подразделений системного анализа и управления качеством данных. Всё это позволило формализовать большое количество связанных с аналитикой терминов, методик и правил, а также автоматизировать ключевые процессы подготовки данных. Для реализации проекта в Дирекции региональных продаж ПАO «Газпром нефть» был создан Центр аналитических решений, включивший подразделения системного анализа, группы разработки, управления метаданными, управления качеством данных и data science. Это позволило создать «с нуля» сильную компетентную команду, достичь соглашений по многим технологическим аспектам и успешно выполнить реализацию без привлечения внешних подрядчиков. Развитие решения «умное озеро данных» идет «снизу вверх»: от конкретных бизнес-кейсов, связанных с интеграцией и продвинутой аналитикой данных. Такой подход приводит к охвату внедренными инструментами Data Governance важных для Компании данных в порядке бизнес-приоритетов. На текущий момент около всех 50% аналитических проектов и инициатив Дирекции региональных продаж ПАO «Газпром нефть» уже реализуется в контуре «умного озера данных», план на 2020 год – охватить не менее 75%.
География проекта: «Умное озеро данных» развернуто в Центре обработки данных «Газпром нефти» в Санкт-Петербурге. Его пользователями являются аналитики бизнес-подразделений Дирекции региональных продаж, которые расположены в 29 регионах России и четырёх странах СНГ. Кроме этого, созданное решение является поставщиком данных для различных систем в контуре Компании и в целевом виде – для внешних партнеров.
Дополнительные презентации:: Подробное описание проекта умного озера данных, Газпром нефть.pdf