Техническая миграция с Oracle в облако VK

Заказчик:
«Комус»
Руководитель проекта со стороны заказчика
Поставщик
Arenadata
Год завершения проекта
2023
Сроки выполнения проекта
Сентябрь, 2022 - Март, 2023
Масштаб проекта
1200 человеко-часов
Цели
  • Модернизация корпоративного хранилища данных;
  • увеличение глубины хранения истории по веб-аналитике;
  • сокращение стоимости хранения в ХД;
  • ускорение работы отчётов по веб-аналитике (опционально);
  • перенос логики процедур загрузки без рефакторинга;
  • обеспечение сходимости данных в новой и старой системах.
Результаты

В результате проекта «Комус» получила новые возможности для развития продвинутой веб-аналитики в АХД на базе Arenadata DB. Витрины этого хранилища также предоставляют данные для команды аналитиков (80 дата-специалистов), использующих Jupyterhub.

За счёт сжатия и поколоночного хранения в Arenadata DB удалось достичь существенной экономии в объёме хранилища: вместо 9 ТБ, хранившихся ранее в Oracle, теперь 1,5 ТБ.

Медианное значение ускорения работы отчётов составило пять раз, по тяжёлым отчётам удалось добиться ускорения на несколько порядков выше.

Наибольший вклад в стоимость старого решения вносили лицензионные платежи за функционал Oracle и регулярное наращивание количества жёстких дисков для хранилища на базе IBM, а Arenadata DB выходит на 20% дешевле в перспективе нескольких лет.

Уникальность проекта

Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин.
Проект решает задачи импортозамещения
Да
Использованное ПО
Arenadata DB (ADB) — аналитическая, распределённая СУБД, построенная на MPP-системе с открытым исходным кодом Greenplum.
Сложность реализации
  • В качестве ТЗ использовался Oracle-скрипт. Команда «Комуса» знала, что если придётся изменять логику загрузки, то итоговые витрины могут оказаться разными, а этого нельзя было допустить;
  • повышенное количество операций, требующих эксклюзивного доступа, приводит к необходимости наличия технологических окон, когда база не доступна для запросов;
  • Partition Elimination не работает в классической схеме «Таблица фактов — календарь»;
  • не смогли добиться полной утилизации канала при загрузке данных по PXF в один поток.
Описание проекта

Предпосылки миграции

О модернизации корпоративного хранилища данных «Комус» задумалась в 2020 году в связи с нарастающими проблемами с веб-аналитикой. На тот момент в компании работало хранилище SAP, а для веб-аналитики использовалось достаточно простое решение: содержимое виртуального журнала ClickStream.

С течением времени объём базы веб-аналитики превысил 9 ТБ, и это решение совсем перестало устраивать «Комус», поскольку в планах у ритейлера было дальнейшее активное развитие аналитического функционала в сторону продвинутой аналитики.

Переход в облако

К тому времени, как удалось получить бюджет на модернизацию, начались проблемы с поставками ИТ-оборудования, и тогда «Комус» взяла за основу облачный вариант Arenadata DB в VK Cloud. Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин. Проект, который выполнила компания Sapiens Solutions, начался в сентябре 2022 года и был завершён в марте 2023-го.

Пока в ИТ-ландшафте компании остаётся три хранилища данных: SAP BW (комплексная система бизнес-аналитики на платформе SAP), старое хранилище на базе Oracle, которое используется для стандартизованной корпоративной отчётности, и аналитическое хранилище данных (АХД) на базе Arenadata DB. Успешной реализации проекта помогло использование ETL-фреймворка, который состоял из таблиц метаданных и автоматизированных функций, упрощающих загрузку данных: через описание метаданных и одну функцию f_load_simple удалось реализовать до 60 % загрузок данных. Со всеми процедурами справилась за четыре месяца команда численностью шесть-семь человек. В рамках проекта было произведено 800 тестов сравнения данных.

География проекта

Москва

Коментарии: 1

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Вячеслав Чупраков
    Рейтинг: 1279
    Прагматика Эксперт
    Заместитель ИТ директора по инфраструктуре и сервисам
    07.01.2024 18:18

    Добрый вечер, переход на новую БД потребовал новых специалистов, обучили существующих или поддержку взял на себя интегратор?

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.