Корпоративный поиск – единая точка доступа к знаниям компании

Заказчик:

ПАО "Газпром нефть"

Поставщик

ООО "Газпромнефть - Цифровые решения"

Год завершения проекта

2020

Сроки выполнения проекта

Октябрь, 2018 - Декабрь, 2020

Масштаб проекта

60000 человеко-часов

Цели

Цель проекта – повысить эффективность управления знаниями, накопить и развить экспертный потенциал компании путем предоставления единого окна доступа к данным и создания новых сценариев работы с контентом.

Задачи:

Упрощение процессов поиска информации и ускорение доступа к данным, контенту и внутренним сервисам;
Сохранение и обмен накопленными знаниями в компании, агрегация лучших практик и экспертизы для повышения операционной эффективности.
Сокращение затрат на разработку локальных семантических и поисковых систем за счет создания централизованной платформы.

Уникальность проекта

Корпоративный поиск – уникальная точка доступа к накопленным внутренним знаниям и экспертизе, формирующая в компании новый сценарий работы с информацией и данными.

Внедрение технологии семантической обработки и кластеризации данных позволяет реализовать вычислительное смысловое индексирование текстов на естественном языке. В результате автоматически формируется модель семантики отдельных документов, достоверно характеризующая тематику и содержание проанализированных информационных ресурсов.

Для обучения системы особенностям корпоративного языка и терминологии нефтегазовой отрасли командой проекта сформирован уникальный тезаурус, содержащий более тысячи различных терминов, определений и аббревиатур.

Обеспечен поиск по различным по структуре и контенту данным: структурированные и неструктурированные; разные типы объектов: документы, сотрудники, аналитические приложения (BI) и т.д.

Использованное ПО

Разработка:

бэкенд: Scala, Java, Python

фронтенд: ReactJS,

БД: PostgreSQL, MongoDB

Поиск: ElasticSearch

Анализ данных и языка: Apache Spark, Tika, Tesseract OCR, CRF, rule-based over LSA

Семантическая обработка: LSH, LSA, Word2vec, doc2vec/paragraph2vec

Инфраструктура: 4 сервера приложение и БД; 3 сервера обсчет данных, вычислительный кластер. Мощность каждого сервера: 16 ядер, 32ГБ оперативной памяти, 1ТБ HDD.

Сложность реализации

Необходимость предобработки, унификации и систематизации большого объема разноструктурированных данных; Поддержка универсального интерфейса взаимодействия для быстрого подключения новых систем. Большой организационный объем по выстраиванию коммуникаций и синхронизации разработки с командами систем-источников. Комплексная ролевая модель доступа к данным с наследованием от систем-источников. Необходимость постоянной актуализации стека, в связи с развитием технологий обработки текстов, оптимизация серверных мощностей и архитектуры решения.

Описание проекта

Проект направлен на создание общекорпоративной поисковой платформы, выступающей единой точкой доступа к структурированным и неструктурированным данным, знаниям и экспертизе компании. Для пользователей это новый сценарий взаимодействия с данными и новые возможности работы с контентом для повышения эффективности рабочих процессов.

Ключевой KPI проекта – сокращение времени на поиск информации во внутренних и специализированным внешних источниках компании. Подтвержденный эффект – сокращение времени на поиск информации на 35%.

Потенциальный охват аудитории – более 70 тысяч сотрудников ГК «Газпром нефть».

Ключевые инструменты и возможности системы:

1. Сбор данных и минимизация ресурсов на подключение источников:

- enterprise коннекторы к основным типам систем, внедренным в компании;

- краулер для обхода сайтов;

- унифицированное API для снижения времени на интеграции с системами-источниками;

- механизмы комплексной ролевой модели доступа к документам в поиске на основании правил доступа систем-источников;

- возможность поиска по разным типами бизнес-объектов (документы, люди, отчеты, бизнес-глоссарий, корпоративные сервисы и т.д.)

2. Поиск и анализ контента:

- сегментация пользовательского запроса: выделение терминов, аббревиатур, понятий и сущностей для учета контекста задаваемого вопроса;

- автоподсказки при вводе запроса для формирования автодополнений, исправления опечаток и раскладки, рекомендаций на основе контекста вопроса;

- формирование поисковой выдачи с учетом контекста пользовательского запроса и онтологической модели корпоративного языка;

- тематические подборки документов на основе семантического анализа и поиска смысловых пересечений документов;

3. Платформа поиска обеспечивает:

- накопление данных и экспертизы для анализа и выявления новых знаний;

- использование реализованных инструментов для быстрого старта новых проектов по поиску и анализу данных;

- API для встраивания функционала поиска и анализа контента платформы в другие информационные системы.

Платформа поиска является внутренней разработкой. В процессе развития функции управления данными Натальей Третьяковой, лидером функции, был сформирован центр компетенций для внутреннего развития и внедрения продуктов. В задачи команды входит развитие платформы поиска и инструментов семантического анализа, создание специализированных поисковых, аналитических и экспертных систем-сателлитов. В свою очередь, это является основой для структурирования и организации информации, доступности и качества данных для поддержания развития процессов управления данными в компании.

Видео: https://yadi.sk/i/yjq6vL2ejZCHlA

География проекта

Все регионы присутствия "Газпром нефти".

Дополнительные презентации:

Корпоративный поиск_CIO.pdf