Аналитика неструктурированных данных: ускорение работы с текстом

29 сентября 2023

Как интеллектуальная обработка и анализ текстовой информации могут помочь крупным организациям при работе с большими объемами данных, рассказывает директор «Преферентум» (компания SL Soft) Дмитрий Романов.

Что такое «Преферентум» и каковы области его применения?

Платформа «Преферентум» – это комплекс технологий для помощи человеку в рутинных, но в то же время требующих интеллектуальной работы процессах, связанных с неструктурированной информацией. Это решения для корпоративной среды: средних и крупных коммерческих компаний, госструктур – организаций, где существуют довольно развитые и устоявшиеся бизнес-процессы. Продукты «Преферентум» решают несколько основных задач, первое – это классификация. Например, в какое подразделение направить то или иное обращение, кого назначить исполнителем по заявке, выяснить, насколько срочным и важным является документ и др.

Затем задачи, связанные с атрибутированием, то есть выделением данных и их внесением в ту или иную информационную систему. Например, входящий документ, который нужно зарегистрировать: для этого человек должен найти организацию-отправителя, подписанта, исходящий номер, разобраться, о чем он вообще, и всю эту информацию внести в карточку. Только исходный документ может быть составлен таким образом, что приходится перечитывать его несколько раз, чтобы понять смысл. Например, специалисты по закупкам, получившие несколько ТКП (технико-коммерческих предложений), из каждого документа должны вычленить, поставку какого товара им предлагают, по какой цене, в какой срок, кто контактное лицо, и выгрузить данные в свою систему для подготовки анализа начальной максимальной цены контракта. Но в ТКП цена может быть написана где угодно и как угодно. В таких случаях платформа «Преферентум» экономит время и извлекает эту информацию автоматически.

Третье направление – экспертиза, проверка документов на соответствие определенным правилам и требованиям. Четвертое – задачи, связанные с поиском по массивам данным, в том числе по электронным документам, на естественном языке.

Это основные сценарии, самые типичные, но «Преферентуму» можно поручить и выявление плагиата, поиск похожих документов, определение авторства, сопоставление разных документов друг с другом, анализ рисков в договорах, построение онтологии и т.д.

Как работают технологии «Преферентум»?

Сначала мы извлекаем текст. При чем он может быть уже сверстанным в каком-то формате на сайте, а может находиться в виде скан-образа, то есть сначала его придется перевести в машиночитаемый вид. Затем нужно понять, что это за текст – проводим морфологический анализ: выделяем отдельные слова, понимаем, к каким частям речи они относятся, где существительные, глаголы, наречия, прилагательные и т.д.

Потом, в зависимости от задач, возможны разные варианты, например, синтаксический разбор: смотрим, где в предложениях подлежащее, где сказуемое. Затем – выделение именованных сущностей (NER – named entity recognition). NER – это такая частная задача: понять, что вот здесь упоминается та или иная персона, организация, а здесь — географический объект, а вот это — банковские реквизиты, а тут — ссылка на нормативный акт. То есть мы сначала выделяем базовые сущности, их насчитывается более сорока.

Если перед нами большой документ, мы разбираем его структуру, устанавливаем разделы, главы, пункты, подпункты. Полученные данные используем для решения прикладных задач. Типичный сценарий — на входе получаем документ или пакет документов, а на выходе выдаем формализованную информацию: текст с уже расставленными комментариями, результатами проверки, чек-лист или реквизиты.

Вы упомянули, что сущностей более сорока – этого количества достаточно для работы?

Это своего рода база: упоминание людей, их должностей, название организаций, географические объекты, почтовые адреса, телефоны. Типовые вещи, которые встречаются в большинстве документов: ФИО, реквизиты, названия организаций или почтовые адреса и др. А дальше уже возникают нюансы. Например, мы получили ТКП, в нем упоминается 15 организаций. А кто из них – поставщик, кто прислал это предложение? Или в документе встретилось 20 фамилий конкретных людей – кто из них нам нужен, кто тот самый автор этого ТКП?

То есть сущности добавляются под запрос заказчика? Например, городской департамент запустил новые электрические речные трамвайчики – будь он заказчиком, пришлось бы добавить сущность в транспортный перечень?

Когда нужны дополнительные сущности, отдельные флаги, возможны два пути. Это определение неких крупных фактов над уже существующими: например, мы определяем, по каким признакам ФИО автора доверенности отличается от ФИО того, кому выдана эта доверенность, пытаемся с помощью дополнительных правил описать новую, более сложную сущность.

Второй вариант – это машинное обучение (ML). Для этого необходимо взять размеченную выборку и обучить систему на ней. Компоненты машинного обучения сами выявят те признаки, которые отличают различных персон в доверенностях, и настроятся на выделение таких объектов. Условно, поймут, что такое «речные трамвайчики».

Но чаще ML применяются алгоритмические подходы, поскольку у большинства заказчиков нет достаточного массива обучающих выборок. Если возможно, мы используем комбинацию этих методов, объединяя достоинства каждого из подходов. Таким образом достигается максимальная точность работы системы. Преимущества алгоритмических правил – в возможности быстрого получения качественного работающего решения и легкости адаптации системы при изменении требований заказчика (например, при появлении новых шаблонов документов или выявлении каких-то дополнительных особых случаев и вариантов). ML-подходы хороши там, где в исходных информационных системах накапливаются данные о принимаемых человеком решениях и бизнес-процессы заказчика уже создают размеченные выборки документов (например, в СЭД есть информация о том, кому из исполнителей был расписан тот или иной документ).

Какие сценарии работы «Преферентума» сейчас наиболее востребованы?

Первый – это классификация обращений на горячую линию. Понятный кейс – техподдержка, когда на первую линию приходится большой поток обращений, а операторы перегружены и не обладают профильными компетенциями. Им нужно понять, о чем речь, и маршрутизировать обращение клиента к специалисту. Такие задачи мы решаем, например, для «Россельхозбанка», банка «Открытие», «Уралхима».

Второй популярный сценарий – это проверка документов. Мы создаем решения, которые помогают проводить экспертизу договоров, анализировать нормативные правовые акты, проверять техническую или закупочную документацию. Так, МВД и Минюст используют «Преферентум» в работе над ведомственными актами, проектами приказов и законов. Служебные записки, проекты внутренних и исходящих документов проверят на соответствие требований делопроизводства – шрифты, интервалы, поля, орфография, соответствие требуемым шаблонами т.п.

Третий, активно развивающийся в последнее время сценарий, это интеллектуальные корпоративные поисковые системы. Многие заказчики сталкиваются с тем, что у них скопились большие информационные ресурсы в архивах, в системах электронного документооборота, в специализированных системах. И это тот ресурс, который можно и нужно использовать, например, для анализа тенденций развития, инноваций, выявления компетенций и т.п.

Получается, что у вас каждый заказчик уникален и это разработка под конкретную задачу?

Не всегда, но довольно часто. У нас есть типовые решения, например, Классификатор: это технологический сервис, его легко настроить, легко внедрить, он абсолютно отчуждаемый. А бывают действительно сложные проекты, где требуется разработка специализированных правил или решений для заказчика на основе имеющихся технологий. В одних случаях мы просто предоставляем партнерам движок, и дальше они сами его встраивают и интегрируют со своими решениями, в других – занимаемся уже более сложной разработкой.

Получив классификатор, клиент настраивает для себя параметры?

Процесс внедрения складывается из нескольких этапов: мы знакомимся с заказчиком, формализуем задачу, описываем, какая информация есть на входе и что нужно получить на выходе. Обязательный этап – сбор примеров реальных документов, с которыми работает заказчик. Полученный датасет делится на обучающую и тестовую выборку. Затем мы реализуем пилотный проект, замеряем, какое реальное качество классификации можем получить. После этого обычно приходится немного «поколдовать» – подобрать наилучшие параметры, определить, какую часть работы классификатор может взять на себя, а что лучше оставить за человеком. И после - стандартный процесс: приемо-сдаточные испытания, техподдержка.

Очень часто бывают опечатки, сленг, какие-то технические ошибки — это тоже вопрос качества?

И это тоже. На самом деле опечатки — не беда, мы можем их корректировать, для этого есть технологии. Сленг тоже: если мы используем машинное обучение, он только помогает качественнее классифицировать информацию. А, например, для официальных документов у нас есть решения, которые отличают сленговые выражения от литературной нормы и помогают их выявлять.

Здесь скорее вопрос в том, что документы могут быть не очень хорошего качества. Например, при сканировании появляется какой-то процент ошибок: грязные образы, поставили печать на фамилию, подпись от руки поверх текста. Человек читает и понимает такой текст правильно, а когда это делает OCR-движок, может возникать некий процент ошибок. А ведь технологии «Преферентума» работают с тем, что получили от OCR.

Под брендом «Преферентум» идет одно решение или это несколько продуктов?

Есть базовая платформа «Преферентум» – набор технологий, которые мы используем в больших и крупных проектах. На этом платформенном решении выстраиваются любые конфигурации. Есть отдельные сервисы, например, «Документорий», который используется в поисковых системах, или «РБТ» для проверок документов.

Есть функциональные решения для конкретных заказчиков и сценариев. Сейчас мы дорабатываем «Преферентум Юртехнику», помогающую юристам в повседневных задачах, корректной подготовке документов: в какой последовательности давать ссылки на нормативные правовые акты, как указывать источники опубликования, какие разделы обязательны в приказе, а каких словосочетаний не должно быть. Это все определяет специальная правовая дисциплина – «юридическая техника». С помощью нашего продукта можно проверить документ, чтобы в нем не было ошибок в структуре, орфографии, в ссылках, фильтрах, датах и т.д. Можно сравнить версии документов, подписанную контрагентом и изначально согласованную в электронном виде, нет ли там расхождений. Можно быстро сформировать документ, описывающий вносимые изменения: «пункт такой-то изложить в следующей редакции», «статью X в главе N признать утратившей силу», вместо определенного слова использовать иное словосочетание. То есть вы просто правите текст, как в редакторе документов, а справа автоматически формируется изменение. Либо второй вариант: вы получили правки к документу – на десяти страницах написано, что и где предлагается изменить. С помощью «Преферентум Юртехники» получится автоматически внести эти изменения в исходную версию.

Второе решение – «Преферентум Нормоконтроль», проверка технических документов. Полезно производственникам, ИТ-специалистам, тем, кто занимается подготовкой и проведением НИОКР. Речь идет о проверке технической документации и отчетов – в этой области множество ГОСТов, и решение будет проверять, соответствуют ли проекты всем этим регламентам. Например, нужно проверить актуальность ссылок на «нормативку»: в техническом задании может быть сотня таких ссылок на федеральные законы и ГОСТы – все ли они достоверны, не утратили ли силу какие-то из них? Мы умеем решать такие задачи.

Подробнее на сайте

Реклама ООО «Преферентум»

9372