Служба классификации и извлечения Doxis4: искусственный интеллект управляет классификацией неструктурированных данных

0
216

Даже 80% знаний компании – это неструктурированные данные. Проблема в том, что только их извлечение, классификация и совместное использование в упорядоченной форме позволяет использовать их в бизнес-процессах. Служба классификации и извлечения платформы Doxis4 помогает собирать и классифицировать документы на основе анализа содержимого и форм, делая их доступными в виде структурированных наборов данных для программного обеспечения ECM и BPM.

Служба классификации и извлечения Doxis4: искусственный интеллект управляет классификацией неструктурированных данных
Содержание
Информационные модели анализа контента Анализ изображений

Пакет Doxis4 представляет собой законченную платформу управления корпоративным контентом, которая объединяет функции управления документами, электронными файлами, электронным архивированием , групповой совместной работой и управлением рабочими процессами и бизнес-процессами в одной модульной системе, адаптированной к потребностям и возможностям компании.

Приведено в действие информацией

База данных Doxis4 снабжена различной информацией из входящей корреспонденции, деловых документов, писем и договоров. Процесс принятия документа к электронному обращению , его классификации и перенаправления в бизнес-процесс может быть сложным и дорогостоящим. Это связано с множеством форм и источников информации, а также с самой сложной обработкой бумажных документов. Самый базовый сценарий предполагает сканирование документа, оценку его содержимого и перенаправление его на обработку как часть правильного бизнес-процесса. Во многих случаях информация о документе, например данные счета, должна быть вручную переписана в систему управления контентом.

Частичная или полная автоматизация задач, связанных с организацией контента, приносит ряд ощутимых преимуществ. В дополнение к наиболее заметному сокращению объема и сложности человеческой работы, автоматизация ускоряет анализ и классификацию контента, а также уменьшает количество ошибок и ошибок при ручном вводе документов в систему.

Служба классификации и извлечения автоматизирует процессы классификации документов на основе анализа их содержания и формы, собирая неупорядоченную информацию, которая после обработки становится доступной в виде структурированных данных для модулей ECM и BPM системы Doxis4 .

Служба классификации и извлечения Doxis4: искусственный интеллект управляет классификацией неструктурированных данных

Модели контент-анализа

Анализ содержимого – это процесс извлечения информации из структурированных, частично структурированных или неструктурированных документов для использования в бизнес-процессах и рабочих процессах .

Служба классификации и извлечения Doxis4 использует гибридную модель классификации документов, основанную на предопределенных правилах и встроенных механизмах искусственного интеллекта , машинного обучения и обработки естественного языка (NLP) .

Служба классификации и извлечения Doxis4: искусственный интеллект управляет классификацией неструктурированных данных

Для повторяющихся структурированных документов классификация на основе словарей и предопределенных правил работает довольно хорошо. Классификация здесь быстрая и безошибочная, но необходимо разрабатывать и постоянно обновлять статические правила.

Классификация частично структурированных и неструктурированных документов на основе анализа их содержания и формы является более сложной и требует использования более сложных информационных технологий. В случае Doxis4 это продвинутые алгоритмы, использующие нейронные сети , то есть механизмы искусственного интеллекта и машинного обучения. Я говорю здесь о системах обучения, которые нуждаются в обучении большому набору информации, чтобы полностью автоматически точно оценивать содержание документов, систематизировать информацию, которую они содержат, а затем направлять их в соответствующий бизнес-процесс. Цель состоит в том, чтобы обучить систему таким образом, чтобы классификация документов на основе анализа содержимого осуществлялась автоматически, без вмешательства человека.

Такой подход позволяет оценивать содержание гораздо больше, чем путем поиска слов и фраз, содержащихся в документе. «Искусственный интеллект», встроенный в систему, позволяет полностью автоматически оценивать контекст информации, содержащейся в документе, и настроения, с которыми он был написан. Поэтому возможно автоматически оценить, оказывает ли образец отчета от клиента отрицательный эффект или, скорее, содержит какую-то похвалу.

Использование когнитивных услуг в процессе классификации документов ограничено воображением разработчиков систем. В настоящее время Doxis4 предлагает в области анализа контента, например, обнаружение попыток нарушения безопасности (мошеннические документы), автоматическую идентификацию лица, которому адресована корреспонденция, или автоматическую расстановку приоритетов (достоверность) документов.

Служба классификации и извлечения Doxis4: искусственный интеллект управляет классификацией неструктурированных данных

Анализ изображения

Приведенное выше описание относится к случаю, когда информация (контент) была извлечена из документов с использованием полнотекстовой службы Doxis4 , когда речь идет о цифровых источниках или процессах OCR в случае отсканированных материалов.

Анализ текста не должен быть единственным методом классификации документов. Другой подход включает распознавание типа документов на основе макета и его характерных элементов, например, разделительных линий, полей формы и заголовков.

Служба классификации и извлечения Doxis4 также имеет встроенные функции классификации изображений , реализованные до того, как в игру вступит трудоемкий механизм распознавания текста. Анализ изображений, например отсканированная идентификационная карта, может быть основой для классификации данного документа без необходимости получать и обрабатывать информацию, которую он содержит. Удостоверение личности, содержащее личные данные, может храниться в системе в неизменном виде, описываться общими метаданными и направляться в соответствующий бизнес-процесс. Без страха нарушать правила GDPR.

Механизмы искусственного интеллекта и машинного обучения играют важную роль в анализе содержания документов, позволяя классифицировать их на основе содержащейся в них информации, контекста и настроений, то есть того, что до недавнего времени было сферой человека. С этого момента это всего лишь шаг к полной автоматизации задач, связанных с обработкой корреспонденции и деловых документов в компании.

Служба классификации и извлечения Doxis4: искусственный интеллект управляет классификацией неструктурированных данных