Даже 80% знаний компании — это неструктурированные данные. Проблема в том, что только их извлечение, классификация и совместное использование в упорядоченной форме позволяет использовать их в бизнес-процессах. Служба классификации и извлечения платформы Doxis4 помогает собирать и классифицировать документы на основе анализа содержимого и форм, делая их доступными в виде структурированных наборов данных для программного обеспечения ECM и BPM.
Содержание
Информационные модели анализа контента Анализ изображений
Пакет Doxis4 представляет собой законченную платформу управления корпоративным контентом, которая объединяет функции управления документами, электронными файлами, электронным архивированием , групповой совместной работой и управлением рабочими процессами и бизнес-процессами в одной модульной системе, адаптированной к потребностям и возможностям компании.
Приведено в действие информацией
База данных Doxis4 снабжена различной информацией из входящей корреспонденции, деловых документов, писем и договоров. Процесс принятия документа к электронному обращению , его классификации и перенаправления в бизнес-процесс может быть сложным и дорогостоящим. Это связано с множеством форм и источников информации, а также с самой сложной обработкой бумажных документов. Самый базовый сценарий предполагает сканирование документа, оценку его содержимого и перенаправление его на обработку как часть правильного бизнес-процесса. Во многих случаях информация о документе, например данные счета, должна быть вручную переписана в систему управления контентом.
Частичная или полная автоматизация задач, связанных с организацией контента, приносит ряд ощутимых преимуществ. В дополнение к наиболее заметному сокращению объема и сложности человеческой работы, автоматизация ускоряет анализ и классификацию контента, а также уменьшает количество ошибок и ошибок при ручном вводе документов в систему.
Служба классификации и извлечения автоматизирует процессы классификации документов на основе анализа их содержания и формы, собирая неупорядоченную информацию, которая после обработки становится доступной в виде структурированных данных для модулей ECM и BPM системы Doxis4 .
Модели контент-анализа
Анализ содержимого — это процесс извлечения информации из структурированных, частично структурированных или неструктурированных документов для использования в бизнес-процессах и рабочих процессах .
Служба классификации и извлечения Doxis4 использует гибридную модель классификации документов, основанную на предопределенных правилах и встроенных механизмах искусственного интеллекта , машинного обучения и обработки естественного языка (NLP) .
Для повторяющихся структурированных документов классификация на основе словарей и предопределенных правил работает довольно хорошо. Классификация здесь быстрая и безошибочная, но необходимо разрабатывать и постоянно обновлять статические правила.
Классификация частично структурированных и неструктурированных документов на основе анализа их содержания и формы является более сложной и требует использования более сложных информационных технологий. В случае Doxis4 это продвинутые алгоритмы, использующие нейронные сети , то есть механизмы искусственного интеллекта и машинного обучения. Я говорю здесь о системах обучения, которые нуждаются в обучении большому набору информации, чтобы полностью автоматически точно оценивать содержание документов, систематизировать информацию, которую они содержат, а затем направлять их в соответствующий бизнес-процесс. Цель состоит в том, чтобы обучить систему таким образом, чтобы классификация документов на основе анализа содержимого осуществлялась автоматически, без вмешательства человека.
Такой подход позволяет оценивать содержание гораздо больше, чем путем поиска слов и фраз, содержащихся в документе. «Искусственный интеллект», встроенный в систему, позволяет полностью автоматически оценивать контекст информации, содержащейся в документе, и настроения, с которыми он был написан. Поэтому возможно автоматически оценить, оказывает ли образец отчета от клиента отрицательный эффект или, скорее, содержит какую-то похвалу.
Использование когнитивных услуг в процессе классификации документов ограничено воображением разработчиков систем. В настоящее время Doxis4 предлагает в области анализа контента, например, обнаружение попыток нарушения безопасности (мошеннические документы), автоматическую идентификацию лица, которому адресована корреспонденция, или автоматическую расстановку приоритетов (достоверность) документов.
Анализ изображения
Приведенное выше описание относится к случаю, когда информация (контент) была извлечена из документов с использованием полнотекстовой службы Doxis4 , когда речь идет о цифровых источниках или процессах OCR в случае отсканированных материалов.
Анализ текста не должен быть единственным методом классификации документов. Другой подход включает распознавание типа документов на основе макета и его характерных элементов, например, разделительных линий, полей формы и заголовков.
Служба классификации и извлечения Doxis4 также имеет встроенные функции классификации изображений , реализованные до того, как в игру вступит трудоемкий механизм распознавания текста. Анализ изображений, например отсканированная идентификационная карта, может быть основой для классификации данного документа без необходимости получать и обрабатывать информацию, которую он содержит. Удостоверение личности, содержащее личные данные, может храниться в системе в неизменном виде, описываться общими метаданными и направляться в соответствующий бизнес-процесс. Без страха нарушать правила GDPR.
Механизмы искусственного интеллекта и машинного обучения играют важную роль в анализе содержания документов, позволяя классифицировать их на основе содержащейся в них информации, контекста и настроений, то есть того, что до недавнего времени было сферой человека. С этого момента это всего лишь шаг к полной автоматизации задач, связанных с обработкой корреспонденции и деловых документов в компании.