Специальные функции анализа документов

Анализ документов для распознавания счетов

Это функция предобработки для конвертирования полуструктурированных документов, таких как счета, платежные поручения, накладные, визитные карточки, контракты, бланки страховых требований, резюме и т. д. Она находит всевозможные текстовые объекты на таких документах, в том числе цифры, даже если они находятся внутри печатей, картинок, логотипов или в коротких отрывках текста.

В отличие от стандартного полностраничного анализа документов, эта функция исходит из того, что все напечатанное на документе является текстом. Функция также следит за тем, чтобы текстовая информация не интерпретировалась как графические элементы, а числа не разбивались на множество символов. В результате на анализ документов и их последующую обработку другими системами подается максимум информации о тексте, в том числе его координаты.

Блок анализа документов для распознавания счетов используется в программе ABBYY FlexiLayout Studio на первом этапе анализа полуструктурированных документов, помогая извлекать данные из документов с похожими данными, но с разной структурой.

Анализ документов для полнотекстового индексирования

Автоматически находит и распознает весь текст на документах, в том числе текст, помещенный на картинках, графиках и диаграммах. Разработчикам эта функция может потребоваться для извлечения всей текстовой информации из документов с целью последующего индексирования (например, в системах управления документооборотом, системах управления контентом и системах архивирования).

Зональное распознавание/распознавание на уровне полей

ABBYY FineReader Engine 9.0 поддерживает распознавание на уровне полей (зональное распознавание), необходимое в ключевых бизнес-процессах, таких как ввод форм, классификация по ключевым словам и индексирование по ключевым словам. Мощные функции обработки изображений позволяют находить небольшие блоки любого качества с любыми графическими особенностями, которые могут повлиять на качество распознавания (например, подчеркнутый текст, шум от сканирования, пробелы в тексте и т. д.)

Основная функциональность для зонального распознавания включает в себя многоязычное оптическое распознавание и чтение штрихкодов, а также ряд специальных функций: