Анализ структуры документа

Анализ необходим для автоматического преобразования документа с сохранением форматирования, распознавания отдельных зон документа с разметкой блоков вручную, а так же для обработки форм. Анализ документа позволяет:

Также можно воспользоваться следующими возможностями ABBYY FineReader Engine EPS, каждая из которых представляет собой индивидуальный тип анализа, предназначенный для решения конкретных задач пользователя:

Анализ документа для счетов. Этот специализированный вид анализа предназначен для предварительной обработки документов, расположение элементов которых неодинаково для разных документов одного типа. К ним относятся, например, инвойсы, платёжные поручения, квитанции, денежные переводы, визитные карточки, договоры, заявление о выплате страхового возмещения, резюме и др. Данная функция позволяет обнаруживать максимальное количество текста, включая символы и цифры даже если надписи выполнены мелким шрифтом и находятся на картинках, логотипах, и т.п.
В отличие от стандартного анализа, данный специализированный вид анализа предполагает, что вся печатная информация, содержащаяся на документе, является текстом. В частности, структура таблиц не анализируется, текст в ячейках выделяется в самостоятельные текстовые блоки. При таком подходе важная текстовая информация не будет интерпретирована как графические элементы, а числа в таблицах гарантировано не будут разделены на группы, состоящие из целой и дробной частей. В результате удастся получить максимальное количество информации о тексте, включая его координаты. Впоследствии эта информация может быть использована для анализа документа, обработки полей и разбора текста в других системах.

Анализ документа для полнотекстового индексирования. В данном режиме на странице автоматически находится и распознаётся вся текстовая информация, в том числе и та, что находится внутри изображений, графиков, диаграмм и т.п. Это даёт разработчикам возможность строить полнотекстовые индексы для распознаваемых документов, что полезно для организации эффективного и удобного поиска по электронным архивам и другим массивам неструктурированной или слабо структурированной текстовой информации