Восстановление структуры документа

Технология адаптивного распознавания документов (ADRT) предназначена для восстановления различных элементов структуры документа.

Преобразование документов в редактируемые форматы (DOC, RTF) предполагает не только распознавание всего текста, но также структуры документа и восстановление оригинального расположения элементов. Таким образом, OCR-система должна анализировать содержимое документа, извлекать и сохранять в финальный документ такие элементы, как верхние и нижние колонтитулы, номера страниц, сноски, содержимое таблиц и др. Также необходимо восстановление форматирования документа: стилей шрифтов, заливки текста, форматирования таблиц и картинок.

ADRT включает следующие возможности:

ABBYY FineReader Engine 10 for Windows > Ключевые преимущества

o Заголовки для изображений/таблиц/диаграмм — Улучшено

ABBYY FineReader Engine 10 for Windows > Ключевые преимущества

o Верхние и нижние колонтитулы
o Номера страниц
o Сноски Улучшено
o Заливка текста
o Восстановление буллитов (точек и чисел)
o Сохранение гиперсcылок

Эта возможность поддержана в API структуры документа, с помощью которого можно получить доступ ко всем элементам документа. Разработчики имеют возможность создавать свои приложения, используя функции ADRT