Восстановление структуры документа

Технология адаптивного распознавания документов (ADRT) предназначена для восстановления различных элементов структуры документа.
Преобразование документов в редактируемые форматы (.doc, .rtf) предполагает не только распознавание всего текста, но также структуры документа и восстановление оригинального расположения элементов. Таким образом, OCR система должна анализировать содержимое документа, извлекать и сохранять в финальный документ такие элементы, как верхние и нижние колонтитулы, номера страниц, сноски, содержимое таблиц и др. Также необходимо восстановление форматирования документа: стилей шрифтов, заливки текста, форматирования таблиц и картинок.

ADRT включает следующие возможности:

  • Восстановление логической структуры элементов документа и форматирования
    o Иерархическая структура заголовков — Новое!
    o Текст в таблицах — Новое!
    o Шрифты и стили шрифтов - Улучшено
Восстановление структуры документа

o Заголовки для изображений/таблиц/диаграмм — Улучшено

Восстановление структуры документа

o Верхние и нижние колонтитулы
o Номера страниц
o Сноски — Улучшено
o Заливка текста
o Восстановление буллитов (точек и чисел)
o Сохранение гиперсылок

  • Восстановление структуры таблицы
  • Распознавание страниц стиля «глянцевый журнал» – Новое!

Эта возможность поддержана в API структуры документа, с помощью которого можно получить доступ ко всем элементам документа. Разработчики имеют возможность создавать свои приложения, используя функции ADRT.