Аналіз структури документа

Аналіз необхідний для автоматичного перетворення документа зі збереженням форматування, розпізнавання окремих зон документа з розміткою блоків вручну, а також для обробки форм. Аналіз документа дозволяє:

Також можна скористатися наступними можливостями ABBYY FineReader Engine EPS, кожна з яких є індивідуальним типом аналізу, призначеним для вирішення конкретних завдань користувача:

Аналіз документа для рахунків. Цей спеціалізований вид аналізу призначено для попередньої обробки документів, розташування елементів яких неоднакове для різних документів одного типу. До них відносяться, наприклад, інвойси, платіжні доручення, квитанції, грошові перекази, візитні картки, договори, заяви про виплату страхового відшкодування, резюме тощо. Ця функція дозволяє виявляти максимальну кількість тексту, зокрема символи та цифри навіть якщо написи виконані дрібним шрифтом і знаходяться на малюнках, логотипах тощо.
На відміну від стандартного аналізу цей спеціалізований вид аналізу передбачає, що вся друкована інформація, яка міститься на документі, є текстом. Зокрема, структура таблиць не аналізується, текст в клітинах виділяється в самостійні текстові блоки. За такого підходу важливу текстову інформацію не буде інтерпретовано як графічні елементи, а числа в таблицях гарантовано не буде розділено на групи, які складаються з цілої і дробової частин. У результаті вдасться отримати максимальну кількість інформації про текст, зокрема його координати. В подальшому цю інформацію може бути використано для аналізу документа, обробки полів і розбору тексту в інших системах.

Аналіз документа для повнотекстового індексування. У цьому режимі на сторінці автоматично знаходиться та розпізнається вся текстова інформація, зокрема і та, яка знаходиться всередині зображень, графіків, діаграм тощо. Це дає розробникам можливість будувати повнотекстові індекси для розпізнаваних документів, що корисно для організації ефективного та зручного пошуку в електронних архівах та інших масивах неструктурованої чи слабоструктурованої текстової інформації