Предварительная обработка

Операции с изображением, предварительная обработка изображения

ABBYY FineReader Engine 10 поддерживает основные графические форматы, включая многостраничные TIFF и JPEG 2000, и работает с черно-белыми, серыми и цветными изображениями. Изображения могут поступать на обработку в ABBYY FineReader Engine 10 несколькими способами: со сканера через TWAIN-интерфейс, непосредственно из памяти или из файлов. Программа также может открывать PDF-файлы и преобразовывать их в изображения с помощью Adobe PDF Library. В ABBYY FineReader Engine есть возможность управлять такими параметрами сканирования как яркость, цветность, разрешение, область сканирования, одно- или двустороннее сканирование. Возможно также задать паузу между сканированием страниц и т.д.

ABBYY FineReader Engine способен выполнять следующие операции предварительной обработки изображений:

  • Устранение перекосов. Применяется для изображений, полученных со сканера. Для обработки не требуется наличие границ или других линий.
  • Разделение двойных страниц. Применяется при распознавании отсканированных книг: изображение книжного разворота разделяется на два изображения, каждое из которых соответствует одной странице. Затем каждая страница распознается и анализируется, при этом также может быть устранен перекос изображения.
  • Удаление «мусора» (очистка изображения). При сканировании с низким или средним качеством на изображении может появиться большое количество лишних точек, расположенных вблизи границ символов, что приводит к ухудшению качества распознавания. ABBYY FineReader Engine 10 позволяет устранять подобный случайный «мусор».
  • Фильтрация текстуры и адаптивная бинаризация. Технология фильтрации текстуры позволяет удалять с изображения фоновую текстуру и цветной фон. С помощью передовой технологии адаптивной бинаризации удается безошибочно распознавать тексты, расположенные на фоне изображений с переменной контрастностью. При распознавании подобных оригиналов параметры бинаризации подбираются индивидуально для каждого фрагмента изображения. Таким образом удается повысить точность распознавания трудночитаемых документов, таких как газеты, цветные документы, факсы и ксерокопии.
  • Масштабирование изображения. Если документ был отсканирован с низким разрешением (менее 120 dpi) и в нем есть мелкий текст (менее 10 pt), для повышения качества распознавания можно выполнить цифровое увеличение изображения.
  • Автоматическое определение угла поворота страницы (90, 180, 270 градусов). При сканировании возможно различное расположение страниц пакета на планшете сканера. Соответственно, их изображения могут быть повернуты под различным углом. ABBYY FineReader Engine 10 автоматически определяет угол поворота страницы и при необходимости исправляет ошибки, допущенные при подаче документов в сканер.
  • Адаптивная обработка изображений документов, снятых цифровым фотоаппаратом. Эта новая технология позволяет отличать отсканированные изображения документов от изображений, полученных при помощи цифрового фотоаппарата, и устранять искажения, типичные для цифровой фотосъемки.
  • Очистка изображения в пределах текстового блока. При очистке предусмотрена возможность указывать размер черных и белых фракций «мусора».
  • Изменение цветов текста и фона в прямоугольных областях. Эта функция будет особенно полезна разработчикам систем управления данными. Типовой сценарий ее применения в электронном архиве выглядит следующим образом: распознанный документ сохранен в виде изображения и в виде текста, притом в архивном индексе хранятся геометрические координаты каждого символа на изображении страницы. Используя функцию изменения цветов, можно реализовать подсветку ключевых слов в результатах поиска по архиву. При этом пользователь будет видеть фрагмент изображения, на котором искомые слова выделены цветом.

Анализ структуры документов