ABBYY FlexiCapture

ABBYY FlexiCapture - решение для потокового ввода данных и документов, которое автоматически извлекает информацию из бумажных документов и сохраняет ее в информационную систему предприятия.

ABBYY FlexiCapture позволяет различным организациям, в том числе крупным корпорациям, правительственным структурам и образовательным учреждениям, автоматизировать процесс ввода данных в информационные системы, снизить затраты и повысить качество обслуживания клиентов.

ABBYY FlexiCapture представляет собой единый центр потокового ввода данных и позволяет обрабатывать любые типы документов вне зависимости от структуры:

Процесс работы с ABBYY FlexiCapture состоит из нескольких этапов: на первом этапе происходят установка системы и настройка гибких описаний для обработки документов. После того как создан проект со всеми настройками и шаблонами, все типы документов могут обрабатываться в одном потоке.  Стандартные этапы обработки документов включают импорт изображений из различных источников, распознавание, верификацию и экспорт полученных данных в различные информационные системы

pic_1

ABBYY FlexiCapture: создание гибких описаний и настройка

Процедура ввода и обработки данных в ABBYY FlexiCapture состоит из двух этапов – подготовительной стадии и стадии обработки. За отдельные стадии обычно отвечают разные пользователи – администратор и операторы.

pic_2

На этапе настройки задаются правила обработки и осуществляется подготовка гибких описаний документов. Как правило, вышеперечисленные задачи выполняются администратором, который создает гибкие описания для всех типов документов, которые будут обрабатываться в рамках конкретного проекта.

В ABBYY FlexiCapture имеется набор инструментов для разработки и настройки гибких описаний различных документов:

ABBYY FormDesigner (дизайнер форм) – модуль для создания и тиражирования бланков так называемой «жесткой» формы, которые предназначены для заполнения от руки. ABBYY FormDesigner позволяет создавать широкий спектр бланков: черно-белые и цветные, линейчатые и растровые, одно- и многостраничные.

Новая версия ABBYY FormDesigner позволяет обрабатывать не только бумажные формы, но и электронные. С помощью специального приложения ABBYY FormDesigner возможно самостоятельно создавать формы в формате PDF, которые могут быть использованы, например, для заполнения форм в Интернете.

ABBYY FlexiLayout Studio – мощный инструмент по созданию гибких описаний для документов с нежесткой структурой, то есть тех документов, на которых расположение однотипных данных может варьироваться от одного экземпляра к другому. Для гибких описаний в интерфейсе программы принято название FlexiLayout. Гибкое описание FlexiLayout позволяет системе извлекать из документов с нежесткой структурой необходимые данные, как то: текстовые строки, штрихкоды, даты, валютные символы, числа, разделители, таблицы.

Например, используя лишь одно гибкое описание программа может найти все необходимые поля на счетах, поступающих от разных поставщиков и имеющих разный формат, даже если это многостраничные документы. ABBYY FlexiLayout Studio предлагает эффективные и удобные средства для тестирования и настройки гибких описаний на наборе изображений документов: дерево гипотез, эталонные описания, язык FlexiLayout.

Реализованные в ABBYY FlexiCapture технологии самообучения системы позволяют не только автоматизировать процесс создания описаний документов, но и дают возможность специалистам редактировать такие описания сразу после их создания для улучшения результата работы системы в дальнейшем. Это существенно сокращает сложность выполнения данного этапа работы и его длительность.

Document Definition Editor (редактор определения документов) – специальный модуль для создания определений документов любого типа. С его помощью Администратор может настроить правила обработки, указывающие программе, как идентифицировать отдельный тип документов в общем потоке данных и какие операции необходимо совершить с этим этими документами в процессе обработки. Администратор также может указать, какие данные необходимо извлечь и как их следует распознавать, проверять, верифицировать и экспортировать.

 

Обработка документов

Импорт документов: сканирование, e-mail, обычная и «горячая» папка

Бумажные документы могут быть импортированы в программу при помощи сканирующего устройства (сканера или МФУ), поддерживающего протокол сканирования TWAIN или ISIS.  Изображения документов также могут быть добавлены вручную из обычной папки, где они хранятся, либо автоматически из «горячей» папки.

Поддержка MAPI и POP3 позволяет отправлять изображения в систему по электронной почте. Кроме этого, через МФУ с функцией scan-to-email можно отправить на обработку вручную отсканированные изображения.

Поддерживаемые графические форматы: PDF, BMP, PCX, PNG, JPEG, JPEG 2000, DjVu и TIFF, DCX. Операция импорта может быть упрощена и автоматизирована при помощи набора профилей импорта с заранее заданными настройками.

Кроме централизованного сканирования ABBYY FlexiCapture предлагает удаленный импорт документов, который идеально подходит для нужд крупных компаний с распределенной структурой или распределенными бизнес-процессами, предполагающими сканирование документов в точках входа и последующую их централизованную обработку. Оператор инсталлирует и запускает клиента сканирования простым щелчком по ссылке на веб-странице. Установка полностью автоматизирована и не требует на компьютере административных привилегий. Профили импорта могут настраиваться локально оператором сканирования или назначаться централизованно с сервера.

Распознавание документов

В ABBYY FlexiCapture встроена технология распознавания печатных символов (OCR) почти для 190 языков и технологию интеллектуального распознавания рукопечатных символов (ICR) для более чем 110 языков, а также технологии распознавания штрихкодов (1D и 2D), распознавания меток и полнотекстового распознавания неструктурированных документов с последующим экспортом в формат PDF с возможностью полнотекстового поиска.

Стадия распознавания включает в себя предварительную обработку изображения, классификацию документов и извлечение из них данных и текста с последующим автоматическим контролем данных. Все эти операции выполняются автоматически и могут осуществляться в фоновом режиме.

Импортированные изображения документов могут быть подвергнуты предварительной обработке для обеспечения максимального качества распознавания. Предварительная обработка подразумевает ряд операций по корректировке ориентации страниц, инвертированию, удалению перекосов и шума.

ABBYY FlexiCapture накладывает существующие гибкие описания на импортированные изображения и собирает отдельные неупорядоченные страницы в документы. Для идентификации различных типов документов в обрабатываемом потоке используется технология интеллектуального распознавания документов (IDR, Intelligent Document Recognition) и технология FlexiCapture. ABBYY FlexiCapture автоматически классифицирует документы с нежестко заданной структурой любой сложности, включая многостраничные документы с разным количеством страниц, многостраничные таблицы и документы, имеющие при себе приложения в виде картинок и текстов.

После наложения шаблонов и обнаружения необходимых полей из них извлекаются данные при помощи высокоточных технологий многоязычного распознавания. Неструктурированные документы распознаются при помощи технологии полнотекстового распознавания для получения PDF-файлов с возможностью полнотекстового поиска.

В процессе распознавания программа автоматически применяет правила контроля данных, заданные администратором на этапе разработки гибких описаний. Наиболее распространенные типы правил включают в себя проверку формата чисел и дат, проверку по базе данных, проверку сумм, замену значений из списка, нормализацию дат и цен. Для многих типов данных имеются словари разрешенных слов, которые также могут использоваться в процессе контроля данных.

Верификация данных

Когда распознавание закончено, каждому символу присваивается статус, отражающий надежность распознавания: символ может быть надежно распознанным, ненадежно распознанным или нераспознанным. Последние два статуса означают, что оператору необходимо подтвердить гипотезу системы или внести исправления. Этот этап требует больше ручного труда, чем остальные. Для ускорения и упрощения процесса верификации в ABBYY FlexiCapture встроен специальный верификационный интерфейс, которые предлагает три режима работы: групповая верификация (больше всего подходит для проверки меток и цифр), верификация полей (для проверки текстовых полей) и верификация в окне «Документ» (для корректировки правил).

В процессе верификации также осуществляется корректировка правил сборки с использованием уменьшенных изображений документов, корректировка правил контроля данных и ручное индексирование при помощи «ввода на основе изображения» (Key From Image, KFI).

Проверку неуверенно распознанных символов можно производить прямо в окне браузера. Веб-станция верификации данных не требует установки на компьютер пользователя и доступна везде, где есть Интернет.

Экспорт данных и архивирование документов

Извлеченные данные могут быть экспортированы во внешние базы данных (через ODBC) или в файлы, переданы в бизнес-приложения или системы электронного документооборота. Данные могут экспортироваться в чистом виде или вместе с приложенными изображениями и текстами. Документы могут сохраняться в архивы как файлы в формате PDF/PDF-A с возможностью полнотекстового поиска.  

ABBYY FlexiCapture 10 поддерживает широкий спектр форматов сохранения данных (XML, XLS, DBF, CSV, TXT) и изображений (TIFF, JPEG, JPEG 2000, PDF, PDF/A, PCX, BMP, PNG).