ABBYY FlexiCapture

ABBYY FlexiCapture - рішення для потокового введення даних і документів, яке автоматично видобуває інформацію з паперових документів і зберігає її в інформаційну систему підприємства.

ABBYY FlexiCapture дозволяє різним організаціям, зокрема великим корпораціям, урядовим структурам і освітнім установам автоматизувати процес введення даних в інформаційні системи, знизити витрати та підвищити якість обслуговування клієнтів.

ABBYY FlexiCapture становить собою єдиним центром потокового введення даних і дозволяє обробляти будь-які типи документів незалежно від структури:

Процес роботи з ABBYY FlexiCapture складається з декількох етапів: на першому етапі відбувається встановлення системи й настройка гнучких описів для обробки документів. Після того як створено проект з усіма настройками та шаблонами, усе типи документів можуть оброблятися в одному потоці.  Стандартні етапи обробки документів включають імпорт зображень із різноманітних джерел, розпізнавання, верифікацію та експорт отриманих даних у різні інформаційні системи

pic_1

ABBYY FlexiCapture: створення гнучких описів і настройок

Процедура введення й обробки даних в ABBYY FlexiCapture складається з двох етапів — підготовчої стадії та стадії обробки. За окремі стадії зазвичай відповідають різні користувачі — адміністратор і оператори.

pic_2

На етапі настройки задаються правила обробки та здійснюється підготовка гнучких описів документів. Як правило, перелічені вище завдання виконуються адміністратором, який створює гнучкі описи для всіх типів документів, які будуть оброблятися в межах конкретного проекту.

В ABBYY FlexiCapture наявний набір інструментів для розробки та настройки гнучких описів різних документів:

ABBYY FormDesigner (дизайнер форм) — модуль для створення й тиражування бланків так званої «жорсткої» форми, які призначено для заповнення від руки. ABBYY FormDesigner дозволяє створювати широкий спектр бланків: чорно-білі та кольорові, лінійчаті та растрові, одно- й багатосторінкові.

Нова версія ABBYY FormDesigner дозволяє обробляти не лише паперові форми, але й електронні. За допомогою спеціального додатка ABBYY FormDesigner можна самостійно створювати форми у форматі PDF, які можна використовувати, наприклад, для заповнення форм в Інтернеті.

ABBYY FlexiLayout Studio — потужний інструмент зі створення гнучких описів для документів із нежорсткою структурою, тобто тих документів, на яких розміщення однотипних даних може варіюватися на різних екземплярах. Для гнучких описів у інтерфейсі програми прийнято назву FlexiLayout. Гнучкий опис FlexiLayout дозволяє системі видобувати з документів із нежорсткою структурою необхідні дані, як наприклад: текстові рядки, штрих-коди, дати, валютні символи, числа, роздільники, таблиці.

Наприклад, використовуючи лише один гнучкий опис, програма може знайти всі необхідні поля на рахунках, які надходять від різних постачальників і мають різний формат, навіть якщо це багатосторінкові документи. ABBYY FlexiLayout Studio пропонує ефективні та зручні засоби для тестування та настройок гнучких описів на наборі зображень документів: дерево гіпотез, еталонні описи, мова FlexiLayout.

Реалізовані в ABBYY FlexiCapture технології самонавчання системи дозволяють не лише автоматизувати процес створення описів документів, але й дають можливість спеціалістам редагувати такі описи відразу після їх створення для покращення результату роботи системи в подальшому. Це суттєво скорочує складність виконання цього етапу роботи та його тривалість.

Document Definition Editor (редактор визначення документів) — спеціальний модуль для створення визначень документів будь-якого типу. За його допомогою Адміністратор може настроїти правила обробки, які вказують програмі, як ідентифікувати окремий тип документів у загальному потоці даних і які операції необхідно виконати з цими документами у процесі обробки. Адміністратор також може вказати, які дані необхідно видобувати та як їх необхідно розпізнавати, перевіряти, верифікувати та експортувати.

 

Обробка документів

Імпорт документів: сканування, електронна пошта, звичайна чи «гаряча» папка

Паперові документи може бути імпортовано у програму за допомогою сканувального пристрою (сканера чи БФП), який підтримує протокол сканування TWAIN або ISIS.  Зображення документів також може бути додано вручну зі звичайної папки, де вони зберігаються, або автоматично з «гарячої» папки.

Підтримка MAPI та POP3 дозволяє відправити зображення в систему електронною поштою. Окрім того, через БФП із функцією scan-to-email можна надіслати на обробку вручну відскановані зображення.

Підтримувані графічні формати: PDF, BMP, PCX, PNG, JPEG, JPEG 2000, DjVu та TIFF, DCX. Операцію імпорту може бути спрощено й автоматизовано за допомогою набору профілів імпорту із завчасно заданими настройками.

Окрім централізованого сканування ABBYY FlexiCapture пропонує віддалений імпорт документів, який ідеально підходить для потреб великих компаній із розподіленою структурою чи розподіленими бізнес-процесами, які передбачають сканування документів у точках входу та їх подальшої централізованої обробки. Оператор інсталює та запускає клієнта сканування простим натисканням посилання на веб-сторінці. Встановлення повністю автоматизоване й не потребує на комп’ютері адміністративних привілеїв. Профілі імпорту можуть настроюватися локально оператором сканування чи призначатися централізовано із сервера.

Розпізнавання документів

В ABBYY FlexiCapture вбудовано технологію розпізнавання друкованих символів (OCR) майже для 190 мов і технологію інтелектуального розпізнавання рукодрукованих символів (ICR) для понад 110 мов, а також технології розпізнавання штрих-кодів (1D і 2D), розпізнавання міток і повнотекстового розпізнавання неструктурованих документів із подальшим експортом у формат PDF із можливістю повнотекстового пошуку.

Стадія розпізнавання включає в себе попередню обробку зображення, класифікацію документів і витягнення з них даних і тексту з подальшим автоматичним контролем даних. Усі ці операції виконуються автоматично й можуть здійснюватися у фоновому режимі.

Імпортовані зображення документів можуть бути піддані попередній обробці для забезпечення максимальної якості розпізнавання. Попередня обробка передбачає ряд операцій із коригування орієнтації сторінок, інвертування, видалення перекосів і шуму.

ABBYY FlexiCapture накладає існуючі гнучкі описи на імпортовані зображення та збирає окремі невпорядковані сторінки в документи. Для ідентифікації різних типів документів у оброблюваному потоці використовується технологія інтелектуального розпізнавання документів (IDR, Intelligent Document Recognition) і технологія FlexiCapture. ABBYY FlexiCapture автоматично класифікує документи з нежорстко заданою структурою будь-якої складності, включно з багатосторінковими документами з різною кількістю сторінок, багатосторінковими таблицями та документами, які мають при собі додатки у вигляді зображень і текстів.

Після накладання шаблонів і визначення необхідних полів із них витягуються дані за допомогою високоточних технологій багатомовного розпізнавання. Неструктуровані документи розпізнаються за допомогою технології повнотекстового розпізнавання для отримання PDF-файлів із можливістю повнотекстового пошуку.

У процесі розпізнавання програма автоматично застосовує правила контролю даних, задані адміністратором на етапі розробки гнучких описів. Найпоширеніші типи правил містять перевірку формату чисел і дат, перевірку в базі даних, перевірку сум, заміну значень зі списку, нормалізацію дат і цін. Для багатьох типів даних наявні словники дозволених слів, які також можуть використовуватися у процесі контролю даних.

Верифікація даних

Коли розпізнавання закінчено, кожному символу присвоюється статус, який відображає надійність розпізнавання: символ може бути надійно розпізнаним, ненадійно розпізнаним або нерозпізнаним. Останні два статуси означають, що оператору необхідно підтвердити гіпотезу системи чи внести виправлення. Цей етап потребує більше ручної праці, ніж інші. Для прискорення та спрощення процесу верифікації в ABBYY FlexiCapture вбудовано спеціальний верифікаційний інтерфейс, який пропонує три режими роботи: групова верифікація (найкраще підходить для перевірки міток і цифр), верифікація полів (для перевірки текстових полів) і верифікація у вікні «Документ» (для коригування правил).

У процесі верифікації також здійснюється коригування правил збирання з використанням зменшених зображень документів, коригування правил контролю даних і ручне індексування за допомогою «введення на основі зображення» (Key From Image, KFI).

Перевірку невпевнено розпізнаних символів можна здійснювати безпосередньо у вікні браузера. Веб-станція верифікації даних не потребує встановлення на комп’ютер користувача й доступна скрізь, де є Інтернет.

Експорт даних і архівування документів

Витягнені дані може бути експортовано до зовнішніх баз даних (через ODBC) або у файли, передано до бізнес-додатків або систем електронного документообігу. Дані можуть експортуватися в чистому вигляді чи разом із доданими зображеннями й текстами. Документи можуть зберігатися в архіві як файли у форматі PDF/PDF-A з можливістю повнотекстового пошуку.  

ABBYY FlexiCapture 10 підтримує широкий спектр форматів збереження даних (XML, XLS, DBF, CSV, TXT) і зображень (TIFF, JPEG, JPEG 2000, PDF, PDF/A, PCX, BMP, PNG).