ABBYY Recognition Server и Microsoft Office SharePoint Server

Поиск документов в графических форматах в Microsoft Office SharePoint Server

Оперативный доступ к информации давно стал актуальной проблемой для многих организаций. Зачастую поиск документа занимает у сотрудников слишком много времени, что отрицательно сказывается на работе. Microsoft Office SharePoint Server предлагает мощный поисковый сервис, позволяющий быстро и гарантированно находить электронные документы в библиотеках SharePoint или на других ресурсах корпоративной сети.

Однако не все документы хранятся в формате, подходящем для полнотекстового индексирования и поиска. Множество файлов остается в хранилищах в виде изображений, и поиск по их содержимому невозможен. Примеры тому – факсы, отсканированные копии договоров, архивы газет и журналов, входящая корреспонденция. Для осуществления поиска по графическим образам документов необходимо сначала извлечь их содержимое с помощью технологии оптического распознавания символов (OCR). Эту задачу идеально решает ABBYY Recognition Server.

ABBYY Recognition Server представляет собой единое серверное решение для распознавания и конвертации документов. При работе с Microsoft Office SharePoint Server, ABBYY Recognition Server осуществляет функционал распознавания и позволяет индексировать текст отсканированных или присланных по факсу документов. Теперь для индексирования доступны документы в форматах TIFF, JPEG, PDF, DjVu и т.п. В основе ABBYY Recognition Server лежит мощная технология обработки документов на более чем 190 языках.

В состав ABBYY Recognition Server входит готовый IFilter для интеграции с поисковыми системами Microsoft. Благодаря IFilter поисковый сервис Microsoft может задействовать ABBYY Recognition Server для извлечения содержимого из файлов графических форматов. Теперь для полнотекстового индексирования доступны документы в форматах TIFF, JPEG, PDF, DjVu и др.

Схема работы Microsoft Office SharePoint Server и ABBYY Recognition Server:

  1. Поисковый агент Microsoft Office SharePoint Server периодически обходит корпоративные библиотеки и автоматически индексирует новые или недавно измененные документы. Графические документы, содержимое которых нет возможности проиндексировать, через IFilter направляются на обработку в ABBYY Recognition Server.
  2. ABBYY Recognition Server распознает документы и возвращает распознанный текст в Microsoft Office SharePoint Server для индексирования. В результате документы становятся доступны для полнотекстового поиска.

Интеграция с Microsoft Windows Search

Поиск отсканированных документов на персональных компьютерах для всех сотрудников организации

ABBYY Recognition Server поддерживает интеграцию не только с Microsoft Office SharePoint Server, но и с Microsoft Windows Search. Один установленный в корпоративной сети ABBYY Recognition Server дает возможность всем сотрудникам организации осуществлять полнотекстовый поиск документов, хранимых на их персональных компьютерах в виде изображений. Факсы, брошюры, книги, инструкции – любая отсканированная документация теперь может быть проиндексирована с помощью Windows Search.

При этом ресурсоемкий процесс распознавания выполняется на сервере. На компьютеры сотрудников не требуется устанавливать OCR-модуль – там работает только ABBYY Recognition Server IFilter – легкий плагин к Windows Search.

Схема работы Windows Search и ABBYY Recognition Server:

Windows Search автоматически обходит указанные в его настройках ресурсы на компьютере пользователя. Текстовые файлы он индексирует самостоятельно, а для извлечения данных из файлов изображений привлекает ABBYY Recognition Server IFilter. IFilter передает изображение на сервер ABBYY Recognition Server, установленный в корпоративной сети.

ABBYY Recognition Server распознает документы и отправляет результаты в Windows Search для индексирования, после чего документы становятся доступны для полнотекстового поиска.

Ввод документов в библиотеки Microsoft Office SharePoint Server

Помимо решения задач полнотекстового поиска по изображениям, ABBYY предоставляет удобные и простые в эксплуатации решения для ввода бумажных документов и данных в библиотеки Microsoft Office SharePoint Server.

ABBYY Recognition Server предоставляет функциональность для поточного ввода документов, а также для сортировки и атрибутирования документов в режиме «канцелярии».

ABBYY FlexiCapture – мощная система, позволяющая организовать «единую точку входа» для всех бумажных документов компании. Продукт поддерживает поточное и распределенное сканирование и выполняет полностью автоматическую классификацию документов и извлечение данных из них.

Разработка заказного решения по вводу документов и данных  

Заказное решение по распознаванию и конвертации документов и извлечению данных для Microsoft Office SharePoint Server можно разработать с использованием инструментов для разработчиков ABBYY FineReader Engine и ABBYY FlexiCapture Engine. Они позволяют встроить технологии полнотекстового распознавания (ABBYY FineReader Engine) и технологии классификации документов и извлечения данных (ABBYY FlexiCapture Engine) внутрь SharePoint Server и создать интерфейс управления, наиболее удобный для задач клиента