<< Назад
Распознавание и экспорт
Распознавание печатных символов
ABBYY FineReader Engine 10 распознает печатные тексты на 198 языках, в том числе:
- На 52 языках, для которых реализована словарная (морфологическая) поддержка
- На китайском, японском и корейском языках - с использованием собственных технологий распознавания компании ABBYY
- На тайском языке
- На иврите
- На вьетнамском
- Многоязычные документы, в том числе содержащие одновременно европейские и азиатские языки
- Тексты, напечатанные шрифтами OCR-A, OCR-B, MICR (E13B) и MICR (CMC7).
- Документы, отпечатанные на матричном принтере и на пишущей машинке.
- В режиме быстрого распознавания. Этот режим предназначен для обработки больших объемов документов в условиях, когда скорость обработки является наиболее важным параметром системы. Данный режим увеличивает скорость обработки на 200-250%, что делает его пригодным для систем управления документооборотом и систем архивирования
- С дополнительным модулем FineReader XIX. Модуль дает возможность распознавать документы, книги и газеты, напечатанные на европейских языках в XVII - XIX столетиях
Распознавание рукописных символов
ABBYY FineReader Engine 10 поддерживает до 113 языков распознавания текста, написанного печатными буквами от руки. При этом реализованы:
- Морфологическая/словарная поддержка для 29 языков
- Распознавание текстов, написанных от руки печатными буквами в полях различных типов: подчеркнутые поля, рамки, поля с гребенкой
- Режим быстрого распознавания – в этом режиме текстовые поля (блоки) распознаются в 2-2,5 раза быстрее, чем в нормальном режиме
- Многоязычное распознавание: буквы и цифры одного языка, а также комбинации букв и цифр нескольких языков распознаются с одинаково высоким качеством
- Поддержка 26 стилей начертания рукопечатных знаков, в том числе европейского, американского, канадского, русского, японского, арабского и тайского стилей
- Поддержка индийских цифр, которые используются в современном арабском мире
Распознавание штрихкодов
Распознавание одномерных штрихкодов
- Codabar, Code 128, Code 39, Code 93, EAN 8, EAN 13, IATA 2 of 5, Industrial 2 of 5, Interleaved 2 of 5, Matrix 2 of 5, Patch, PostNet, UCC-128, UPC-A, UPC-E
- Поддержка одномерных штрихкодов с дополнениями: EAN 8 Supplemental, EAN 13 Supplemental, UPC-E Supplemental
Распознавание двумерных штрихкодов
- PDF 417 – является промышленным стандартом двумерного штрихкода. PDF 417 позволяет кодировать до 1.1 Кб данных, включая текст и графическую информацию.
- Aztec – двумерный матричный штрих-код, содержащий до 3000 символов. В настоящее время это наиболее распространенный вид двухмерного штрихкода.
- Data Matrix – двумерный матричный штрихкод, содержащий черно-белые элементы или элементы двух различных степеней яркости в форме квадрата, размещенные в прямоугольной или квадратной группе
- QR Code – новое поколение штрихкодов, уже использующееся для хранения данных
Функция быстрого извлечения штрихкода
- Эта функция позволяет автоматически обнаружить и распознать штрихкоды, расположенные на документе под любым углом по отношению к горизонтали. Функция работает как с одномерными, так и с двумерными штрихкодами.
Распознавание меток (OMR)
В ABBYY FineReader Engine 10 поддержано распознавание одиночных меток и групп меток. При распознавании корректно обрабатываются как ошибочно выбранные метки, так и полностью закрашенные метки.
Преобразование PDF-файлов
Теперь на базе ABBYY FineReader Engine 10 можно более полно решать как задачи преобразования PDF-файлов в файлы других форматов, так и задачи преобразования отсканированных или отснятых цифровой камерой изображений в PDF-файлы с текстовым слоем, который может быть использован при построении индекса для последующего поиска файла в хранилище.
Импорт
- Распознавание стало точнее и почти вдвое быстрее. При обработке PDF-файлов новая версия ABBYY FineReader Engine определяет наличие текстового слоя и его целостность. Эта информация сопоставляется с данными из служебных полей PDF-файла (аннотации, метаданные, текстовые объекты, подключенные шрифты, контент-потоки). В итоге относительно каждого текстового блока принимается решение: использовать ли текст, извлеченный из соответствующего слоя или распознавать блок. Решение для каждого блока принимается независимо. Подобный подход обеспечивает значительно более быстрое и качественное преобразование PDF-файлов.
- Распознавание внутренних и внешних ссылок. Система распознает и воспроизводит гиперссылки, как внутренние (например, оглавление PDF-документа), так и внешние (на интернет-ресурсы).
Экспорт
- Поддержка алгоритмов шифрования и других средств разграничения доступа. ABBYY FineReader Engine 10 позволяет сохранять результаты распознавания в виде PDF-файла, защищенного паролем. Пароль может быть установлен как на открытие файла, так и на прочие действия с документом (печать, извлечение содержимого, возможность редактирования, внесение комментариев, добавление/удаление страниц и др.). При этом можно выбрать разные уровни шифрования с длиной ключа 40 или 128 бит и с использованием:
- стандартного алгоритма шифрования RC4;
- нового алгоритма стандарта AES (Advanced Encrypting Standard).
- Генерация тегов. Система способна создавать PDF-документы с тегами, обеспечивающими удобство просмотра на экранах любого размера, в частности, на экранах карманных компьютеров.
- Управление размером страниц создаваемого PDF-файла.
- Экспорт в формат PDF/A
- PDF/A – это перспективный архивный формат, рекомендованный в качестве стандартного (ISO 19005-1:2005) для длительного хранения документов. В отличие от обычного и широко распространенного PDF, этот формат имеет ряд жестких ограничений. Их наличие позволяет повторно использовать документ после длительного хранения в архиве, исключает любую несовместимость версий файла и программы для его использования.
- Настройка баланса скорости и качества при преобразовании PDF-файлов.
- ABBYY FineReader Engine 10 позволяет достигать оптимального в зависимости от поставленной задачи соотношения скорость/качество при конвертации PDF-файлов. Предусмотрено 4 режима преобразования PDF-файлов. В зависимости от того, какой режим выберет разработчик, будут применены различные правила обработки PDF-файла. В соответствии с тем, какой режим был выбран перед преобразованием PDF-файла, ABBYY FineReader Engine 10 может извлечь все данные, включая текст, таблицы и картинки, обработать PDF-файлы как изображения или скомбинировать различные методы.
- Экспорт в формат PDF документов на китайском, японском и корейском языках с вертикальным расположением текста.
- Экспорт метаданных. Расширена возможность сохранения в создаваемых PDF-файлах различных метаданных: закладок, гиперссылок, кросс-ссылок и т.п.
- PDF(/A) с MRC-сжатием (Mixed Raster Content) – ABBYY FineReader Engine 10 позволяет создавать PDF-файлы с ультравысоким сжатием MRC (Mixed Raster Content). Эта возможность позволяет достигнуть более высокого качества и меньшего размера PDF документов. Вы получаете превосходное соотношение качества и размера для PDF файлов.
Получение и экспорт распознанного текста
ABBYY FineReader Engine 10 предоставляет доступ через API к широкому набору функций обработки и экспорта текста на различных уровнях:
- Различные уровни сохранения форматирования текста при экспорте во внешние приложения (от простого текста без форматирования до сохранения полного форматирования страницы, включая колонки, таблицы, рамки, шрифты, размер шрифтов, стили абзацев, границы и т.п.)
- Доступ к полной информации о каждом распознанном символе (дополнительно подключаемый модуль)
- Функции редактирования и форматирования распознанного текста перед экспортом
- Экспорт распознанного текста в различные форматы
- Полное сохранение структуры документа
- Замена неуверенно распознанных символов соответствующими им фрагментами изображения при сохранении в формат PDF
- Полное сохранение цвета иллюстраций и текста
<< Назад