<< Назад
ABBYY FineReader 9.0 for Linux
Ниже представлен расширенный список технических данных SDK для распознавания документов и конвертирования PDF-файлов:
Среда разработки
- GCC 3.4.x и выше
- Требуются библиотеки glibc и libstdc++
Системные требования
ABBYY FineReader для оптического распознавания символов и преобразования PDF-файлов поддерживает только автономный тип установки.
ABBYY FineReader Engine 9.0 for Linux требует наличия библиотеки glibc версии 2.6.1 или выше.
Для использования динамической библиотеки FineReader Engine необходимы стандартные библиотеки libstdc++.so.6 и libgcc_s.so.1.
- Работоспособность ABBYY FineReader Engine 9.0 for Linux проверялась на следующих операционных системах:
- Fedora 10, 11, 12
- Red Hat Enterprise Linux 4 ES/AS, 5
- SUSE Linux 10
- SUSE Linux Enterprise Server 11
- openSUSE 10.3, 11.1
- WhiteBox Enterprise Linux Respin 1, Respin 2
- Debian GNU/Linux 4.0, 5.0
- Ubuntu 6.06 LTS, 7.10, 8.04 LTS
Компания ABBYY также предоставляет услугу профессиональной адаптации ПО для других платформ.
Процессор: Intel® Pentium® или совместимый (с тактовой частотой 1 ГГц или выше).
Оперативная память: 256 Мб для обработки одностраничных документов, 512 Мб для обработки одностраничных документов на китайском, японском или корейском языке, 1 Гб для обработки многостраничных документов.
Свободное место на диске: 860 Мб для полной установки и дополнительно 250 Мб для работы приложения.
Форматы экспорта/импорта
Входные форматы изображений:
- PDF:
Файлы в формате PDF (версии 1.6 или более ранней), в том числе PDF/Archive (PDF/A).
Дополнительные функции для PDF-файлов:
o извлечение текстового слоя из PDF-файла
o ввод PDF-файлов «только изображение»
o векторизованный PDF
o PDF-файлы, защищенные паролем
- BMP:
o 2-битный – несжатый черно-белый
o 4- и 8- битный – несжатый Palette
o 16- битный – несжатый Mask
o 24- битный – несжатый Palette and TrueColor
o 32- битный – несжатый Mask
- PCX, DCX:
o 2- битный – черно-белый
o 4- и 8- битный – градации серого
o TrueColor
- JPEG:
градации серого, цветной
- JPEG 2000:
o градации серого – Part 1
o цветной – Part 1
- TIFF:
o черно-белый – несжатый, CCITT3, CCITT3FAX, CCITT4, Packbits, ZIP, LZW
o градации серого – несжатый, Packbits, JPEG, ZIP, LZW
o TrueColor – несжатый, JPEG, ZIP, LZW
o Palette – несжатый, Packbits, ZIP
o многостраничный TIFF
- GIF:
o черно-белый – LZW-сжатие
o градации серого – LZW-сжатие
o TrueColor – LZW-сжатие
- PNG:
o черно-белый, градации серого, цветной
Форматы сохранения документов:
- Microsoft Word (DOC)
- Rich Text Format (RTF)
- Microsoft Word XML (XML), только Microsoft Office Word 2003
- Построенный на XML Microsoft Office 2007 (DOCX, XLSX и PPTX)
- PDF, PDF/A (MRC-сжатие для PDF и PDF/A)
- Comma Separated Values (CSV)
- HTML. FineReader Engine поддерживает различные кодовые страницы (Windows, DOS, Mac, ISO) и кодировку Unicode (UTF-8)
- Microsoft PowerPoint (PPT)
- Plain Text (TXT). FineReader Engine поддерживает различные кодовые страницы (Windows, DOS, Mac, ISO) и кодировку Unicode (UTF-16, UTF-8)
- Microsoft Excel (XLS)
- DBF. FineReader Engine поддерживает различные кодовые страницы (Windows, DOS, Mac, ISO).
Штрихкоды
ABBYY FineReader – мощный набор инструментов для чтения штрихкодов, поддерживающий множество типов 1D- и 2D-штрихкодов.
1D-штрихкоды
- Codabar
- Code 128
- Code 39
- Code 93
- EAN 8
- EAN 13
- IATA 2 of 5
- Industrial 2 of 5
- Interleaved 2 of 5
- Matrix 2 of 5
- Patch
- PostNet
- UCC-128
- UPC-A
- UPC-E
С контрольной суммой
- Code 39
- Interleaved 2 of 5
- Codabar
С дополнением
2D-штрихкоды
- PDF417
- Aztec
- DataMatrix
- QR Code
Дополнительные модули
Доступны следующие дополнительные модули, расширяющие функциональность инструментария:
- Анализ документов для распознавания счетов
Специальная функция анализа документов выполняет предобработку для конвертирования полуструктурированных документов, таких как счета, платежные поручения, накладные, визитные карточки, контракты, бланки страховых требований, резюме и т. д.
- Анализ документов для полнотекстового индексирования
Автоматически находит и распознает весь текст на документах, в том числе текст, помещенный на картинках, графиках и диаграммах. Разработчикам эта функция может потребоваться для извлечения полной текстовой информации из документов с целью последующего индексирования (например, в системах электронного документооборота (СЭД)).
- Распознавание китайской, японской и корейской письменности
Для ABBYY FineReader Engine 9.0 имеется дополнительный модуль для оптического распознавания текстов на китайском, японском и корейском языках.
- Распознавание тайской письменности
Для ABBYY FineReader Engine доступен дополнительный модуль для распознавания текстов на тайском языке. Он также поддерживает распознавание документов, написанных одновременно на тайском и других поддерживаемых языках. Результат экспортируется в формат TXT.
- Распознавание иврита
Модуль для распознавания иврита служит для распознавания документов на иврите, а также документов, написанных одновременно на иврите и на языке, в котором чтение осуществляется слева направо (например, на английском, немецком). Модуль поддерживает экспорт в формат TXT.
- Открытие и распознавание PDF-файлов
ABBYY FineReader Engine 9.0 умеет обрабатывать PDF-файлы с практически стопроцентной точностью распознавания. Поддерживаются распространенные типы PDF (в том числе файлы с перекодированными шрифтами). ABBYY FineReader Engine 9.0 использует интеллектуальную схему открытия документов и распознает PDF-файлы в три этапа: вначале PDF-файл конвертируется в изображение при помощи технологии Adobe® PDF Library, затем осуществляется стандартное оптическое распознавание и, наконец, извлекается текстовый слой и сравнивается с результатами распознавания. Этот подход также позволяет избежать проблем, связанных с перекодированными шрифтами.
- Экспорт PDF-файлов
Этот дополнительный модуль позволяет экспортировать результаты в формат PDF в четырех режимах: только изображение, текст и изображение, текст поверх изображения, текст под изображением. По ASCII-лицензии доступен только экспорт в режиме «только изображение».
- Экспорт в PDF/A
Этот модуль позволяет конвертировать выходной текст в формат PDF/A.
- PDF MRC
Поддерживает MRC-сжатие PDF-файлов, что значительно сокращает их объем.
- Экспорт в XML
Вся информация о распознавании текста, доступная через API-интерфейс записывается в XML-файл.
- Распознавание 2D-штрихкодов
Модуль распознавания 2D-штрихкодов предназначен для распознавания двумерных штрихкодов.
Языки сообщений
Диалоговые окна, сообщения об ошибках и прочие сообщения, а также текст могут выводиться на английском, немецком, французском, испанском, итальянском, нидерландском, португальском, русском, эстонском, польском, чешском, словацком, венгерском, болгарском, украинском, шведском, греческом, литовском и латышском языках.
Сопутствующая техническая документация
Руководство для разработчика доступно в форматах HTML и PDF на английском языке. В нем содержится подробное описание программного интерфейса приложения (API), а также общая информация о лицензировании и активации.
Образцы кода, приложенные к инструментарию для разработчика FineReader Engine, призваны помочь разработчикам лучше понять, как программный интерфейс FineReader Engine используется в распространенных сценариях. Разработчик имеет право копировать, изменять или использовать образцы для создания собственного программного обеспечения на основе интерфейса FineReader Engine.
<< Назад