Linux -- это интересно

ocrodjvu


Рубрика: Офисное ПО -> Графика
Метки: | | |
Просмотров: 1068

ocrodjvu — консольная Python утилита для распознавания текста непосредственно из файла формата DjVu (технология сжатия изображений с потерями, формат для хранения сканированных документов). Утилита дописывает существующий в документе (файле) текстовой слой или создаёт новый (этот слой позволяет осуществлять полнотекстовой поиск по файлу).

Наиболее простой способ использования утилиты:

ocrodjvu -о исходный_файл.djvu выходной_файл.djvu

Если необходимо переписать текстовой слой в оригинальном документе:

ocrodjvu --in-place файл.djvu

ocrodjvu является оболочкой для различных движков оптического распознавания текста (OCR / Optical Character Recognition), "по умолчанию" используется Tesseract (OCRopus), опционально могут использоваться Cuneiform, Ocrad, GOCR и др...

Извлечь текстовой слой можно с помощью DJVUSED (консольная утилита из состава DjVuLibre).

Лицензия: GNU General Public License version 2.0 (GPLv2)

Домашняя страница

Оставьте комментарий!
Используйте нормальные имена.Войти через loginza
Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email.
(При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д.)



 
(обязательно)