GNU/Linux -- это интересно

gImageReader

Рубрика: Офисное ПО
Метки: | | |
Понедельник, 5 сентября 2011 г.
Просмотров: 1163
Подписаться на комментарии по RSS
Приложение для оптического распознавания текста.

gImageReader — простой Python / GTK (Gnome) графический интерфейс (GUI) к консольному приложению для распознавания текста Tesseract (frontend to tesseract-ocr).

Tesseract — консольное приложение для оптического распознавания текста. Разработкой приложения, с 1985 по 1995 год, занималась компания Hewlett-Packard (HP). После 2005 года разработка Tesseract была заморожена на 10 лет. Но в 2005 году исходные коды приложения были открыты и дальнейшую разработку возглавила компания Google.

Система оптического распознавания символов (текста) Tesseract, обычно используется для конвертации сканированных книг и документов в электронный вид, поддерживает распознавание множества языков (включая русский, с версии 3.0), имеется поддержка UTF-8 (кодировка реализующая представление Юникода).

Открываемые в gImageReader для распознавания изображения могут быть монохромными (черно-белыми), серыми и/или цветными. Изображения могут быть форматов PNG или JPG, хотя для более качественного распознавания текста рекомендуется преобразовать изображение в формат хранения растровых изображений TIFF (Tagged Image File Format).

gImageReader даёт возможность повысить яркость и контрастность изображения, изменить угол наклона (на оригинальном изображении изменения не отражаются). Распознаваться может как текст на всём изображении, так и текст только выделенного участка изображения.

gImageReader в распознанном тексте позволяет редактировать текстовое содержимое, проводит проверку орфографии (используется Aspell, можно добавить русский словарь из OpenOffice) и сохраняет распознанный текст в файле формата TXT.

Лицензия: GNU General Public License v3.0 (GPLv3)

Домашняя страница

Автор: posixru, xmpp: xmpp
Добавить страницу в закладки:
twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru rutvit.ru myspace.com technorati.com digg.com friendfeed.com pikabu.ru blogger.com liveinternet.ru livejournal.ru memori.ru google.com bobrdobr.ru mister-wong.ru yahoo.com yandex.ru del.icio.us
Комментариев: 9
  1. а как добавить русский?

    что то у меня в предпочитаемых языках можно выбрать только английский в разных интерпретациях :(

  2. Tesseract какая версия стоит? Русский доступен только с версии 3.0, а много где в репах ещё лежит tesseract-2.01 потому так и получается! Ну надо освежить его до 3.0 или просто в: /usr/local/share/tessdata/ положить распакованный из архива rus.traineddata скачанный с сайта проекта.

  3. дико извиняюсь :)

    подключил репозиторий: deb http://ppa.launchpad.net/alex-p/notesalexp-natty/ubuntu natty main

    поставил Tesseract 3.00 и русский tesseract-ocr-russian

  4. Так даже проще! :)))

  5. но вот вопрос, он может распознавать не просто английский или русский, а русско-английский, т.е. многоязычный текст? и как это осуществить?

  6. Распознавание смешанного текста (русско-английский и пр...) в этом интерфейсе я не нашел как сделать, он или оно или другое...

    А сразу это реализовано в интерфейсах:

    http://zenway.ru/page/yagf

    http://zenway.ru/page/cuneiform-qt

    Можно ещё для общей информации посмотреть эти:

    http://zenway.ru/page/ocrfeeder

    http://zenway.ru/page/gocr

    Ну и если не боимся консоли то можно использовать и этого:

    http://zenway.ru/page/abbyy-finereader-for-linux

  7. спасибо :)

    про Cuneiform слышал, распознаёт она неплохо, но вот нет возможности распознать только выделенный текст.. но оказывается есть YAGF..

    поздновато я на ваш сайт наткнулся, но теперь буду постоянным читателем..

    всё, ушёл пробовать

  8. 2012-04-03 в 13:56:36 | Андрей

    "Распознавание смешанного текста (русско-английский и пр...)" зависит не от программы графического интерфейса (gImageReader, YAGF, OCRFeeder), а от системы распознавания (CuneiForm, Tesseract). На данный момент распознавать русско-английский текст может только CuneiForm. Наберите в терминале

    cuneiform -l
    отобразится следующее:
    eng ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slv lav lit est tur
    ruseng - и есть языковой модуль для смешанного алфавита. Других сочетаний языков больше нет нигде (естественно, все утверждения относятся к свободному ПО).

  9. Других сочетаний языков больше нет нигде
    Русским разработчикам видать этого не надо, а реализация распознавания смешанного текста русско-ххххх англичанам, французам или немцам вряд ли нужна... Потому и нет!

    (естественно, все утверждения относятся к свободному ПО)
    А что за гонево на свободное ПО? По вашему выходит что в коммерческом abbyy-finereader идеальная поддержка? Ну, ну... Не стоит идеализировать коммерческое, там тоже не медком помазано! Видел я эту поддержку и пользовал! Одно и то же распознаётся практически одинаково, потому и...

Оставьте комментарий!
Используйте нормальные имена.
Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email.
(При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д.)




Войти через loginza

 
captcha