ZenWay - Linux сегодня!
  • Главная
  • Форум
  • Контакты
  • Архив
  • Гостевая книга
×
Поиск по сайту
ГлавнаяОфисное ПОOCRFeeder

OCRFeeder

Офисное ПОПросмотров: 12868Комментарии: 820 апреля 2011 г.
GTK / HTML / Python / Комплект инструментов / Простая утилита / Сканер / Текст
OCRFeeder

Мощная графическая оболочка для нескольких OCR приложений.

OCRFeeder – удобный Python / GTK+ графический интерфейс к нескольким консольным OCR (optical character recognition) приложениям.

OCR (optical character recognition) — система оптического распознавания символов (текста) используемая для конвертации сканированных книг и документов в электронный вид.

При использовании системы анализа структуры изображения автоматически определяется графическое и текстовое содержимое. Производится оптическое распознавание текста документа, сохраняя его в файл формат которого позволяет редактировать текстовое содержимое.

Разработка OCRFeeder начата как магистерская диссертация по "Прикладной информатике" программистом Joaquim Rocha. В дальнейшем приложение вошло в состав GNOME Project.

OCRFeeder автоматически определяет наличие инсталлированных в системе OCR приложений, а именно CuneiForm, GOCR, Ocrad, Tesseract используя их в качестве "движка", а для распознания структуры документа применяется собственный алгоритм.

Для поддержки распознавания языков в настройках каждой системы распознавания, CuneiForm, GOCR, Ocrad и Tesseract, необходимо добавить аргумент соответствующий этому языку.

Например для корректного распознавания текстов на русском необходимо добавить "-l rus", а для правильной проверки русской орфографии помечать распознаваемый текст как русский.

В OCRFeeder можно импортировать данные как из графических файлов, множества популярных форматов (JPEG, PNG, BMP, TIFF, GIF, PNM, PPM, PBM и прочих...), из файла PDF, а так же поддерживается захват изображения непосредственно от устройства сканирования. Изображения так же могут быть добавлены простым перетаскиванием из файлового менеджера, на окно приложения (функция drag-and-drop) или из контекстного меню (интеграция с Nautilus).

OCRFeeder позволяет очистить исходное изображение (без коррекции оригинала), в открытом изображении задать или изменить границы зон распознавания, выбрать наиболее подходящий для конкретного документа "движок" распознавания символов.

В OCRFeeder имеется возможность коррекции не распознанных символов, настроить стили параграфов, применить проверку орфографии в распознанном тексте с помощью aspell (libaspell) и выбрать шрифт для сохраняемых документов.

Основным форматом для сохранения результатов распознавания в OCRFeeder является ODT (OpenDocument Format). Но так же текст может быть сохранён в обычном текстовом формате TXT, или в HTML.

Хоть OCRFeeder и разрабатывается как приложение с графическим интерфейсом (GUI), но имеется возможность работы и из командной строки (ocrfeeder-cli). Это может оказаться полезным для автоматической пакетной обработки документов (используя "движок" определённый в настройках основным).

Лицензия: GNU GPL v3

Домашняя страница

Страница на code.google.com

ABBYY FineReader for Linux
GOCR
Автор: posixru
Еще записи по теме
MateCalc
MateCalc
Swordfish Translation Editor
Swordfish Translation Editor
BeamerPresenter
BeamerPresenter
Jarnal
Jarnal
Indicator Stickynotes
Indicator Stickynotes
Quilter
Quilter

Комментариев: 8 RSS

1Владимир Юрганов19-05-2011 12:36

мне интересно, откуда вы эту версию скачали.

на оф. сайте - последняя это 0.6.6

а там нет кнопочки сканировать. и мою kuneiform отказывается видеть

2vovans19-05-2011 15:01

//ftp.gnome.org/pub/GNOME/sources/ocrfeeder/0.7/

3Владимир Юрганов25-05-2011 15:50

спасибо.

но чё то не смог скопилирировать

4Алекс05-06-2011 15:59

Куда писать "l rus"???, можно на скрин это вывести, а то ничего не помогает с русским текстом...

5posixru05-06-2011 21:28

//zenway.ru/uploads/04_11/mini/ocrfeeder_020.png

В строке "Engine arguments", вписывается:

-f -l rus UTF8 $IMAGE

И для других почти так же, но аргумент везде ставится перед $IMAGE Просто -l rus или -l rus UTF8

Всё должно работать, я пробовал распознавать с пару десятков сканов документов, на нескольких языках (на русском в том числе), из четырёх движков один/два вполне сносно распознавали текст.

6juve23-06-2011 06:47

госопда, а как распознать мультиязычный текст?

пойдет ли аргумент типа -l rus,eng UTF8

7juve23-06-2011 06:54

Владимир Юрганов пишет

с аргументом "-l rus UTF8" cuneiform распознает прилично

осталось мультиязычность добавить )

8Андрей02-04-2012 11:31

Если используется Cuineform, то эта система может распознавать одновременно только русский алфавит с английским, для этого используется параметр

-l ruseng
Буквенные обозначения языков можно узнать, набрав в терминале:
cuneiform -l
Оставьте комментарий!

Используйте нормальные имена.

Вы можете войти под своим логином или зарегистрироваться на сайте.

Войти через loginza

(обязательно)

Рубрики
  • Hовости
  • Изучаем Linux
  • Обзоры Linux ПО
    • Hужное/полезное
    • Аудио и видео ПО
    • Графика
    • Офисное ПО
    • Интернет ПО
    • Образовательные
    • Игры
    • Администрирование
    • Системные утилиты
    • Прочие
    • Shareware / Demo
  • Дистрибутивы
  • Дополнительные материалы
Последние комментарии
Calibre
  • Sergey » Calibre — лучшая программа для создания электронной библиотеки. Особенно радует поддержка плагинов. Кому интересно, посмотрите,...
Gajim
  • vs » удивительно, но оно ещё живо! Версия за версией выходят последние месяцы. Жаль, уже и попробовать...
SeaMonkey 2.53.5.1
  • koll_fell » Подскажите как пользоваться расширением в этом браузере. К примеру установил расширение скриншот, но значка найти...
DeaDBeeF
  • Вячеслав » //www. opennet.ru/ opennews/art. shtml?num=57186 //github .com/DeaDBeeF- Player/deadbeef /commit/d684958 90fab7e3ac63674 df72d8de82a592d 78f// github.com/ DeaDBeeF-Player /deadbeef/ commit/079be264 26e039f56f6331b 9face6eb81360b0 99// github.com/ DeaDBeeF-Player /deadbeef/ issues/2790Уда лены файлы с переводами для русского и белорусского языков (дополнение: поддержка белорусского языка восстановлена).
  • vovans » Поэтому ушёл с него. Отсутствия перевода и не заметил, так как локаль en, но само...
Profanity
  • а » главное мануала на руском нет . ткч полное г
Photivo
  • Владимир » к сожалению не ставится на убунту 20.04E: Невозможно найти пакет photivoдаже после добавления ppa
Flacon
  • Андрей » Бомбическая программа. Респект Александру!
  • vovans » Обновил ссылки. Уже версия 9.0 доступна. Отлитчно, что развивается проект.
FBReader
  • gray » а автоскролл?
Форум
[22/05/2022 15:45:40]
Стратегии RTS
[30/03/2022 09:05:20]
Заметки с синхронизацией
[11/03/2022 13:17:30]
Музыкальный калейдоскоп
[01/03/2022 20:15:05]
Говорильня (дискуссионный клуб)
[13/02/2022 11:44:28]
[РЕШЕНО] права на запись в примонтированный образ диска (raw.img)
[07/02/2022 13:22:01]
Конвертировать текст набаранный в неправильной раскладке
[04/02/2022 20:35:22]
Редактор тегов
[16/01/2022 16:57:55]
Tor Browser
[24/12/2021 13:55:56]
Арче з@дница, и что с этим делать?
Облако меток
2D338 3D241 ALSA68 ASCII120 Android1 Arch Linux38 Audio416 Backup80 Benchmark78 Bluetooth2 C++969 CD48 Console1318 DJ-система17 DVD47 Debian28 DjVu22 Enlightenment19 FFmpeg191 FLTK29 FPS40 FREE155 FTP18 FVWM21 Fluxbox40 GIMP24 GNU26 GPS22 GTK1302 GUI801 Gambas11 Games686 Gentoo3 Gnome349 Gstreamer133 HDD122 HDR7 HTML62 Hex-редактор14 ICQ17 IP-сети25 IP-телефон22 IRC31 ISO39 IceWM22 ImageMagick56 JACK99 Jabber35 Java308 JavaScript115 KDE209 LAN29 LXDE37 LaTeX66 Live-CD70 Live-DVD55 Live-USB53 Lua61 MATE32 MEncoder31 MIDI91 MMORPG12 Mail42 Markdown53 Mono53 Mplayer75 MySQL2 OSS9 Open Source14 OpenGL301 Openbox89 P2P51 PDF133 PHP12 Pascal17 Perl102 Phonon27 PulseAudio17 Python759 QT894 RAW34 RPG101 RSS53 RTS42 Roguelike70 Ruby19 Rust15 SDL312 SVG39 Screencast32 Screenshot61 Script78 Slackware66 TOR17 TOX3 Tk39 Torrent67 Ubuntu69 VLC16 Vala64 Web629 WebKit72 WebUI34 WiFi47 Window Maker16 Wine8 XMPP35 Xfce70 Xine14 YouTube80 video4linux27 wxWidgets108 Автоматизация31 Администрирование335 Анонимная сеть47 Антивирус14 Апплет120 Аркада235 Архиватор11 Астрономия36 Аудио конвертер70 Аудио редактор50 Аудиоплеер184 Безопасность243 Бизнес-приложение4 Браузер87 Бродилка203 Бухгалтерия11 Веб-камера36 Видео148
© Zen Way, 2022. Работает на MaxSite CMS | Время: 0.1897 | SQL: 19 | Память: 8.79MB | Вход