ZenWay - Linux сегодня!
  • Главная
  • Форум
  • Контакты
  • Архив
  • Гостевая книга
×
Поиск по сайту
ГлавнаяОфисное ПОOCRFeeder

OCRFeeder

Офисное ПОПросмотров: 14083Комментарии: 820 апреля 2011 г.
GTK / HTML / Python / Комплект инструментов / Простая утилита / Сканер / Текст
OCRFeeder

Мощная графическая оболочка для нескольких OCR приложений.

OCRFeeder – удобный Python / GTK+ графический интерфейс к нескольким консольным OCR (optical character recognition) приложениям.

OCR (optical character recognition) — система оптического распознавания символов (текста) используемая для конвертации сканированных книг и документов в электронный вид.

При использовании системы анализа структуры изображения автоматически определяется графическое и текстовое содержимое. Производится оптическое распознавание текста документа, сохраняя его в файл формат которого позволяет редактировать текстовое содержимое.

Разработка OCRFeeder начата как магистерская диссертация по "Прикладной информатике" программистом Joaquim Rocha. В дальнейшем приложение вошло в состав GNOME Project.

OCRFeeder автоматически определяет наличие инсталлированных в системе OCR приложений, а именно CuneiForm, GOCR, Ocrad, Tesseract используя их в качестве "движка", а для распознания структуры документа применяется собственный алгоритм.

Для поддержки распознавания языков в настройках каждой системы распознавания, CuneiForm, GOCR, Ocrad и Tesseract, необходимо добавить аргумент соответствующий этому языку.

Например для корректного распознавания текстов на русском необходимо добавить "-l rus", а для правильной проверки русской орфографии помечать распознаваемый текст как русский.

В OCRFeeder можно импортировать данные как из графических файлов, множества популярных форматов (JPEG, PNG, BMP, TIFF, GIF, PNM, PPM, PBM и прочих...), из файла PDF, а так же поддерживается захват изображения непосредственно от устройства сканирования. Изображения так же могут быть добавлены простым перетаскиванием из файлового менеджера, на окно приложения (функция drag-and-drop) или из контекстного меню (интеграция с Nautilus).

OCRFeeder позволяет очистить исходное изображение (без коррекции оригинала), в открытом изображении задать или изменить границы зон распознавания, выбрать наиболее подходящий для конкретного документа "движок" распознавания символов.

В OCRFeeder имеется возможность коррекции не распознанных символов, настроить стили параграфов, применить проверку орфографии в распознанном тексте с помощью aspell (libaspell) и выбрать шрифт для сохраняемых документов.

Основным форматом для сохранения результатов распознавания в OCRFeeder является ODT (OpenDocument Format). Но так же текст может быть сохранён в обычном текстовом формате TXT, или в HTML.

Хоть OCRFeeder и разрабатывается как приложение с графическим интерфейсом (GUI), но имеется возможность работы и из командной строки (ocrfeeder-cli). Это может оказаться полезным для автоматической пакетной обработки документов (используя "движок" определённый в настройках основным).

Лицензия: GNU GPL v3

Домашняя страница

Страница на code.google.com

ABBYY FineReader for Linux
GOCR
Автор: posixru
Еще записи по теме
ocrodjvu
ocrodjvu
qpdfview
qpdfview
Bibfilex
Bibfilex
Wordfast Pro (WFP)
Wordfast Pro (WFP)
bviplus (bvi plus)
bviplus (bvi plus)
Foxit Reader (Foxit PDF Reader)
Foxit Reader (Foxit PDF Reader)

Комментариев: 8 RSS

1Владимир Юрганов19-05-2011 12:36

мне интересно, откуда вы эту версию скачали.

на оф. сайте - последняя это 0.6.6

а там нет кнопочки сканировать. и мою kuneiform отказывается видеть

2vovans19-05-2011 15:01

//ftp.gnome.org/pub/GNOME/sources/ocrfeeder/0.7/

3Владимир Юрганов25-05-2011 15:50

спасибо.

но чё то не смог скопилирировать

4Алекс05-06-2011 15:59

Куда писать "l rus"???, можно на скрин это вывести, а то ничего не помогает с русским текстом...

5posixru05-06-2011 21:28

//zenway.ru/uploads/04_11/mini/ocrfeeder_020.png

В строке "Engine arguments", вписывается:

-f -l rus UTF8 $IMAGE

И для других почти так же, но аргумент везде ставится перед $IMAGE Просто -l rus или -l rus UTF8

Всё должно работать, я пробовал распознавать с пару десятков сканов документов, на нескольких языках (на русском в том числе), из четырёх движков один/два вполне сносно распознавали текст.

6juve23-06-2011 06:47

госопда, а как распознать мультиязычный текст?

пойдет ли аргумент типа -l rus,eng UTF8

7juve23-06-2011 06:54

Владимир Юрганов пишет

с аргументом "-l rus UTF8" cuneiform распознает прилично

осталось мультиязычность добавить )

8Андрей02-04-2012 11:31

Если используется Cuineform, то эта система может распознавать одновременно только русский алфавит с английским, для этого используется параметр

-l ruseng
Буквенные обозначения языков можно узнать, набрав в терминале:
cuneiform -l

Вы можете войти под своим логином или зарегистрироваться на сайте.

Рубрики
  • Hовости
  • Изучаем Linux
  • Обзоры Linux ПО
    • Hужное/полезное
    • Аудио и видео ПО
    • Графика
    • Офисное ПО
    • Интернет ПО
    • Образовательные
    • Игры
    • Администрирование
    • Системные утилиты
    • Прочие
    • Shareware / Demo
  • Дистрибутивы
  • Дополнительные материалы
Последние комментарии
AzPainter
  • Crocodilero » Ну вот же: //github.com/ Symbian9/ azpainter/wiki/ Packaging- statusУже давно неактуально, нет такого пользователя и репозитория.Ре позиторий разработчицы, а также готовые...
Карты (Gnome Maps)
  • O_Dik » Как добавить спутниковые карты? Или откуда их можно скачать?
Трансляция потока с веб-камеры с помощью ffserver
  • vovans » Беда :(FFmpeg's FFServer feature has been removed from the main release.You'll have to bring up...
MusE - Linux Music Editor
  • Аноним » я её скачал. Ни инстукции, ни мануалов. удалил
  • vovans » Разумно. Тут или понимаешь что делать, или до свидания. Вот так вот ворваться с нуля...
  • BigOrange » мануал официальный самый что ни наесть официальный//muse- sequencer. github.io/docs/ intro.htmlещё разработчики советуют этот форум// linuxmusicians. com/viewforum. php?f=61
WHDD
  • Александр » Привет)Ни кто мне не может подсказать, пожалуйста, в чем у меня проблема: хочу проверить флешку...
  • илья » Привет)Ни кто мне не может подсказать, пожалуйста, в чем у меня проблема: хочу проверить флешку...
fbless
  • totiks » Очень понравилась эта утилита, написал простенький скрипт для выбора книжек с помощью peco , чтоб...
FreetuxTV
  • Алиса » Попробуйте //github. com/yuki-iptv/ yuki-iptv
Форум
[12/02/2025 16:49:16]
openSUSE Tumbleweed, zypper ref, Segmentation fault (core dumped)
[10/02/2025 22:04:59]
Говорильня (дискуссионный клуб)
[23/01/2024 04:13:36]
Утилита запуска команд в трее
[26/07/2023 11:17:45]
Музыкальный калейдоскоп
[16/07/2023 12:24:19]
LFS
[17/04/2023 10:14:08]
Тестовая бродилка на Си с ChatGPT
[18/11/2022 11:54:52]
vscode and c/c++
[31/08/2022 12:25:53]
Tor Browser
[22/05/2022 15:45:40]
Стратегии RTS
Облако меток
2D338 3D241 ALSA68 ASCII120 Android1 Arch Linux38 Audio416 Backup80 Benchmark78 Bluetooth2 C++969 CD48 Console1318 DJ-система17 DVD47 Debian28 DjVu22 Enlightenment19 FFmpeg191 FLTK29 FPS40 FREE155 FTP18 FVWM21 Fluxbox40 GIMP24 GNU26 GPS22 GTK1302 GUI801 Gambas11 Games686 Gentoo3 Gnome349 Gstreamer133 HDD122 HDR7 HTML62 Hex-редактор14 ICQ17 IP-сети25 IP-телефон22 IRC31 ISO39 IceWM22 ImageMagick56 JACK99 Jabber35 Java308 JavaScript115 KDE209 LAN29 LXDE37 LaTeX66 Live-CD70 Live-DVD55 Live-USB53 Lua61 MATE32 MEncoder31 MMORPG12 Mail42 Markdown53 Midi91 Mono53 Mplayer75 MySQL2 OSS9 Open Source14 OpenGL301 Openbox89 P2P51 PDF133 PHP12 Pascal17 Perl102 Phonon27 PulseAudio17 Python759 QT894 RAW34 RPG101 RSS53 RTS42 Roguelike70 Ruby19 Rust15 SDL312 SVG39 Screencast32 Screenshot61 Script78 Slackware66 TOR17 TOX3 Tk39 Torrent67 Ubuntu69 VLC16 Vala64 Web629 WebKit72 WebUI34 WiFi47 Window Maker16 Wine8 XMPP35 Xfce70 Xine14 YouTube80 video4linux27 wxWidgets108 Автоматизация31 Администрирование335 Анонимная сеть47 Антивирус14 Апплет120 Аркада235 Архиватор11 Астрономия36 Аудио конвертер70 Аудио редактор50 Аудиоплеер184 Безопасность243 Бизнес-приложение4 Браузер87 Бродилка203 Бухгалтерия11 Веб-камера36 Видео148
© Zen Way, 2026. Работает на MaxSite CMS | Время: 0.0874 | SQL: 19 | Память: 5.22MB | Вход