Linux -- это интересно

Owlboxer


Рубрика: Офисное ПО
Метки: | | | |
Просмотров: 6399
Быстрое редактирование обучающих файлов Tesseract.


Owlboxer - небольшая Qt графическая утилита дающая возможность быстрого редактирования обучающих файлов Tesseract (tesseract box files).

Tesseract — консольное приложение для оптического распознавания текста, которое первоначально разрабатывалось для распознавания исключительно английского текста. Но в дальнейшем были предприняты усилия по изменению "движка" и обучающей системы для работы с другими языками и символами.

Tesseract обучаемое приложение, метод обучения заключается в работе с бокс-файлами (tesseract box files). Box-файл это по сути обычный текстовой файл, а называется он так потому что в нём, каждому символу на картинке соответствует свой бокс. Бокс указывает символы в изображении, в порядке один символ в строке с координатами прямоугольника вокруг изображения. Таким образом для получения хорошего результата работы надо вручную отредактировать бох-файл, поместив в него правильные символы (процесс автоматизирован, на сколько это возможно, но некоторые процедуры приходится делать вручную).

Owlboxer приложение которое было написано специально для поддержки Google-tesseract, так как имеющийся разметчик Tesseract Box Editor мало пригоден для этого. Поэтому для настройки распознаваемых страниц вручную Owlboxer лучшее решение, пока не появится дополнительные утилиты автоматизации этого процесса.

Лицензия: GNU GPL v3

Домашняя страница

Обучение Tesseract (в документе описывается процесс обучения, даются некоторые рекомендации по обучению различным языкам и о том что можно получить в результате)

Комментариев: 1 RSS
Оставьте комментарий!
Используйте нормальные имена.Войти через loginza
Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email.
(При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д.)



 
(обязательно)