Owlboxer - небольшая Qt графическая утилита дающая возможность быстрого редактирования обучающих файлов Tesseract (tesseract box files).
Tesseract — консольное приложение для оптического распознавания текста, которое первоначально разрабатывалось для распознавания исключительно английского текста. Но в дальнейшем были предприняты усилия по изменению "движка" и обучающей системы для работы с другими языками и символами.
Tesseract обучаемое приложение, метод обучения заключается в работе с бокс-файлами (tesseract box files). Box-файл это по сути обычный текстовой файл, а называется он так потому что в нём, каждому символу на картинке соответствует свой бокс. Бокс указывает символы в изображении, в порядке один символ в строке с координатами прямоугольника вокруг изображения. Таким образом для получения хорошего результата работы надо вручную отредактировать бох-файл, поместив в него правильные символы (процесс автоматизирован, на сколько это возможно, но некоторые процедуры приходится делать вручную).
Owlboxer приложение которое было написано специально для поддержки Google-tesseract, так как имеющийся разметчик Tesseract Box Editor мало пригоден для этого. Поэтому для настройки распознаваемых страниц вручную Owlboxer лучшее решение, пока не появится дополнительные утилиты автоматизации этого процесса.
Лицензия: GNU GPL v3
Обучение Tesseract (в документе описывается процесс обучения, даются некоторые рекомендации по обучению различным языкам и о том что можно получить в результате)
Комментариев: 1 RSS
1Андрей04-04-2012 19:27
Благодарю за обзор!