Ocrad (The GNU OCR) — система оптического распознавания текста (OCR / Optical Character Recognition), на входе поддерживает изображения в формате pbm (bitmap), pgm (greyscale) или ppm (color) и выдает текст в байтовом (8-bit) формате или в UTF-8, Разработано под эгидой проекта GNU (The GNU Project).
Для оптического распознавания в Ocrad использует метод выделения признаков (feature extraction). В состав системы входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Может применяться как в форме библиотеки, для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках. Распознавание поддерживается только для кодировок "ascii", "iso-8859-9" и "iso-8859-15", поддержка кириллицы отсутствует.
Вы можете войти под своим логином или зарегистрироваться на сайте.