Linux -- это интересно

gPDFText


Рубрика: Офисное ПО
Метки: | |
Просмотров: 4517

Извлечение текстового содержимого из PDF документов.


gPDFText - простой GTK+ редактор, позволяющий загружать текстовое содержимое PDF файлов (переформатируя абзацы в длинные строки), преобразовывая содержимое в простой текст. Приложение создано Нилом Вильямсом (Neil Williams).

Многими приложениями для чтения PDF документов для отображения используется формат станиц A4 (или подобного размера). Когда документ открывается с масштабированием по экрану то на некоторых мониторах (устройствах чтения) текст получается слишком маленьким для чтения. Простой экспорт PDF документа в текст часто вызывает проблемы с переносом строк, а задание различных опций не оправданно усложняет автоматическое преобразование.

gPDFText открыв PDF документ извлечёт из него текст, автоматически переформатирует абзацы в отдельные строки и поместит текст в обычный текстовой редактор (где к тексту можно применять любые преобразования). Приложение имеет встроенный текстовой редактор, с проверкой орфографии, что может оказаться полезным при необходимости в редактировании текста (включение/отключение проверки орфографии в меню или по нажатию F7).Полученный текст не содержит нежелательных переносов строк, размер текста можно масштабировать до нужного размера, что может оказаться более удобным. параметры переформатирования могут быть изменены в настройках приложения.

gPDFText извлекаемому тексту применяет три типа изменений... Это слияние слов с переносом, поддержка длинных строк (удаление ненужных разрывов строк), удаление колонтитулов (заголовочные данные, авторство, номера страниц и.т.д...), которые пользователь может отключить. Поддержка длинных строк позволяет объединить отдельные строки в первоначальный абзац, для того что бы устройство чтения смогло правильно их отформатировать. Удаление колонтитулов поддерживается частичен, удаляются только простейшие колонтитулы с номерами страниц. Если страниц PDF-документа содержат название книги, оглавление, встроенную рекламу и пр... То их придётся удалить вручную.

gPDFText не позволяет извлекать текст из файлов PDF, где текст размещён в таблицах или не в виде параграфов. Извлечённый и отредактированный текст может быть сохранён в .txt формате, или в новый файл PDF-файл на основе текста и с более подходящем размером страницы (A5 или B5), чтобы устройство чтения книг смогло отобразить страницу целиком и удобно масштабировало текст. Шрифт выбранный для редактора, также используется (того же размера) в создаваемом PDF. Любой текстовый файл также можно открыть и сохранить в PDF.

Лицензия: GNU General Public License version 2

>Домашняя страница<

Страница на sourceforge.net

Оставьте комментарий!
Используйте нормальные имена.Войти через loginza
Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email.
(При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д.)



 
(обязательно)