Re: [oodisc] Получение текста из pdf

Николай Кузнецов nikuz на umail.ru
Вт Авг 3 09:15:57 MSD 2004


Здравствуйте, .

Вы писали 2 августа 2004 г., 18:20:49:

a> Есть необходимость выдрать текст из pdf (в Линуксе), но pdftotext и
a> pdftohtml не дают желаемого результата - русские буквы заменяются 
a> точками, с английскими все нормально. Как можно выдрать текст? 
a> (желательно из консоли, чтобы можно было юзать в других программах).

Там нужна такая штука pdftotextKOI.exe и правильно её настроить.
Также нужен файл KOI8-R.unicodeMap и ещё что-то.
Всё    это    можно    найти   через   страницу   на  www.wincmd.ru  -
"листер-плагин (PDF)filter".
Если  нет  ссылок у него на странице - надо списаться с ним по мылу. Я
брал оттуда.
Точки - это отсутствие настройки КОИ, а Линух или Винды - неважно.

Спасибо!
-- 
С уважением,
 Николай Кузнецов    nikuz на umail.ru




Подробная информация о списке рассылки Oo-discuss