[oodisc] Автоматическая конвертация HTML в TXT?

Андрей Черепанов sibskull на mail.ru
Пт Мар 17 10:39:00 MSK 2006


17 марта 2006 10:19, Николай Кузнецов написал(а):
> Здравствуйте, ОО!
>
> Есть   HTML-файлы,   в   которых   только   текст   и  гиперссылки  на
> интернет-страницы (скрытые за кусками текста).
>
> Можно  ли  и  как  (и  с  помощью  чего) быстро и автоматом (м.б. даже
> пакетно)   преобразовать   их  в  обычный  текст,  чтобы  и  текст  не
> потерялся,и  гиперссылки типа http остались и "проявились" (были видны
> в тексте)?
>
> Проблема полноценной чистки текста не стоит - стоит задача не потерять
> гиперссылки   при   сохранении   в   текстовый   формат  (если  просто
> переименовать  файл  в *.txt, то он оказывается слабо читабельным - не
> годится).
lynx --dump
links --dump
И та и другая программа оставляет сноски у текста, а внизу выдаёт полный 
список ссылок. :)

-- 
Андрей Черепанов
sibskull на mail.ru


Подробная информация о списке рассылки Oo-discuss