Re: [oodisc] Автоматическая конвертация HTML в TXT?
Andrei Protasovitski
andrei.protasovitski на gmail.com
Пт Мар 17 12:13:04 MSK 2006
Доброго здоровья!
17.03.06, Николай Кузнецов<nikuz на umail.ru> написал(а):
> Здравствуйте, ОО!
>
> Есть HTML-файлы, в которых только текст и гиперссылки на
> интернет-страницы (скрытые за кусками текста).
>
> Можно ли и как (и с помощью чего) быстро и автоматом (м.б. даже
> пакетно) преобразовать их в обычный текст, чтобы и текст не
> потерялся,и гиперссылки типа http остались и "проявились" (были видны
> в тексте)?
>
> Проблема полноценной чистки текста не стоит - стоит задача не потерять
> гиперссылки при сохранении в текстовый формат (если просто
> переименовать файл в *.txt, то он оказывается слабо читабельным - не
> годится).
На Perl (из Perl Cookbook):
[-=cut=-]
use HTML::FormatText 3;
$ascii = HTML::FormatText->format_file(
$filename,
leftmargin => 0, rightmargin => 50
);
[-=cut=-]
Еще практически любой браузер умеет делать "Save As..." в текстовом формате.
--
Andrei Protasovitski
< andrei[dot]protasovitski[at]gmail[dot]com >
Pinsk, Belarus
Подробная информация о списке рассылки Oo-discuss