Re: [oodisc] Автоматическая конвертация HTML в TXT?

Andrei Protasovitski andrei.protasovitski на gmail.com
Пт Мар 17 12:13:04 MSK 2006


Доброго здоровья!

17.03.06, Николай Кузнецов<nikuz на umail.ru> написал(а):
> Здравствуйте, ОО!
>
> Есть   HTML-файлы,   в   которых   только   текст   и  гиперссылки  на
> интернет-страницы (скрытые за кусками текста).
>
> Можно  ли  и  как  (и  с  помощью  чего) быстро и автоматом (м.б. даже
> пакетно)   преобразовать   их  в  обычный  текст,  чтобы  и  текст  не
> потерялся,и  гиперссылки типа http остались и "проявились" (были видны
> в тексте)?
>
> Проблема полноценной чистки текста не стоит - стоит задача не потерять
> гиперссылки   при   сохранении   в   текстовый   формат  (если  просто
> переименовать  файл  в *.txt, то он оказывается слабо читабельным - не
> годится).

На Perl (из Perl Cookbook):
[-=cut=-]
use HTML::FormatText 3;
$ascii = HTML::FormatText->format_file(
  $filename,
  leftmargin => 0, rightmargin => 50
);
[-=cut=-]

Еще практически любой браузер умеет делать "Save As..." в текстовом формате.

--
Andrei Protasovitski
< andrei[dot]protasovitski[at]gmail[dot]com >
Pinsk, Belarus


Подробная информация о списке рассылки Oo-discuss