[oodisc] (JT) OCR

Вт Янв 29 00:25:34 MSK 2002

Здравствуйте!

> Maksim Otstavnov wrote:
>
> > Hello Aleksey,
> >
> > Кстати, а где сконцентрировались права на _ваши_ со smi разработки, и
> > есть ли шанс что-то релицензировать свободно? (Без принятия закона о
> > свободном релицензировании всех разработок, финансированных
> > государством).
>
> C 84-го, когда Андропов прикрыл наши разработки,

Мотивация сего неизвестна?

> Собственно, остались лишь наши со smi  "оптические" алгоритмы, авторы
> лингвистического блока далеко или очень далеко. Да и  статическое
распознавание
> слитного рукописного текста, -- очень специфическая область.

Насколько я разумею, главной проблемой при распознавании рукописного теста
является выделение блоков, которое осложняется:
1) неразборчивостью почерка
2) самим фактом СЛИТНОГО рукописного письма
3) "мусором" в отсканированном документе
4) рядом других неприятных параметров

Дополнительный вопрос: что именно Вы называете лингвистическим блоком? Каким
образом Вы разделяете "оптические алгоритмы" и "лингвистический блок"?

<just for fun>
Как-то раз наблюдал работу OCR от Adobe - в статусбаре, кажется,
комментировался каждый этап распознавания текста. Вот так узнаются
корпоративные секреты. :-)))
</just for fun>

Известно ли Вам, что существует коммерческая OCR система для Linux - Omni? Я
в курсе, что русский язык не распознаётся, но планируется ли её поддержка
командой ALT на уровне требуемых библиотек?

> Что касается общеупотребительного распознавания печатного и рукопечатного
> текстов, то, насколько я припоминаю времена кооперативов, практически все
авторы
> были так или иначе задействованы и их разработки легли в основу
продававшихся и
> продающихся продуктов.

Рукопечатного? :-))))))))

Вы имеете ввиду FineReader и разработку Cognitive Technologies (название
запамятовал)?

В принципе, отличия современных мощных OCR-пакетов от тех же GOCR и Clara в
том, что они:
1) в большей или меньшей степени умеют работать со сложной разметкой текста
2) умеют более/менее прилично распознавать таблицы
3) умеют экспортировать всё это и ещё рисунки во внешние форматы

Ну и, ясное дело, алгоритмы распознавания много совершеннее.

В общем, вот какое у меня сложилось мнение после всего: даже если FineReader
3/4/5 заработает под wine, всё равно это неправильно. Пинать отечественных
разработчиков OCR в сторону Linux-версий, похоже, бесполезно, особенно ABBYY
Software House, которые до истерики любят MS, и в чуть меньшей степени -
MacOS X. Остаётся опять надеяться на Запад. Omni мы уже дождались. :-/

Кстати, имел кто-либо контакты по этому поводу с Cognitive Technologies?

--
Regards,
AP