RE: [oodisc] Орфография в МСО и ООо - сравнение

Пн Мар 14 23:45:46 MSK 2005

Что-то предыдущий пост не дошел. Пробую еще раз.

> [mailto:oo-discuss-bounces на openoffice.ru] On Behalf Of Andrey V. Panov
> Sent: Monday, March 14, 2005 2:57 AM
> To: oo-discuss на openoffice.ru
> Subject: Re: [oodisc] Орфография в МСО и ООо - сравнение

> Может стоит попытаться создать словарь синонимов с нуля, силами
> общественности?

Чтобы проверять орфографию сильно флективного языка (каковым является
русский), нужно иметь модель морфологии (словоообразования). Такая
(неполная) модель была построена Зализняком в его известном словаре
(Зализняк А.А. Грамматический словарь русского языка.
Словоизменение.-М.:Русские словари,2003.-800 с.-ISBN: 5-88744-044-9;
http://starling.rinet.ru/morphoru.htm) и использовалась в т.н. "Машинном
фонде русского языка" еще в советсткие времена. Построение такой модели -
нетривиальная задача (в том числе и по трудоемкости - _КАЖДОЙ_ основе, коих
в современном русском языке несколько сотен тысяч, следует приписать
грамматический класс, однозначно определяющий парадигму (словоизменение);
одна выверка электронного варианта словаря Зализняка, насколько мне
известно, заняла несколько человеко-лет работы прикладных _лингвистов_ - не
"общественности"). Кое-что в этом направлении свободно (http://aot.ru;
http://www.phil.pu.ru/depts/12/AGFL/rus/ - но несовершенно). Но это еще не
всё в отношении морфологии: созданный словарь необходимо поддерживать,
поскольку неологизмы появляются ежедневно. На (доработанном) словаре
Зализняка, насколько мне известно, базируются ВСЕ современные средства
работы с русским языком (та же ОРФО, продукты Яндекс, Апорт, Рамблер,
Интегрум-техно).

Чтобы проверять синтаксис хотя бы на уровне согласования морфологических
форм (зеленОЕ яблоко, но зеленАЯ груша), необходим соотв. API текстового
процессора - есть ли такой (способный отдать не одно слово, а несколько
(сколько?)) в ООо? Не знаю. Проверка синтаксиса "в бОльшем" - сложных
предложений, например, - требует уже какой-то модели синтаксиса русского
языка, создание которой является еще менее тривиальной задачей, чем задача
построения модели морфологии, - и соотв. API текстового процессора.

Хотя действительно, язык не приватизирован. Все соотв. научные работы числом
несколько тысяч опубликованы. Осталось их прочесть, разработать соотв.
алгоритмы и наполнить словари ;-)

Что касается тезауруса, то здесь дело обстоит еще сложнее. Отождествление
синонимов связано с культурной оценкой (камень=процессор?), а есть еще
омонимы и пр. Так что группа, создающая тезаурус, должна быть культурно
однородна (или, по крайней мере, понимать значимость культурных различий).
Что приходится при этом учитывать - см. http://www.globalwordnet.org/ и
http://www.phil.pu.ru/depts/12/RN/index_ru.shtml. Известные более или менее
успешные проекты создания и поддержки тезаурусов имеют трудоемкость в
десятки и сотни человеко-лет опять же прикладных лингвистов (см., напр.,
http://www.cir.ru/ - более 50 человеко-лет небольшой сплоченной группы).

Ситуация напоминает 1С ;-)

--
Виктор Капустин