АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии   ^

Русский морфологический словарь

Русский морфологический словарь Диалинг базируется на грамматическом словаре А.А.Зализняка[1987]. Включает на данный момент 161 тыс. лемм.

Описание формальной структуры словаря можно найти здесь: Формальное описание морф. модели

При лемматизации для каждого слова входного текста выдается множество морфологических интерпретаций следующего вида:

  • лемма (всегда пишется большими буквами);
  • морфологическая часть речи;
  • набор общих граммем (которые относятся ко всем словоформам парадигмы слова).
  • множество наборов граммем.

Ниже мы приводим полный перечень русских частей речи:

Часть речи в системе Диалинг Пример Расшифровка
C мама существительное
П красный прилагательное
МС он местоимение-существительное
Г идет глагол в личной форме
ПРИЧАСТИЕ идущий причастие
ДЕЕПРИЧАСТИЕ идя деепричастие
ИНФИНИТИВ идти инфинитив
МС-ПРЕДК нечего местоимение-предикатив
МС-П всякий местоименное прилагательное
ЧИСЛ восемь числительное (количественное)
ЧИСЛ-П восьмой порядковое числительное
Н круто наречие
ПРЕДК интересно предикатив
ПРЕДЛ под предлог
СОЮЗ и союз
МЕЖД ой междометие
ЧАСТ же, бы частица
ВВОДН конечно вводное слово
КР_ПРИЛ красива краткое прилагательное
КР_ПРИЧАСТИЕ построена краткое причастие

Граммема - это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе стол с леммой СТОЛ будут приписаны следующие наборы граммем: "мр, ед, им, но", "мр, ед, вн, но". Таким образом, морфологический анализ выдает два варианта анализа  словоформы стол с леммой СТОЛ внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).

Ниже перечислены все используемые граммемы:

мр, жр, ср - мужской, женский, средний род;

од, но - одушевленность, неодушевленность;

ед, мн - единственное, множественное число;

им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный;

2 - обозначает второй родительный или второй предложный падежи;

св, нс - совершенный, несовершенный вид;

пе, нп - переходный, непереходный глагол;

дст, стр - действительный, страдательный залог;

нст, прш, буд - настоящее, прошедшее, будущее время;

пвл - повелительная форма глагола;

1л, 2л, 3л - первое, второе, третье лицо;

0 - неизменяемое.

кр - краткость (для прилагательных и причастий).

сравн - сравнительная форма (для прилагательных).

имя, фам, отч - имя, фамилия, отчество.

лок, орг - локативность, организация.

кач - качественное прилагательное.

вопр,относ - вопросительность и относительность (для наречий).

дфст - слово обычно не имеет множественного числа.

опч - частая опечатка или ошибка.

жарг, арх, проф - жаргонизм, архаизм, профессионализм.

аббр - аббревиатура.

безл - безличный глагол.

Как уже было сказано, одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:

  • {СТАЛЬ, C, "но", ("жр,ед,рд","жр,ед,дт", "жр,мн,им", "жр,мн,вн") };
  • {СТАТЬ, Г, "нп,св",("мн,дст,прш")}.

главная о нас продукты скачать  демо технологии   ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.