АОТ :: Технологии :: Диссертация А.Сокирко... :: Глава 2. Досемантический анализ русского текста.

Графематический анализ (далее графематика) - достаточно простая программа, выполняющая первые предварительные действия над текстом. На вход графематике подается текст в кодировке Windows, на выходе строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Программа выделяет некоторые аббревиатуры, имена с инициалами, даты и пр. Кроме деления текста на слова, графематика разбивает текст на абзацы и предложения (макросинтаксический анализ).

Графематическая таблица состоит из двух столбцов. В первом столбце стоит некоторый кусок входного текста (выделенный по правилам, о которых мы скажем ниже), во втором столбце стоят графематические дескрипторы, характеризующие этот кусок текста. Например, для текста "Иван спал" будет построена таблица из трех строк

Кусок входного текста	Графематические дескрипторы
Иван	ЛЕ Бб ПРД1
_	РЗД ПРБ
спал	ЛЕ бб ПРД2

Перечислим главные графематические дескрипторы:

Кир.Назв.	Объяснение	Пример
ЛЕ	русская лексема, присваивается последовательностям, состоящим из кириллицы	Иван
ИЛЕ	иностранная лексема, присваивается последовательностям из латиницы	John
РЗД	разделитель, но не знак препинания.	'*', '=', '_'
ЗПР	знак препинания, присваивается последовательностям, состоящим из одинаковых знаков препинания	' .', '[', ']', '(', ')', '-', ':', ';'
ЦК	цифровой комплекс, присваивается последовательностям, состоящим из цифр	1234
ЦБК	цифро-буквенный комплекс, присваивается последовательностям, состоящим из цифр и букв	34h

Разновидности дескриптора РЗД:

ПРБ	строка пробелов или табуляций
КСТ	признак конца строки

Разновидности дескриптора ЛЕ и ИЛЕ:

бб	признак того, что все символы лексемы – малые	мама
Бб	признак того, что первый символ лексемы - большой;	Мама
ББ	признак того, что все символы лексемы – большие	МАМА

Теперь опишем дескрипторы, которые появляются на строке в зависимости от контекста, т.е. они вычисляются не только из текущей строки, но и из номера текущей строки и строк, которые находятся выше и ниже вычисляемой.

Контекстные дескрипторы:

ПРД1	начало предложения
ПРД2	конец предложения
ИМ?	признак того, что лексема, возможно, является частьюимени собственного. Присваивается лексеме, начинающейся с прописной буквы и не имеющей перед собой символа конца предложения.
ОБ1	ставится на начале оборота (словарь оборотов будет описан ниже)
ОБ2	ставится на конце оборота

Морфологический анализ и лемматизация

Морфологический компонент осуществляет морфоанализ и лемматизацию русских словоформ (лемматизация - приведение текстовых форм слова к словарным; морфоанализ – приписывание словоформам морфологической информации).

Идеология морфологического анализа системы ДИАЛИНГ не представляет собой оригинальную разработку и почти полностью заимствована из работ Аношкиной[1995].

В системе ДИАЛИНГ используются три типа морфологических словарей [1]:

Большой словарь, который базируется на грамматическом словаре А.А.Зализняка[1987];
Словарь имен собственных (например: Петр, Иванович, Иванов);
Словарь географических слов (например: Москва, Россия).

При лемматизации для каждого слова входного текста морфологический процессор выдает множество морфологических интерпретаций следующего вида:

лемма (всегда пишется большими буквами);
морфологическая часть речи;
множество наборов граммем.

Лемма – это нормальная форма слова. Например, для существительных – это единственное число (если оно есть у существительного), именительный падеж.

Морфологическая часть речи определяется традиционным образом за исключением того, что некоторые специфические морфологические формы также получают статус части речи. Индексы в названии части речи обозначают тип морфологического словаря (n – словарь имен, g – словарь географии). Ниже мы приводим полный перечень частей речи в нашей системе:

Часть речи в системе Диалинг	Пример	Расшифровка
NOUN	мама	существительное из Большого словаря
NOUN_n	Сидор	существительное из словаря имен
NOUN_g	Москва	существительное из географического словаря
ADJ_FULL	красный	полное прилагательное
ADJ_SHORT	красив	краткое прилагательное
ADJ_g	московский	географическое прилагательное
PRONOUN	он	местоимение-существительное
VERB	идет	глагол в личной форме
PARTICIPLE	идущий	причастие
ADVERB_PARTICIPLE	идя	деепричастие
PARTICIPLE_SHORT	ведом	краткое причаcтие
INFINITIVE	идти	инфинитив
PRONOUN_PREDK	нечего	местоимение-предикатив
PRONOUN_P	всякий	местоименное прилагательное
NUMERAL	восемь	числительное (количественное)
NUMERAL_P	восьмой	порядковое числительное
ADV	круто	наречие
PREDK	интересно	предикатив
PREP	под	предлог
CONJ	и	союз
INTERJ	ой	междометие
PARTICLE	же, бы	частица
INP	конечно	вводное слово
COMP	лучше	сравнительная степень наречий

Для удобства иногда используются следующие морфологические сокращения:

C = (NOUN_g или NOUN_n или NOUN ) // обобщенное существительное

П = (ADJ_SHORT или ADJ_FULL или ADJ_g) // обобщенное прилагательное

Г=(VERB или PARTICIPLE или ADVERB_PARTICIPLE или

PARTICIPLE_SHORT или INFINITIVE) // любая глагольная форма

Граммема – это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе стол с леммой СТОЛ будут приписаны следующие наборы граммем: "мр, ед, им, но", "мр, ед, вн, но". Таким образом, морфологический анализ выдает два варианта анализа словоформы стол с леммой СТОЛ внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).

Ниже перечислены все используемые граммемы:

мр, жр, ср - мужской, женский, средний род;

од, но - одушевленность, неодушевленность;

ед, мн - единственное, множественное число;

им, рд, дт, вн, тв, пр - падежи: именительный, родительный, дательный, винительный, творительный, предложный;

#1, #2 - соответствуют пометам "параграф" в словаре А.А.Зализняка;

св, нс - совершенный, несовершенный вид;

пе, нп - переходный, непереходный глагол;

дст, стр - действительный, страдательный залог;

нст, прш, буд - настоящее, прошедшее, будущее время;

пвл - повелительная форма глагола;

1л, 2л, 3л - первое, второе, третье лицо;

0 – неизменяемое.

Как уже было сказано, одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:

(СТАЛЬ, NOUN, ("жр,ед, рд,но","жр,ед, дт,но", "жр,мн, им,но", "жр,мн, вн,но");
(СТАТЬ, VERB, {"мн,св,нп,дст,прш"}).

В реальном тексте на последующих шагах анализа выбор одной морфологической интерпретации одного слова может повлиять на выбор морфологической интерпретации соседнего слова, поэтому программы работают с вариантами морфологических интерпретаций. Морфологическим вариантом набора словоформ W₁, ..., W_i, ..., W_n назовем набор морфологических интерпретаций I₁, ..., I_i, ..., I_n, где I_i – одна из возможных морфологических интерпретация словоформы W_i.

Морфологический словарь содержит более 130 тысяч лемм для русского языка, но этого оказывается недостаточным для реальных текстов. Если входная словоформа не была найдена в словаре, то используется алгоритм предсказания, который ищет в словаре словоформу, максимально совпадающую с конца со входной словоформой. Парадигма найденной словоформы используется как образец для создания парадигмы входной словоформы.

Морфологический словарь не включает информацию об активном словообразовании. Эти сведения, необходимые для улучшения работы машинного перевода, нужно было включить в работу. Обработка активного префиксального словообразования довольна проста, поскольку активные приставки ("пере-", "полу-", "анти-" и др.) не меняют корневую часть слова. Таким образом, для получения исходного слова необходимо отнять приставку от начала слова. Формальное описание активного суффиксального словообразования записывается с помощью пар вида <SourceSuffix, TargetSuffix>, где SourceSuffix – конечный набор букв исходного слова, а TargetSuffix – конечный набор букв слова-деривата. Например, для пары <"a", "ный"> строятся слова <мода, модный>, <вата, ватный> и др. Описание активного словообразования внутри проекта ДИАЛИНГ(Рудерман [1999]) содержит 51 активную приставку и 23 суффиксальные пары. При поиске этих словообразовательных моделей учитывались следующие критерии:

продуктивность (количество слов, образованных по этой модели в существующем морфологическом словаре, должно превышать 50);
семантическая интерпретируемость (должно существовать семантическое объяснение для всех пар словообразовательной модели; ошибок должно быть не более 15 процентов).

Найденные модели покрывают 25 тысяч пар слов русского морфологического словаря. Они используются для семантической интерпретации в том случае, если в семантическом словаре не содержится дополнительных сведений.

Синтаксический анализ

Синтаксический анализ для русского языка в проекте ДИАЛИНГ - это синтаксис неразрывных групп. В работе Сущанская[1989] такой синтаксис называется "синтаксисом первого ранга". На вход синтаксису первого ранга подаются результаты морфологического анализа (каждой словоформе сопоставлено максимально возможное для данной словоформы множество морфологических интерпретаций). На выходе получается множество групп, каждая из которых характеризуется следующими параметрами:

координаты группы (номера первого и последнего слов в предложении);
тип группы;
координаты главной подгруппы группы.

Например, для словосочетания "желтое солнце" самая большая группа будет следующей:

{1,2} – координаты;
ПРИЛ-СУЩ – тип группы;
{2,2} – координаты главной подгруппы.

Синтаксические группы не могут пересекаться, точнее, если одна группа пересекается с другой, то либо первая содержит вторую, либо вторая первую. Типы групп заранее заданы. Для каждого типа написано отдельное синтаксическое правило, которое собирает слова в одну группу этого типа. Порядок правил также жестко задан. Например, сначала объединяются прилагательные, согласованные с существительным, стоящим после них, а уже потом генитивные пары. К примеру, для фразы "длинная борода старика" будут построены группы:

({1,2},ПРИЛ-СУЩ, {2,2}) - "длинная борода";
({1,3},ГЕНИТ-ИГ, {1,2}) - "длинная борода старика".

Поскольку для каждой группы определена главная подгруппа, можно вычислить для каждой группы главное слово. Такое главное слово будем называть синтаксически главным словом. Атрибуты синтаксически главного слова играют исключительно важную роль в синтаксическом анализе; главное слово как бы представляет всю группу, в некоторых случаях полностью заменяя ее. Например, группы, у которых главное слово – существительное (далее мы будем их называть именными группами, или просто ИГ), можно иногда приравнивать к существительному.

Важно отметить, что синтаксический анализатор работает отдельно с каждым морфологическим вариантом предложения, что сильно упрощает разработку правил, строящих группы. Приведем пример описания одного синтаксического правила, взятого из работы Панкратов [1999]:

Правила для построения групп предлог + ИГ

Если найдена цепочка групп вида ПРЕДЛОГ+ИГ, где ПРЕДЛОГ – простой или сложный предлог, статья для которого находится в словаре оборотов, а ИГ – именная группа (главное слово – существительное) и возможные падежи ИГ имеют непустое пересечение с множеством падежей, которыми управляет предлог, то нужно создать группу с названием ПГ и главной подгруппой ПРЕДЛОГ. Примеры: на холм; в краю степей; в большом просторном доме.

Теперь перечислим все типы групп:

Тип	Сокращенное название	Пример
Количественная группа	КОЛИЧ	двадцать восемь
Последовательность чисел вперемешку со знаками препинания	КОЛИЧ	12,2
Существительное из заданного перечня + числовой идентификатор	СУЩ-ЧИСЛ	статья 123
Правила для построения ФИО (используются морфологические пометы о том, что данное слово может быть именем)	ФИО	Петров Петр Владимирович
Слова степени (типа "очень") с группой прилагательного или причастия	НАР_ПРИЛ	очень красивый
Однородные прилагательные	ОДНОР_ПРИЛ	первой и единственной
Однородные наречия	ОДНОР_НАР	долго иль коротко
Однородные инфинитивы	ОДНОР_ИНФ	стоять или лежать
Однородные прилагательные сравнительной степени	ОДНОР_ПРИЛ	красивее и моложе
Группы даты	ДАТА	август 1968 года,12 июня 99 г. и т.д.
Группа временных отрезков	СЛОЖ_ПГ	С первого августа по двадцатое сентября
Аналитическая форма сравнительной степени прил. или наречия	СРАВН-СТЕПЕНЬ	гораздо сильнее
Наречие + глагол	НАРЕЧ-ГЛАГОЛ	злостно нарушать
Одно или несколько прилагательных, согласованных по роду, числу и падежу со стоящим сразу после них существительным.	ПРИЛ-СУЩ	длинная унылая дорога
Наречное числительное + ИГ (рд мн)	НАР-ЧИСЛ-СУЩ	много очень простых ребят
Числительное + ИГ	ЧИСЛ-СУЩ	сорок восемь попугаев
Генитивная пара	ГЕНИТ_ИГ	рука Москвы
Предложная группа	ПГ	на холме
Однородные ИГ	ОДНОР_ИГ	мама и папа
Отрицание + глагольная форма	ОТР_ФОРМА	не любить
Глагольная форма+контактное прямое дополнение	ПРЯМ_ДОП	рубить дрова
Группа электронного адреса	ЭЛ_АДРЕС	www.dialing.ru
Глагольная форма+контактный инфинитив	ГЛАГ_ИНФ	пойти выпить
Подлежащее	ПОДЛ	я пошел
Сказуемое	СКАЗ	я пошел

Из перечня видно, что синтаксический анализ системы ДИАЛИНГ не использует модели управления слов кроме тех случаев, когда управление напрямую вычисляется по морфологическим характеристикам слова. Использование модели управления приводит к возникновению разрывных групп, что противоречит принципиальному ограничению синтаксиса первого ранга. Пару подлежащее-сказуемое мы включаем в синтаксис первого ранга, что приводит к необходимости проверки согласования между разрывными составляющими. Но это единственный такой случай.

В синтаксисе системы ДИАЛИНГ намеренно не учитывается так называемая синтаксическая омонимия. Классический пример древние стены города наш анализатор разберет так же, как и словосочетание длинная борода старика, упомянутое выше. И это будет единственный вариант. Однако, на наш взгляд, разрешение синтаксической омонимии не столь важно как морфологическая омонимия. Например, та же фраза древние стены города содержит четыре морфологических варианта, поскольку первые два слова из этой фразы имеют по два омонима, а именно:

словоформа древние может быть восстановлена как прилагательное ДРЕВНИЙ и как существительное ДРЕВНИЕ;
словоформа стены может быть восстановлена как существительное СТЕНА и как существительное мужского рода СТЕН (термин из теории вероятностей).

Построив на первых двух словах группу ПРИЛ-СУЩ, синтаксический анализатор фактически откинул морфологические варианты с леммой ДРЕВНИЕ и с леммой СТЕН, что заметно облегчает дальнейший анализ.

Мы считаем, что синтаксический анализатор достаточно хорошо справляется с главной задачей – удалением значительной части морфологического шума. Для уничтожения омонимии имеется одно основное правило: для каждого морфологического омонима каждого слова проверяется выполнение следующего критерия - данный омоним должен входить в синтаксическую группу и не являться ни первым, ни последним ее словом. Тогда все остальные омонимы этого слова, если они не образуют никаких групп, уничтожаются. Например, прозрачное стекло стакана. Вариант, где стекло – глагол , отбрасывается, т.к. нет ни одной группы со стекать, а со стекло построилась ГЕНИТ_ИГ( ПРИЛ-СУЩ(1, 2), 3).

Частные правила уничтожения омонимии для каждого омонима отвечают на вопрос, можно ли удалить его, поскольку по умолчанию, если омоним входит в какую-нибудь группу, то его нельзя удалять. Все омонимы, про которые не сказано, что их нельзя удалять – уничтожаются. Например, благодаря своим действиям. Существует правило, которое говорит, что если данный омоним – предлог, и с ним построена предложная группа – то его нельзя удалить, а с благодаря как с деепричастием никакая группа не построилась, значит, этот омоним можно удалить. Возможны случаи, когда со всеми омонимами данной словоформы строятся группы и, все равно, один из них удаляется. Например, первое марта. Если первое - существительное, то собирается ГЕНИТ_ИГ(1, 2), а если первое – порядковое числительное, то собирается ДАТА(1, 2). Однако существует правило, которое говорит, что если у слова есть два омонима – существительное и порядковое числительное, то омоним–существительное можно удалить, а порядковое числительное – нельзя.

Оставшиеся морфологические варианты упорядочиваются по покрытию, где покрытие – это число слов предложения, попавших хотя бы в одну группу.

Покрытие обеспечивает выбор между разными морфологическими интерпретациями, но выше было показано, что даже внутри одной интерпретации остается неоднозначность (например, падежная). Поэтому нужно использовать правила уничтожения омонимичных наборов граммем. Эти правила написаны ad-hoc. Например, во всех составляющих группы ПРИЛ-СУЩ уничтожаются наборы граммем, в которые не входит падеж, вошедший в общее пересечение падежей всех составляющих.

Фрагментационный анализ

Фрагментационный анализ - деление предложения на неразрывные синтаксические единства (фрагменты), большие или равные словосочетанию (синтаксической группе), и установление частичной иерархии на множестве этих единств. Фрагменты – это главные и придаточные предложения в составе сложного, причастные, деепричастные и другие обособленные обороты. Иерархия отражает тот факт, что в предложении некоторые фрагменты синтаксически зависимы от других. Так, фрагмент "причастный оборот" будет подчиняться фрагменту, содержащему определяемое слово, придаточное предложение – главному. Полное описание фрагментационного анализа можно найти в работе Гершензон[1999].

Необходимость фрагментационного анализа в системе АОТ вызвана в первую очередь техническими причинами. Фрагментационный анализ проходит после морфологического анализа и до синтаксического, поэтому на вход синтаксическому анализу предложение поступает по фрагментам. Это во много раз сокращает время работы синтаксического анализа. Границы фрагментов не должны пересекать синтаксических связей, так что при правильной работе фрагментационного анализа не будут построены такие паразитические синтаксические связи, которые может допускать морфология.

Фрагмент состоит из следующих элементов: тип фрагмента, вершина фрагмента, левая и правая границы фрагмента. Тип фрагмента получается по части речи вершины фрагмента: глагол в личной форме, краткое причастие, краткое прилагательное, предикатив, причастие, деепричастие, инфинитив, вводное слово, пустыха. Пустыха присваивается фрагменту, если в нем не найдена вершина.

Работа фрагментационного анализа начинается с того, что по всем знакам препинания и сочинительным союзам без запятой проводятся границы фрагментов. Затем вступают в действие правила фрагментационного анализа, которые можно разделить на три типа:

Правила, уничтожающие некоторую омонимию. Они рассматривают не только ближайшее окружение слова, но весь фрагмент или все предложение;
Правила, устанавливающие иерархию. Они включают данный фрагмент в непосредственно соседний;
Правила, которые объединяют два дистантно расположенных фрагмента или группу контактных (непосредственных соседей). При этом все объединявшиеся фрагменты уничтожаются, и создается один большой фрагмент. Его границы определяются стандартно из границ объединенных фрагментов; заполнение других полей в структуре фрагмента определяется каждым правилом отдельно.

Приведем по одному примеру для каждого типа правил:

Если во фрагменте есть неомонимичная предикативная часть речи (глагол в личной форме, краткое прилагательное, краткое причастие, предикативное слово, причастие или деепричастие), то во всех остальных словах данного фрагмента уничтожаются омонимы предикативных частей речи.

Пример: Мыла на кухне она не нашла.
Так как нашла - неомонимичный глагол у слова мыла уничтожается омоним {МЫТЬ, VERB (прш, жр...)).

Пусть есть два соседних фрагмента Ф_k и Ф_k+1. Пусть Ф_к заканчивается на одно из следующих слов: тот, каждый, всякий, любой, все, никто, кто-нибудь, кто-то, кое-кто, а Ф_k+1начинается со слов кто или чей, тогда объявляем, что Ф_k+1подчинено Ф_k.

Пример: ...тот, кто этого не знает, не решит

Пусть Ф_k - первый фрагмент в всем предложении или в начале него стоит подчинительный союз. Пусть Ф_k– пустыха и подчиняет Ф_k+1, стоящий контактно справа от него. Если Ф_к+2 не является пустыхой, то нужно объединить фрагменты Ф_k и Ф_к+2.

Пример: ...когда на столе, покрытом скатертью, они расставили тарелки...

Объединение результатов фрагментации и синтаксического анализа

Построенные фрагменты и синтаксические группы преобразуются в одно дерево зависимостей, в узлах которого стоят отдельные слова или "жесткие" группы (КОЛИЧ, ФИО, ЭЛ_АДРЕС). "Жесткие" группы считаются принципиально неделимыми, поскольку они строятся почти без ошибок. Для установления зависимости используется иерархия на фрагментах, например, если Ф_i – деепричастный оборот, подчиненный фрагменту Ф_k, то вершина Ф_k подчиняет вершину Ф_i. Так же для установления синтаксических отношений используется главные подгруппы синтаксических групп следующим образом. В каждой группе G можно вычислить главное слово, если взять главную подгруппу G, а потом ее главную подгруппу и т.д. Синтаксические отношения проводятся от главного слова главной подгруппы к главным словам других непосредственно составляющих. Названия отношений совпадают с названиями групп или типов фрагментов. Например, отношения внутри группы ПРИЛ-СУЩ называются ПРИЛ-СУЩ.

Всем узлам дерева зависимостей приписан уникальный номер клаузы, которой он принадлежит. Кроме этого, приписаны два набора морфологической информации (внутренний и внешний). Внутренняя морфологическая информация – это те параметры, которые были приписаны непосредственно слову, а внешняя информация – это то, что было приписано группе, в которой это слово было главным. Например, главным словом в группе "два мальчика" будет слово "мальчика". Внутренняя информация словоформы "мальчика" будет (МАЛЬЧИК, С, ("мр, ед, рд", "мр, ед, вн")), а внешняя - (МАЛЬЧИК, С, ("мр, мн, им")).

[1] Все версии морфологических словарей системы Диалинг были получены из Института русского языка Российской академии наук

главная о нас продукты скачать демо технологии ^