А.В.Сокирко

 

               Обработка локативных групп в системе Политекст

 

Локативной группой мы называем слово или словосочетание, обозначающее место (локус).  Выявление и интерпретация этих языковых объектов, являясь частью  общего  семантического анализа,  представляет собой однако довольно специальную задачу. С одной стороны, локативные группы, будучи часто используемыми в любых типах текстов, должны регулярно подчиняться общим законам того естественного языка,  на котором они записаны. С другой стороны,  объекты,  которые они обозначают, организуют довольно обширную,  но все же формализуемую, систему или, как еще говорят, принадлежат некоторой предметной области.

           Законы естественного языка и законы географической предметной  области вместе  производят  правила поведения локативных групп в тексте. Задача состоит в том, чтобы изучить, понять эти правила.

Нашим базисом   (входом)   является   семантическое  представление, то как оно понимается в системе Политекст[1]. Наш главный инструмент - это географическая база данных. Выходом же этого процесса будет обогащенное семантическое представление,  в котором найдены  и  проинтерпретированы локативные группы.

Сразу скажем,  что семантическое представление, которое служит нам базисом, не является той всеобъемлющей безошибочной смысловой структурой,  понимаемой многими лингвистами как конечный результат извлечения смысла. Нет,  входной СемП мало того что не полон,  то есть, в  нем  не проинтерпретирована часть синтаксических отношений,  он так же содержит ошибки и омонимичные случаи,  считаться с которыми при обработке необходимо.

Сама обработка локативных групп разделена на две части:  выявление локативных групп и интерпретация их.  Правила обеих частей сформулированы в явном виде:

           если  П

           тогда З.

В посылке  мы имеем право использовать все входную семантическую информацию, а также информацию,  содержащуюся в географической базе данных. В общем виде правила первой части можно записать так:

        если

             О - часть входного семантического представления, которая

             обладает некоторыми свойствами,

       тогда

             объяви О локативной группой.

Правила второй части в общем виде записываются так:

        если

            Л - локативная группа  и

            У - узел входного  представления, который обладает

                некоторыми свойствами,

       тогда

            установи между Л и О некоторое семантическое отношение.

 

Все правила построены достаточно  тривиально  и просто, а эффективность их растет только благодаря росту используемых ими словарей, к описанию которых мы сейчас перейдем.

 

 

                                  Географические словари

 

 

   Считается целесообразным использовать три географических словаря, а именно:

        1) Словарь локативных отношений;

        2) Словарь географических категорий;

        3) Словарь конкретных географических названий.

   Рассмотрим подробнее эти словари:

    1)  Первый словарь содержит чисто языковую информацию: в нем описаны  все устойчивые словосочетания русского языка, способные выражать географические отношения, например: “в”, “около”, “между”.  Каждому локативному предлогу соответствует статья, в которой  в определенном формате записаны такие необходимые сведения, как  модель управления,  позиционные ограничения на использование актантов, толкование (интерпретация). Например, статья для предлога “около” выглядит следующим
образом:

                    ЗГЛ    =  около

                    ЗН     = 1(1)

                    ГХ      = ОБСТ:ПГ

                    ХОЗ   =  ГЛ; <CУЩ

                    ЗАВ   =  > СУЩ

                 CемО= ЛОК[рядом]

Хотя в основном этот словарь содержит предлоги, в него включены  такие устойчивые словосочетания как “на границе”, “в центре”, поскольку  подобные обороты часто используются для  выражения географических отношений. На сегодняшний момент словарь “Локативные отношения” содержит 30 входов.

 

    2) “Географические категории"  - словарь семантического толка.

    Существуют два  главных  отборочных принципа,  которые  определяют,  нужно ли включать тот или иной оборот (или просто слово) в словарь, это:

    1) географичность;

    2) категориальность.

   Мы считаем слово географичным, если оно способно обозначать географический объект.  Под географическим объектом (ГО) мы  будем  понимать часть нашего трехмерного пространства,  имеющую постоянные координаты.Например,  птица и человек - не ГО, так как они способны перемещаться, а гора и океан - ГО.  В словарь не включаются географические объекты, которые меньше, чем обыкновенный дом.  Таким образом, мы ограничиваем снизу размеры всех ГО.

Категориальность понимается нами как способность слова обозначать

целый класс  ГО,  имеющих  нечто общее между собой.  Если сравнить два

слова: "город" и "Можайск", то "город" будет категориальным (это слово применимо к многим объектам), тогда как слово "Можайск" обозначает всего один ГО(1).  Все некатегориальные (конкретные) названия ГО включены в другую базу данных.

Обрисуем теперь в общих чертах организацию одной  словарной  статьи нашего словаря.

Каждому входу приписаны некоторые характеристики,  описывающие слова как с языковой стороны,  так и с энциклопедической. Кроме этого, слова могут  быть связаны между собой отношениями,  которые грубо можно разбить на те же две группы: языковую и энциклопедическую.

Языковые сведения,  описывают  поведение слова в тексте и в языке. Такая информация позволяет распознавать слова и связывать их с другими словами. Здесь задаются производность, предлог, который чаще всего управляет этим словом, лексические функции,  и прочее.

Энциклопедическая информация нужна для выявления более глубоких закономерностей,  описывающих уже не слово,  а объект,  обозначаемый им.Например,  для  реки  и моря должно быть указано,  что они относятся к водным объектам.

Языковая и энциклопедическая части взаимно дополняют друг друга, но, важно отметить,  что без тщательной разработки языковой части энциклопедические сведения могут оказаться бесполезными.

В целом, этот словарь похож на РОСС[3], из которого явно заимствована  не  только его структура,  но и львиная доля полей.   Так что для лучшего понимания сути дела предпочтительно сначала ознакомиться с описанием словаря РОСС[3].

Что касается статистической стороны дела, то, по нашим данным, слов с подобным общим географическим значением в русском языке  порядка 300 штук.

 

3)  Структура словаря “Конкретные географические названия” почти полностью совпадает со словарем, описанном в предыдущем пункте,  за исключением  того, что теперь в каждую статью включена ссылка на соответствующее категориальное слово. Например,  статья слова “Можайск” ссылается на статью слова “город”. В случае географической многозначности слова (например, “Москва” – город или река)  составляются статьи для каждого значения отдельно.

    База данных  “Конкретные географические названия” насчитывает сейчас порядка 6000 входов.

    В целом принципиальная организация географической словарной информации полностью укладывается  в схему лингвистической базы знаний, описанной в[2].

 

 

Литература

 

[1]  Леонтьева Н.Н.. "Политекст": информационный анализ политических текстов. - НТИ, сер.2, N4, с.5-18. 1995.

[2]  Кандрашина Е.Ю., Литвинцева Л.В., Поспелов Д.А. Представление знаний о времени и пространстве в интеллектуальных системах/Под редакцией Д.А. Поспелова. - Москва, Наука. - 1989. - 328 с.

[3]  Леонтьева Н.Н.  Русский общесемантический словарь (РОСС): структура, наполнение. // НТИ. Сер. 2. - 1997. - N 12. - С.5-20.