АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии   ^

Тезаурусы

Тезаурусы

Локативный тезаурус

Финансовый тезаурус

Компьютерный тезаурус

 

Тезаурусы ^

В отличие от семантических словарей, которые предназначены для подробного описания  общей лексики, тезаурусы созданы для хранения и классификации предельно конкретных слов и словосочетаний. Например, слово вещество находится в словаре РОСС , а все названия химических соединений уже в тезаурусе. 

Изначально в системе ПОЛИТЕКСТ (подробнее Лукашевич[1995,1997]) тезаурусы хранили  слова и словосочетания, которые назывались текстовыми входами, объединенные в синонимические множества наподобие synset  в тезаурусе WordNet.  Такие синонимические множества назывались концептами. Концепты были связаны друг с другом отношениями ВЫШЕ (Х,Y), ЧАСТЬ(Х,Y).

Тезаурусы системы ДИАЛИНГ построены на тех же  основаниях, что и тезаурусы системы ПОЛИТЕКСТ, при этом они обладают двумя новшествами:

  1. Каждому текстовому входу приписана синтаксическая модель. Для каждой модели указаны:
    1. Набор пар вида <часть речи, перечень граммем>. Каждая пара соответствует одной атомарной группе (слово или  устойчивый оборот). В перечень граммем включаются только самые необходимые граммемы, без которых нельзя распознать текстовый  вход в тексте. Например, текстовому  входу Южная Америка будет приписан набор <<П,>, <С,>>. Перечень грамемм для обеих атомарных групп пуст, так как для них нет обязательных граммем.
    2. Набор синтаксических отношений вида r(х,y), где x,y – числа от 1 до n, равном количеству атомарных  групп. Синтаксическое отношение r может быть с_опр(согласование по роду, числу и падежу), с_соч (согласование по падежу) и упр. Например, текстовому  входу Южная Америка будет приписано ровно одно отношение: c_опр(2,1), что означает, что слова Америка и Южная должны быть согласованы по роду, числу и падежу.
    3. Набор синтаксических групп вида ГР(х,y), где x,y – числа от 1 до n, равном кол-ву атомарных  групп. ГР – название синтаксической группы, x и y начало и конец группы,  которую должен построить синтаксический анализ. Например, текстовому входу Южная Америка будет приписана группа ПРИЛ-СУЩ (1,2).

      Синтаксические модели необходимы для более точного распознавания текстовых входов. Понятно, что набор синтаксических отношений и синтаксических групп взаимозаменяем.

  2. Каждому текстовому входу может быть приписана словарная статья, которая раскрывает все семантические отношения внутри текстового входа, а также все внешние валентности этого текстового входа. Словарная статья записывается в формате статей словаря РОСС.

Принципиально, выразительные силы тезауруса и семантического словаря равны, поскольку отношения ВЫШЕ, ЧАСТЬ могут быть записаны в словарной статье, а в обратную сторону это верно, поскольку для любого текстового входа может быть составлена статья.

Все тезаурусы подключены на этапе синтаксического анализа, который, используя синтаксическую модель, обнаруживает и помечает эти единицы в тексте.

Все термины из тезаурусов считаются безусловными открытыми словосочетаниями.

К сказанному нужно добавить, что тезаурус также используется для перевода с русского языка на английский и наоборот. Текстовые входы разных языков, которые являются переводами друг друга, включены в один концепт.

Стоит отметить еще одно важное теоретическое различие в понимании тезаурусов в ПОЛИТЕКСТ и ДИАЛИНГ. Тезаурус системы ПОЛИТЕКСТ (Лукашевич[1995,1997]) создавался для построения поискового образа политических документов. Этот тезаурус обладает огромным размером (примерно 150 тысяч концептов), и в нем содержатся очень длинные цепочки отношений между концептами. Но как уже было сказано выше (параграф "Онтология системы Микрокосмос"), мы считаем, что транзитивность в языке работает только на коротких дистанциях (два-три шага), поэтому построение тезаурусов огромных размеров представляется излишним.

 

Локативный тезаурус ^

Следуя Шалимову[1996] и Сокирко[1996], локативные слова делятся на слова-категории и слова, связанные с конкретными географическими объектами. Мы считаем слово географичным, если оно способно обозначать географический объект.  Под географическим объектом (ГО) мы  будем  понимать часть нашего трехмерного пространства,  имеющую постоянные координаты.Например,  птица и человек - не ГО, так как они способны перемещаться, а гора и океан - ГО.  В ГО не включаются те объекты, которые меньше, чем обыкновенный дом.  Таким образом, мы ограничиваем снизу размеры всех ГО.

Слов-категорий (например: город, деревня,  гора...)  в русском языке около 250.  Для каждого такого слова-категории составляется полноценная словарная статья  в формате РОСС. Для слов-категорий  можно выделить шаблонную статью:

КАТ   = 1 ЭТК.ОБ
ГХ    = 1  СУЩ:ИГ
СХ    = 1 ГЕОГР
ВАЛ   =  ЧАСТЬ, С, А1
         ИМЯ , А2 , С 
ГХ1   = 1 к_доп:Р
ГХ2   = 1 прим_опр:И

Такие статьи разрешают контексты типа  Город Одинцово Московской области.

  • Слова-категории противопоставлены  конкретным географическим названиям типа Одинцово, Москва и т.д.

    Все географические названия помещены в географический тезаурус, в котором каждый текстовый вход  характеризуется обычно следующими параметрами:

  • Слово-категория, к которому восходит данный текстовый вход, например:  ВЫШЕ(город, Свердловск),   ВЫШЕ(река, Волга).
  • Лексические функции, которые можно взять от этого текстового входа. Например: A0(Свердловск) = свердловский, Inhabit(Москва) =  москвич.
  • Географический объект, частью которого является объект, обозначаемый данным входом.  Например, ЧАСТЬ(Москва, Россия).

Поскольку любое слово ЭТК.ОБ  может быть употреблено в локативном значении, в семантическом анализе  в некоторых случаях (см.ниже в параграфе "Установление отношений  между локативными  узлами") слова ЭТК.ОБ приравниваются  к географической  группе.

Для локативной предметной области введены особые семантические характеристики:

  • ПОЧВ_РАСТ (болото,  лес, поляна...);
  • ТВЕРД (остров, гора, впадина...);
  • ВОДН (река,  запруда, океан...).

Кроме этого, для локативов используются следующие СХ из основного набора:

  • АРТ (канал, город...);
  • ОРГ (город, станция, монастырь...);
  • МНОГ (горный массив, архипелаг...);
  • ПРОТЯЖ (берег, река, граница...).

Сложные синтаксические конструкции, обозначающие географическое место (например, точная запись адреса или маршрута движения), в проекте ДИАЛИНГ не рассматривались. Но можно с уверенностью сказать, что они проще темпоральных конструкций, и поэтому не потребуют более сложного аппарата, чем тот, который уже имеется.

 

Финансовый тезаурус ^

Финансовый тезаурус содержит сейчас около 2500 концептов. Его формальная структура стандартна. Вкратце опишем содержание финансового тезауруса.

Содержание тезаурусов мы будем описывать с помощью множества корневых концептов. Это множество состоит из концептов, в которые не входит ни одна стрелка [1].

Ниже будет дан перечень корневых концептов финансового тезауруса. Из перечня будет  видно, что все корневые концепты можно перевести в семантические характеристики. Таким образом, самая абстрактная часть тезауруса совпадает с общесемантической классификацией.

Основные корневые концепты Первичная семантическая интерпретация Примеры
организация СХ = ОРГ банк, арбитражный суд
должность СХ =ДОЛЖ министр, член совета директоров банка
профессия СХ =ДОЛЖ бухгалтер, налоговый инспектор
деятельность КАТ = ЭТК.СИТ эмиссия, фьючерсная сделка
ситуация КАТ = ЭТК.СИТ финансовая стабилизация, бум капиталовложений
средство СХ = СРЕДСТВО деньги, резервная наличность
документ СХ = НОСИНФ страховой полис, налоговая декларация
система СХ = АБСТР депозитарная система, реальный сектор экономики

 

Компьютерный тезаурус ^

Компьютерный тезаурус содержит сейчас около 1500 концептов. Ниже приведем перечень корневых концептов компьютерного тезауруса

Основные корневые концепты Первичная семантическая интерпретация Примеры
электронная информация СХ = ИНФ база данных, программа, файловая система
устройство СХ =УСТР компьютер, принтер
деталь устройства СХ=Д-УСТР процессор, клавиатура, мышь
носитель информации СХ = НОСИНФ память, жесткий диск
должность СХ = ДОЛЖ модератор, системный администратор, пользователь
действия КАТ = ЭКТ.СИТ форматирование, перезагрузка, архивирование

 

[1] Непустота множества корневых концептов вытекает из того, что в тезаурусе запрещены циклы.

главная о нас продукты скачать  демо технологии   ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.