главная о нас продукты скачать демо технологии ^
Тезаурусы
Локативный тезаурус
Финансовый тезаурус
Компьютерный тезаурус
В отличие от семантических словарей, которые предназначены для
подробного описания общей лексики,
тезаурусы созданы для хранения и классификации предельно конкретных слов и
словосочетаний. Например, слово вещество
находится в словаре РОСС , а все названия химических соединений уже в
тезаурусе.
Изначально в системе ПОЛИТЕКСТ (подробнее Лукашевич[1995,1997])
тезаурусы хранили слова и
словосочетания, которые назывались текстовыми входами, объединенные в
синонимические множества наподобие synset
в тезаурусе WordNet. Такие
синонимические множества назывались концептами. Концепты были связаны
друг с другом отношениями ВЫШЕ (Х,Y), ЧАСТЬ(Х,Y).
Тезаурусы системы ДИАЛИНГ построены на тех же основаниях, что и тезаурусы системы
ПОЛИТЕКСТ, при этом они обладают двумя новшествами:
- Каждому текстовому входу
приписана синтаксическая модель. Для каждой модели указаны:
-
Набор пар вида <часть речи,
перечень граммем>. Каждая пара соответствует одной атомарной группе (слово
или устойчивый оборот). В перечень
граммем включаются только самые необходимые граммемы, без которых нельзя
распознать текстовый вход в тексте.
Например, текстовому входу Южная Америка будет приписан набор
<<П,>, <С,>>. Перечень грамемм для обеих атомарных групп
пуст, так как для них нет обязательных граммем.
- Набор синтаксических отношений вида r(х,y), где x,y – числа
от 1 до n, равном количеству атомарных
групп. Синтаксическое отношение r может быть с_опр(согласование по роду, числу и падежу), с_соч (согласование по падежу) и упр. Например, текстовому
входу Южная Америка будет
приписано ровно одно отношение: c_опр(2,1),
что означает, что слова Америка и Южная должны быть согласованы по роду,
числу и падежу.
- Набор синтаксических групп вида ГР(х,y), где x,y – числа от 1
до n, равном кол-ву атомарных групп. ГР
– название синтаксической группы, x и y начало и конец группы, которую должен построить синтаксический
анализ. Например, текстовому входу Южная
Америка будет приписана группа ПРИЛ-СУЩ (1,2).
Синтаксические модели необходимы для более точного распознавания
текстовых входов. Понятно, что набор синтаксических отношений и синтаксических
групп взаимозаменяем.
- Каждому текстовому входу может быть приписана словарная
статья, которая раскрывает все семантические отношения внутри текстового входа,
а также все внешние валентности этого текстового входа. Словарная статья
записывается в формате статей словаря РОСС.
Принципиально, выразительные силы тезауруса и семантического
словаря равны, поскольку отношения ВЫШЕ, ЧАСТЬ могут быть записаны в словарной
статье, а в обратную сторону это верно, поскольку для любого текстового входа
может быть составлена статья.
Все тезаурусы подключены на этапе синтаксического анализа,
который, используя синтаксическую модель, обнаруживает и помечает эти единицы в
тексте.
Все термины из тезаурусов считаются безусловными открытыми
словосочетаниями.
К сказанному нужно добавить, что тезаурус также используется для
перевода с русского языка на английский и наоборот. Текстовые входы разных
языков, которые являются переводами друг друга, включены в один концепт.
Стоит отметить еще одно важное теоретическое различие в
понимании тезаурусов в ПОЛИТЕКСТ и ДИАЛИНГ. Тезаурус системы ПОЛИТЕКСТ
(Лукашевич[1995,1997]) создавался для построения поискового образа политических
документов. Этот тезаурус обладает огромным размером (примерно 150 тысяч
концептов), и в нем содержатся очень длинные цепочки отношений между
концептами. Но как уже было сказано выше (параграф "Онтология системы
Микрокосмос"), мы считаем, что транзитивность в языке работает только на
коротких дистанциях (два-три шага), поэтому построение тезаурусов огромных
размеров представляется излишним.
Следуя Шалимову[1996] и Сокирко[1996], локативные слова делятся
на слова-категории и слова, связанные с конкретными географическими объектами.
Мы считаем слово географичным, если оно способно обозначать географический
объект. Под географическим объектом
(ГО) мы будем понимать часть нашего трехмерного пространства, имеющую постоянные координаты.Например, птица
и человек - не ГО, так как они
способны перемещаться, а гора и океан - ГО. В ГО не включаются те объекты, которые меньше, чем обыкновенный
дом. Таким образом, мы ограничиваем
снизу размеры всех ГО.
Слов-категорий (например: город,
деревня, гора...) в русском языке около 250. Для каждого такого слова-категории
составляется полноценная словарная статья
в формате РОСС. Для слов-категорий
можно выделить шаблонную статью:
КАТ = 1 ЭТК.ОБ
ГХ = 1 СУЩ:ИГ
СХ = 1 ГЕОГР
ВАЛ = ЧАСТЬ, С, А1
ИМЯ , А2 , С
ГХ1 = 1 к_доп:Р
ГХ2 = 1 прим_опр:И
Такие статьи разрешают контексты типа Город Одинцово Московской
области.
Поскольку любое слово ЭТК.ОБ
может быть употреблено в локативном значении, в семантическом
анализе в некоторых случаях (см.ниже в
параграфе "Установление
отношений между локативными узлами") слова ЭТК.ОБ приравниваются к географической группе.
Для локативной предметной области введены особые семантические
характеристики:
-
ПОЧВ_РАСТ (болото, лес, поляна...);
-
ТВЕРД (остров,
гора, впадина...);
-
ВОДН (река, запруда, океан...).
Кроме этого, для локативов используются следующие СХ из
основного набора:
-
АРТ (канал, город...);
-
ОРГ (город,
станция, монастырь...);
-
МНОГ (горный
массив, архипелаг...);
-
ПРОТЯЖ (берег,
река, граница...).
Сложные синтаксические конструкции, обозначающие географическое
место (например, точная запись адреса или маршрута движения), в проекте ДИАЛИНГ
не рассматривались. Но можно с уверенностью сказать, что они проще темпоральных
конструкций, и поэтому не потребуют более сложного аппарата, чем тот, который
уже имеется.
Финансовый тезаурус содержит сейчас около 2500 концептов. Его
формальная структура стандартна. Вкратце опишем содержание финансового
тезауруса.
Содержание тезаурусов мы будем описывать с помощью множества корневых
концептов. Это множество состоит из концептов, в которые не входит ни одна
стрелка [1].
Ниже будет дан перечень корневых концептов финансового
тезауруса. Из перечня будет видно, что
все корневые концепты можно перевести в семантические характеристики. Таким
образом, самая абстрактная часть тезауруса совпадает с общесемантической классификацией.
Основные корневые концепты |
Первичная семантическая интерпретация |
Примеры |
организация |
СХ = ОРГ |
банк,
арбитражный суд |
должность |
СХ =ДОЛЖ |
министр,
член совета директоров банка |
профессия |
СХ =ДОЛЖ |
бухгалтер, налоговый инспектор |
деятельность |
КАТ = ЭТК.СИТ |
эмиссия,
фьючерсная сделка |
ситуация |
КАТ = ЭТК.СИТ |
финансовая стабилизация, бум капиталовложений |
средство |
СХ = СРЕДСТВО |
деньги,
резервная наличность |
документ |
СХ = НОСИНФ |
страховой полис, налоговая декларация |
система |
СХ = АБСТР |
депозитарная система,
реальный сектор экономики |
Компьютерный тезаурус содержит сейчас около 1500 концептов. Ниже
приведем перечень корневых концептов компьютерного тезауруса
Основные корневые концепты |
Первичная семантическая интерпретация |
Примеры |
электронная информация |
СХ = ИНФ |
база данных, программа, файловая система |
устройство |
СХ =УСТР |
компьютер, принтер |
деталь устройства |
СХ=Д-УСТР |
процессор, клавиатура, мышь |
носитель информации |
СХ = НОСИНФ |
память, жесткий диск |
должность |
СХ = ДОЛЖ |
модератор, системный администратор, пользователь |
действия |
КАТ = ЭКТ.СИТ |
форматирование, перезагрузка, архивирование |
[1] Непустота
множества корневых концептов вытекает из того, что в тезаурусе запрещены циклы.
главная о нас продукты скачать демо технологии ^ |