главная о нас продукты скачать демо технологии ^
Диссертация А.Сокирко "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)" |
Введение
Глава 1. Обзор литературы
Глава 2. Досемантический анализ русского текста
Глава 3. Первичный семантический анализ русского текста
Русский общесемантический словарь
Семантическое отношение (поле ВАЛ, ДОП)
Общая категоризация лексики
Семантические характеристики
Взаимосвязи семантических характеристик
Формат словарных статей
Примеры словарных статей для некоторых классов слов (шаблонные статьи)
Иерархия семантических отношений
Множественные актанты (МНА)
Словосочетания в проекте ДИАЛИНГ
Словарь оборотов
Словарь групп времени (TimeRoss)
Тезаурусы
Локативный тезаурус
Финансовый тезаурус
Компьютерный тезаурус
Словарь устойчивых словосочетаний
Первичный семантический анализ
Введение
Вход семантического анализа
Выход семантического анализа
Алгоритм поверхностно семантического анализа
Общая схема работы
Инициализация семантических узлов и синтаксических вариантов фрагментов
Построение множества словарных интерпретации узлов
Построение групп времени
Построение узлов в кавычках
Построение узлов типа "друг друга"
Подключение операторов типа не, только
Построение устойчивых словосочетаний
Построение лексических функций-параметров
Установление отношений между локативными узлами
Интерпретация тезаурусных должностей и организаций
Процедура инициализации валентной структуры
Процедура построения графа гипотетических связей
Построение множественных актантов
Процедура удаления длинных связей
Процедура построения вариантов деревьев
Оценка деревьев
Проверка отношений по семантическим характеристикам
Проективность деревьев
Нарушение первой валентности (FirstValencyViolationCoef) и валентности из добавочных статей (RelationsNotFromRossCount)
Построение отношений по умолчанию
Межклаузные связи
Правило восстановления анафорических местоимений
Глава 4. Синтез английского текста
Заключение
Литература
Выступление на защите
Глава 3. Первичный семантический анализ русского текста |
^ |
|
Русский общесемантический словарь |
^ |
В нашем варианте системы Русский семантический словарь включает семантическое описание около пяти
тысяч полнозначных лексем. Словарь создавался коллективом под руководством
д.т.н. Н.Н.Леонтьевой как инструмент построения Базы текстовых фактов
(подробнее см. Леонтьева[1990, 1995, 1997]).
Для каждой лексемы в
словаре указаны разные характеристики
слова, среди них следующие:
-
Семантический класс лексемы (набор семантических
характеристик);
- Грамматический класс лексемы;
-
Валентная
структура лексемы (в терминах семантических отношений);
-
Семантические и грамматические ограничения на
выражение каждого актанта из валентной структуры;
-
Английские эквиваленты лексемы.
Стоит сказать, что разработка семантического языка (аппарата),
на котором записан Русский общесемантический словарь
(РОСС), началась довольно давно (Леонтьева [1967]). Этот же язык использовался
для системы французско-русского перевода (ФРАП (1976-1986)). Словарь РОСС был разработан в системе ПОЛИТЕКСТ
(1991-1997). Таким образом, системы ФРАП, ПОЛИТЕКСТ и ДИАЛИНГ используют один и тот же семантический аппарат.
Подробное описание семантического словаря и семантического
аппарата можно найти в работах Леонтьева[1990, 1995, 1997], мы же остановимся
лишь на тех принципиальных его свойствах, без которых невозможно дальнейшее
описание.
Основополагающим семантическим
понятием в используемом нами аппарате считается семантическое отношение.
Семантическое отношение - это некая
универсальная связь, усматриваемая носителем языка в тексте. Эта связь бинарна, т.е. она идет от одного семантического узла к
другому узлу [1]
Формат записи семантического отношения следующий:
R(А,B), где R –
название семантического отношения, А – зависимый член отношения, B –
управляющий член отношения.
Для конкретных А,B и отношения R направление выбирается таким
образом, чтобы формула R(А,B) была эквивалентна утверждению, что "А является R
для B". Соответственно, формула R(B,А)
должна быть эквивалентна утверждению "B является R для А". Например, для фразы роман Толстого будет построена формула АВТОР(Толстой, роман),
а не наоборот, потому что верно утверждение "Толстой является АВТОРом романа", а не наоборот. Вследствие этого в формуле
R(А,B) будем иногда отождествлять R с А.
Семантическое отношение формирует и организует текст. По замыслу
создателей этого набора семантических отношений, практически любые связи между
частями текста, которые необходимо выявить при машинном анализе текста, можно
выразить каким-нибудь семантическим отношением или их композицией, например, во
фразе взрыв произошел в два часа ночи выявляется
семантическое отношение между ситуацией
‘quot;взрыв’quot; и параметром ‘quot;два часа ночи’quot;, которое называется
ВРЕМЯ. Это записывается следующим образом: ВРЕМЯ(‘quot;в два часа ночи’quot;, ‘quot;взрыв’quot;).
Среди семантических отношений достаточно много таких, которые
сейчас уже повсеместно считаются универсальными. Ниже будут перечислены
семантические отношения, используемые в системе ДИАЛИНГ:
Название |
Примеры |
Структура |
АВТОР |
Роман Толстого Указ Президента |
АВТОР(ТОЛСТОЙ,РОМАН) АВТОР(ПРЕЗИДЕНТ,УКАЗ) |
АГЕНТ |
Мы сократили отставание |
АГЕНТ(МЫ,
СОКРАТИТЬ) |
АДР |
Я отдал стул отцу. |
АДР(ОТЕЦ,ОТДАВАТЬ) |
В-НАПР |
указатель на Монино |
В-НАПР(МОНИНО,УКАЗАТЕЛЬ) |
ВРЕМЯ |
Это произошло вчера. |
ВРЕМЯ(ВЧЕРА,
ПРОИЗОЙТИ) |
ЗНАЧ |
Высота дома – 20 метров. |
ЗНАЧ(20
МЕТРОВ, ВЫСОТА) |
ИДЕНТ |
Дом N 20 |
ИДЕНТ
(N 20, ДОМ) |
ИМЯ |
Дворник Степанов |
ИМЯ(СТЕПАНОВ,ДВОРНИК) |
ИНСТР |
резать ножом |
ИНСТР(НОЖ,РЕЗАТЬ) |
ИСХ-Т |
яблоки из Молдавии |
ИСХ-Т(МОЛДАВИЯ,
ЯБЛОКИ) |
К-АГЕНТ |
купил у старьевщика |
К-АГЕНТ(СТАРЬЕВЩИК,КУПИТЬ) |
КОЛИЧ |
два яблока |
КОЛИЧ(ДВА,
ЯБЛОКО) |
КОН-Т |
уехать в Москву |
КОН-Т(МОСКВА,
УЕХАТЬ) |
ЛОК |
жить в глуши |
ЛОК(ГЛУШЬ,
ЖИТЬ) |
МАСШТ |
Банк России |
МАСШТ(РОССИЯ,
БАНК) |
МАТЕР |
сумка из кожи |
МАТЕР(КОЖА,СУМКА) |
НАЗН |
книга для детей |
НАЗН(ДЕТИ,
КНИГА) |
ОБ |
уничтожить мост |
ОБ(МОСТ,УНИЧТОЖИТЬ) |
ОГРН |
выделять по возрасту |
ОГРН(ВОЗРАСТ,ВЫДЕЛЕНИЕ) |
ОЦЕНКА |
хорошо относиться |
ОЦЕНКА(ХОРОШО,
ОТНОСИТЬСЯ) |
ПАРАМ |
высота дома |
ПАРАМ(ВЫСОТА,
ДОМ) |
ПАЦИЕН |
арест преступника |
ПАЦИЕН(ПРЕСТУПНИК,
АРЕСТ) |
ПОСРЕД |
закончить доклад анекдотом |
ПОСРЕД(АНЕКДОТ,
ЗАКОНЧИТЬ) |
ПРИЗН |
красивый шар |
ПРИЗН(КРАСИВЫЙ,
ШАР) |
ПРИНАДЛ |
дом отца |
ПРИНАДЛ(ДОМ,ОТЕЦ,) |
ПРИЧ |
деревья повалены ураганом |
ПРИЧ(УРАГАН,ПОВАЛИТЬ) |
РЕЗЛТ |
испечь пирог |
РЕЗЛТ(ПИРОГ,ИСПЕЧЬ) |
СОДЕРЖ |
рассказать о весне |
СОДЕРЖ(ВЕСНА,РАССКАЗАТЬ) |
СПОСОБ |
идти босиком |
СПОСОБ(БОСИКОМ,
ИДТИ) |
СРЕДСТВО |
красить белилами |
СРЕДСТВО(БЕЛИЛО,
КРАСИТЬ) |
СТЕПЕНЬ |
весьма преуспеть |
СТЕПЕНЬ(ВЕСЬМА,
ПРЕУСПЕТЬ) |
СУБ |
любовь отца |
СУБ(ОТЕЦ,
ЛЮБОВЬ) |
ТЕМА |
говорить о Москве |
ТЕМА(МОСКВА,ГОВОРИТЬ) |
ЦЕЛЬ |
забастовка в целях повышения зарплаты |
ЦЕЛЬ
(ПОВЫШЕНИЕ, ЗАБАСТОВКА) |
ЧАСТЬ |
ножка стула |
ЧАСТЬ(НОЖКА,
СТУЛ) |
Как уже было сказано, многие из вышеперечисленных отношений
можно найти в других лингвистических
теориях. Для подтверждения последнего утверждения мы разберем примеры использования семантических ролей в
одной статье Падучевой[1998].
Автор этой статьи использует почти такие
же отношения, но под другими названиями.
Ниже мы приведем таблицу соответствия семантических отношений систем
ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ и сем. ролей Е.В.Падучевой:
Падучева |
Пример |
ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ |
Агенс |
Иван приехал |
АГЕНТ (Иван, поехать) |
Конечный пункт |
приехал в Варшаву |
КОН-Т(Варшава, приехать) |
Адресат |
сказать отцу |
АДР(отец, сказать) |
Степень |
наполнить полностью |
СТЕПЕНЬ(полностью, наполнить) |
Направление движения |
поехать направо |
В-НАПР(направо, поехать) |
Исходный пункт |
приехать из Москвы |
ИСХ-Т(Москва, приехать) |
Пациенс |
съесть яблоко |
ПАЦИЕН(яблоко, съесть) |
Место |
банка кишела |
ЛОК(банка, кишеть) |
Содержание |
чтение нравится ему |
СОДЕРЖ(чтение, нравиться) |
Посессор |
борода Ивана |
ПРИНАДЛ(борода, Петр) |
Инструмент |
открывать ключом |
ИНСТР(ключ, открывать) |
Результат |
резать на куски |
РЕЗЛТ(куски, резать) |
Приведем еще один перечень семантических отношений из книги
Апресян[1995]:
Апресян |
Пример |
ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ |
Sub(субъект) |
поезд движется |
СУБ (Поезд, двигаться) |
Contrag (контрагент) |
покупать у старьевщика |
К-АГЕНТ (старьевщик, покупать) |
Cap (глава) |
вина перед коллективом |
|
Obj (объект) |
гладить руку, стрелять в мишень |
ОБ(рука, гладить)КОН-Т (мишень, стрелять) |
Content (содержание) |
знать об отъезде |
СОДЕРЖ(отъезд, знать) |
Adr (адресат) |
сообщать президенту |
АДР (президент, сообщать) |
Recip (получатель) |
давать детям, дарить людям |
АДР (дети, давать)АДР (люди, дарить) |
Via (посредник) |
передовать через
секретаря |
ПОСРЕД(секретарь, передавать) |
Is (источник) |
брать в кассе |
ИСХ-Т (касса, брать) |
Loc (место) |
находиться в лесу |
ЛОК(лес, находиться) |
Ab (начальная точка) |
вывести из леса |
ИСХ-Т(лес, вывести) |
Ad (конечная точка) |
везти в город |
КОН-Т(город, везти) |
Itin (маршрут) |
идти по дороге |
|
Med (средство) |
прибивать гвоздями |
СРЕДСТВО (гвозди, прибивать) |
Instr (инструмент) |
резать ножом |
ИНСТР (нож, резать) |
Mod(способ) |
обращаться плохо |
АСПЕКТ (плохо, обращаться) |
Cond (условие) |
если P, то Q |
УСЛ (P,Q) |
Motiv(мотивировка) |
награждать за храбрость |
ПРИЧ(храбрость, награждать) |
Caus (причина) |
радоваться подарку, проистекать из-за Q |
ПРИЧ (подарок, радоваться) ПРИЧ(Q, проистекать) |
Result (результат) |
превращать в воду |
РЕЗЛТ(вода, превращать) |
Dest (цель) |
стремиться к общему благу |
ЦЕЛЬ (благо, стремиться) |
Asp (аспект) |
превосходить по качеству |
ОГРН (качество, превосходить) |
Quant (количество) |
пять человек |
КОЛИЧ(пять, человек) |
Period (срок) |
отпуск на два месяца |
ВРЕМЯ (на два месяца, отпуск) |
Temp (время) |
начаться в полночь |
ВРЕМЯ (полночь, начаться) |
Все примеры, приведенные в статье Падучевой[1998] и книге
Апресяна[1995], не противоречат ни примерам, данным нами выше, ни нашему пониманию
семантических валентностей. Это достаточно весомый аргумент в пользу
универсальности используемого нами перечня семантических отношений.
Несмотря на общепризнанность,
рассматриваемый набор семантических отношений обладает одним
недостатком: одни отношения похожи на другие, но показать их сходство и
различие достаточно трудно. О некоторых, например, можно сказать, что они являются разновидностями других, а
именно:
-
АГЕНТ, АВТОР – разновидности СУБ;
-
КОН-Т, ИСХ-Т – разновидности ЛОК.
Другие корелляции между семантическими
отношениями будут рассмотрены в параграфе "Иерархия семантических отношений".
В системе ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ кроме семантически
наполненных отношений, перечисленных
выше, есть еще два вспомогательных
отношения П_АКТ и В_АКТ (первый и второй актанты), которые используются для
описания валентных структур слов-отношений (см. ниже "Общая категоризация
лексики"). Например, слову часть(которое
обозначает отношение ЧАСТЬ) будут
приписаны валентности П_АКТ и В_АКТ, которые должны исчезнуть на этапе
семантического анализа. Например, для фразы Москва
– часть России сначала будет построено: П_АКТ(Москва, часть), В_АКТ(Россия,
часть), что потом перейдет в формулу ЧАСТЬ(Москва, Россия).
Основными семантическими классами лексемы считаются ЭТК.ОБ,
ЭТК.СИТ, ЭТК, ОТН, ОПЕР.
Принципиальное разделение между ЭТК.ОБ и ЭТК.СИТ заключается в
том, что лексемы ЭТК.ОБ обычно выполняют роль участников ситуации, которые
обозначают слова категории ЭТК.СИТ. Например, в ситуации точить (ЭТК.СИТ) может быть участвовать объект напильник (ЭТК.ОБ) и объект рабочий(ЭТК.ОБ).
Для ситуаций определено место и время, что в тексте означает,
что слова ЭТК.СИТ могут свободно принимать обстоятельства места и времени.
Например, фраза Рабочий точил деталь
напильником может разрастись до фразы Вчера в цеху
рабочий точил деталь напильником.
Однако в предложении, в котором
встречается более одного слова ЭТК.СИТ, часто возникает неоднозначность,
когда неясно, какую ситуацию уточняет
обстоятельство места или времени (см. ниже).
Слова с категорией ЭТК – это пограничный случай между ЭТК.ОБ и
ЭТК.СИТ. Например, абстрактные слова
типа коммунизм.
Слова с категорией ОТН – слова, обозначающие семантические
отношения. Например, слова часть, признак.
Слова с категорией ОПЕР не имеют собственного смысла, а лишь
модифицируют уже существующее семантическое пространство. Например, слова не, еще, уже и т.д.
Разделение лексики по категориям можно использовать в самых
разных ситуациях, например, для сборки однородных именных групп. По нашим
расчетам, в 90 процентах однородных именных групп члены однородного ряда имеют одну и ту же
категорию. То есть для научно-технического текста случаи однородного ряда типа Володя и революция (ЭТК.ОБ и ЭТК.СИТ)
маргинальны.
Семантические характеристики (СХ) в словаре РОСС играют
важнейшую роль в семантическом описании слов. В словаре РОСС семантических
характеристик около 40. Из СХ строятся формулы (с логическими связками и, или).
Каждому слову приписана некоторая формула, составленная из СХ.
Также для каждого слова фиксируется валентная структура
<A1,...,A7>, где Аi - описание актанта, которое
является парой <ГХi, CХi
>, где ГХi - некое описание грамматического
выражения актанта в предложении, а CХi -
семантическое описание актанта, и CХi - формула, составленная из СХ.
Когда алгоритм пытается собрать валентную структуру слова, критерием установления связи служит
соответствие значения полей СХ и ГХ, приписанных актанту, значению полей СХi и ГХi, приписанных главному
слову. Таким образом собирается валентная структура слова.
Хотя изначально СХ вводились как простые селективные
ограничения, отбраковывающие некоторые связи, проведенные синтаксическим
анализом, теперь за каждой из них закреплено определенное значение [2]. Ниже мы приведем перечень основных СХ. Для
каждой СХ будем давать примеры слов, содержащих ее в своем значении, а также примеры слов, для которых
одна из СХi содержит эту семантическую
характеристику. Например, для СХ АРТ(артефакт) будут даны слова типа модель, памятник, которые собственно являются артефактами, и
пример выпускать машины, где второй
актант глагола выпускать может быть артефактом.
СХ |
Комментарий |
Примеры слов с таким СХ |
Примеры слов с таким СХi |
АБСТР |
Любое абстрактное существительное или
прилагательное |
модель, план,
тенденция, обстоятельство |
внедрять технологию; использовать план |
АРТ |
Артефакт. Все, что сделано человеком. |
машина, хлеб, памятник |
выпускать машины;
требование закона |
ВЕЛИЧ |
Прилагательные, образованные от
параметрических существительных и от существительных, обозначающих какое-либо
значение на параметрической шкале |
высокий,
мощный,
большой |
--- |
ВЕЩВО |
Любое название химического вещества или
того, что можно как-либо дозировать, отмерять, продавать по весу или объему. |
аммиак, бензин, ядохимикат |
вес натрия;
дом из бетона;
месторождение нефти |
ВЛАСТЬ |
Высшие государственные и военные должности
и учреждения. Любые должности, связанные
с непосредственным управлением людьми. |
генерал
президент
руководитель |
министр назначил;
Дума ратифицировала;
секретарь директора |
ВМЕСТЛ |
Все, что предназначено для содержания
чего-либо другого. |
мешок, сейф, гараж |
-- |
ВОСПР |
все глаголы и существительные восприятия |
слушать, видеть, чувствовать |
-- |
ВРЕД |
Все, к чему человек обычно относится как к
нежелательному. |
катастрофа, война, перегрузка |
устранить недостаток |
ГЕОГР |
Любой географический объект |
остров,
река |
набережная реки
впадать
море
стоять на холме |
ГОС |
Любое название государства или тип
государства |
республика, Россия |
компартия России
парламент Украины
политика США
представитель ЮАР |
ДВИЖ |
Глаголы движения (в том числе декаузативы) |
идти, ронять |
-- |
ДОЛЖ |
Должность, профессия, социальный статус |
повар, партработник |
-- |
Д-УСТР |
Деталь устройства |
карбюратор, валик |
-- |
ИЗМ |
Действия-изменения |
наращивать, реформировать, копить |
-- |
ИНТЕЛ |
все действия, непосредственно связанные с
мыслительной деятельностью |
надеяться, изучать, решать |
-- |
ИНТРВЛ |
Временной интервал |
день, неделя |
продлить на два дня;
бюджет на 2000 год |
ИНФ |
Слова, обозначающие информацию |
знание, команда, утверждение, новость |
-- |
КОММУНИК |
Глаголы речи |
выражать, выступать,
репортаж |
-- |
НОСИНФ |
Носители информации. Это можно прочесть, а
потом сжечь. |
книга, газета, заметка |
заголовок книги
публикация заметки
написать статью |
Н-ТРЕБ |
Набор требований. (разновидность НОСИНФа) |
закон
инструкция |
нарушать закон
соблюдать инструкции
отменять указ |
ОДЕЯТ |
Область деятельности |
физика, балет, быт |
министр культуры |
ОДУШ |
Семантически одушевленный объект |
папа, президент |
Отец рассказывает
любовь Ивана |
ОРГ |
Любая организация |
колхоз, школа |
актив банка
директор института
облигации банка |
ПРЕДМ |
Любой
предмет (объект, который меньше по размерам среднего человека). Часто
является АРТ.В отличие от УСТР устроен просто. |
марка, бинокль |
-- |
ПРОТЯЖ |
Протяженные географические объекты |
дорога, граница |
река впадает в море |
СОБИР |
все, что обозначает множество однотипных
объектов |
библиотека, молодежь |
-- |
СОЦ |
Любые ситуации, выходящие за пределы одной
семьи |
митинг, коррупция, олимпиада |
-- |
УСТР |
Любое устройство |
компьютер, лифт |
чинить компьютер
разобрать лифт |
ФИН |
Все, что связано с финансами |
деньги, банк, долг |
продавать за рубли
индексировать пенсию |
ХОР |
Все, что оценивается как положительное |
взаимопомощь, мужество |
-- |
ЭМОЦ |
Обычно прилагательные, которые выражают
эмоции |
мизерный, могучий, несчастный |
-- |
ЯВЛЕН |
Ситуация, для которой трудно найти причину |
смерч, терроризм |
-- |
Некоторые из перечисленных характеристик очевидно не могут
использоваться самостоятельно. Например,
характеристика СОБИР, которая обозначает множественность, должна использоваться
только с какими-то другими СХ:
СХ(библиотека) = СОБИР,
НОСИНФ
СХ(молодежь) = СОБИР,
ОДУШ.
Существует еще две несамостоятельные характеристики: ОТСУТ и КАУЗ.
Обе характеристики действуют на следующую за ними в семантической
формуле СХ. Первая из них – оператор
отрицания:
СХ(бесчувственно) =
ОТСУТ, ЭМОЦ
СХ(стоять) = ОТСУТ,
ДВИЖ.
Вторая обозначает оператор каузации:
СХ(наращивать) = КАУЗ, ИЗМ
СХ(обязывать) = КАУЗ,
МОДЛ.
Подчеркнем, что все три
"операторных" характеристики (СОБИР, КАУЗ, ОТСУТ) действуют только на первую
справа семантическую характеристику.
Некоторые характеристики можно назвать составными, т.к. их можно
выразить через другие. Например:
-
НОСИНФ = ИНФ, ПРЕДМ (носитель информации – это
предмет, содержащий информацию);
-
Н-ТРЕБ =
ВЛАСТЬ, НОСИНФ (набор требований - это
носитель информации, опубликованный агентом с пометой ВЛАСТЬ).
- Такие характеристики
используются только для удобства.
Есть характеристики,
которые являются антонимами. Использование их в одной конъюнкции запрещено.
Например:
Существуют
характеристики, которые являются разновидностями других:
-
ОРГ – разновидность ОДУШ. Таким образом, любая
организация считается семантически одушевленной;
-
ДОЛЖ
- разновидность ОДУШ;
-
Д-УСТР,УСТР – разновидности АРТ;
-
СОЦ, ФИН -
разновидности ОДЕЯТ.
Входом в словарь считается пара <слово, номер значения>.
Для каждого входа составляется словарная статья – набор пар вида <название
поля, значение поля>. Между
названием поля и его значением ставится знак "=". Название поля состоит из
собственно названия и (факультативно) некоторого набора индексов. Например:
ГХ1, СХ(1), СХ1(2) и т.д. Если поле идет без индекса, значит оно относится к
главному слову (обозначается С), если с индексом n
без скобок – значит к актанту с номером n (обозначается Аn). Значение
индекса в скобках будет объяснено в параграфе, относящемся к словарю словосочетаний.
За каждым названием поля зафиксировано некоторое значение.
Приведем перечень основных полей словаря РОСС:
Поле |
Расшифровка |
Примеры значений поля |
КАТ |
категория лексемы |
ЭТК.ОБ, ЭТК, ЭТК.СИТ... |
СХ |
семантическая характеристика слова |
ОДУШ, ФИН... |
СХ1,...,СХ7 |
семантические ограничения актантов (1,...,7) |
ОДУШ ФИН |
ГХ |
грамматическая характеристика слова |
СУЩ:ИГ
ГЛ:ГГ |
ГХ1,...,ГХ7 |
грамматические ограничения актантов |
к_доп:РОБСТ_ГР: у+Р |
ВАЛ |
валентная структура слова |
СУБ, А1, С |
ЛФ |
лексические функции [3] |
Magn : жгучий |
Для записи значения поля в словаре заданы домены (списки
констант), из которых можно собирать сложные формулы. Из констант нескольких
доменов можно собрать один т.н. элемент.
Например, элемент "к_доп:Р" собран из трех доменов
(домен синтаксических отношений, домен двоеточия и домен падежей). Ниже мы
приведем перечень основных доменов словаря РОСС:
Название домена |
Расшифровка |
Примеры |
Д_КАТ |
категория |
ЭТК.ОБ, ЭТК.СИТ,... |
Д_ГРУППЫ |
синтаксические группы |
ОБСТ_ГР, ГГ, ИГ,... |
Д_СИН_О |
синтаксические отношения |
к_доп, с_опр, п_доп, отпредик... |
Д_ЛФ |
лексические функции |
Magn, Oper, Func,... |
Д_ПАДЕЖ |
падежи |
И,Р,Д,В,Т,П |
Д_ПО |
предметная область |
фин, информ,... |
Д_ПРЕДЛОГ |
предлоги |
в,на,у,... |
Д_СЕМ_О |
семантические отношения |
СУБ, ИДЕНТ,... |
Д_СХ |
семантические характеристики |
ОДУШ,ОРГ,... |
Д_ЧАСТЬ_РЕЧИ |
часть речи |
СУЩ, ПРИЛ, НАР,... |
Д_ЧИСЛО |
грамматическое число |
ед, мн |
Д_АКТАНТЫ |
обозначение актантов и главного слова в статье |
С,А1,...,А7 |
Как уже было сказано, формат одного элемента задается набором названий доменов, который называется сигнатурой. Например, элемент СУЩ:ИГ задается сигнатурой Д_ЧАСТЬ_РЕЧИ, Д_ДВОЕТОЧИЕ,
Д_ГРУППЫ.
Теперь перейдем собственно к значениям полей. Значения полей чисто формально делятся на три
типа:
-
Одиночные (значение такого поля может состоять только из одного элемента);
-
Множественные (значением такого поля может быть набор элементов);
-
Формульное (значением такого поля может быть набор наборов элементов).
- Каждое поле приписано
ровно одному типу. Для каждого типа разработан свой формат записи.
Значение одиночного поля записывается так:
<значение поля> = элемент, например, КАТ = ЭТК.ОБ.
Значение множественного поля записывается
так:
<значение поля> = элемент
...
элемент
Например:
ВАЛ = СУБ (А1,С)
ОБ(А2,С).
Формульное
поле записывается так:
<значение поля> = 1 элемент
...
элемент,
2 элемент
...
элемент,
...
n элемент
...
элемент
Пример
значения поля СХ:
CХ = 1 ДОЛЖ
ФИН
2 ДОЛЖ
СОЦ
Здесь значение состоит из двух наборов (ДОЛЖ и ФИН) и (ДОЛЖ и
СОЦ). Считается, что в полях ГХ и СХ между наборами элементов стоит дизъюнкция,
а между элементами внутри одного набора стоит конъюнкция (за исключением случая, когда первый элемент - "операторный"
(ОТСУТ, СОБИР, КАУЗ)). Таким образом,
приведенная выше запись значения поля СХ означает, что слово С может
быть "финансовой должностью" или
"социальной должностью".
Нужно еще добавить, что символ "*" в записи значения поля
обозначает любой элемент, возможный в данной сигнатуре в этой позиции.
Полное формальное описание словарной статьи словаря РОСС
содержится в Сокирко[1997].
Шаблонная статья для некоторого класс слов - это общая часть
всех словарных статьей слов этого
класса. Перечислим некоторые из них:
-
Слова-отношения. Эти слова обозначают
семантические отношения (например, часть,
признак). Поле СХ обязательно должно
содержать название семантического отношения, к которому восходит это слово.
Поле ВАЛ должно быть таким:
ВАЛ = П-АКТ, А1, С
В-АКТ, А2, С
Второй актант этих
слов часто напрямую грамматически не выражается (как зависимый или подчиняющий
синтаксический актант), поэтому ГХ2 в этой статье отсутствует.
-
Прилагательные. Большинство прилагательных
обладают одной синтаксически пассивной валентностью на существительные, которая
переходит в отношение ПРИЗН или ОЦЕНКА. Это выражается следующей шаблонной
статьей:
КАТ = ЭТК // прилагательные все принадлежат
// категории ЭТК
ГХ = 1 ПРИЛ:с_опр // часть речи, син.роль прилагательного
ВАЛ = ПРИЗН , С , А1 // м.б., ОЦЕНКА
ГХ1 = 1 X! : ИГ // так записывается синтаксически
// пассивная валентность на именную группу
-
В словаре довольно много слов, обозначающих
должности (ДОЛЖ), например: абитуриент, авиадиспетчер, дворник и т.д.
У этих слов почти всегда есть валентность на актант ИДЕНТ или ИМЯ,
который синтаксически примыкает к
описываемой должности (дворник Иванов,
гражданин Петров и т.д.). Для таких слов шаблонная статья будет следующей:
КАТ = 1 ЭТК.ОБ
ГХ = 1 СУЩ:ИГ
СХ = 1 ДОЛЖ
ВАЛ = ИДЕНТ , А1 , С // м.б., ИМЯ
ГХ1 = 1 прим_опр : ИГ
СХ1 = 1 ОДУШ
- Еще один класс слов – переходные глаголы действия с АГЕНТ в первой валентности (косить, валить, печатать...). Эти глаголы
имеют большую лексическую наполненность. АГЕНТ в валентной структуре означает, что
первый участник контролирует ход самого действия и его результат. Вот шаблонная статья для
таких глаголов:
КАТ = 1 ЭТК.СИТ
ГХ = 1 ГЛ:ГГ
ВАЛ = АГЕНТ , А1 , С
ОБ , А2 , С
ГХ1 = 1 подл : И
СХ1 = 1 ОДУШ
ГХ2 = 1 п_доп : В
-
Класс модальных слов в РОССе.
Модальность – одно из сложнейших понятий теории языка, и здесь мы не будем
касаться вопроса определения того, что такое модальное слово. Скажем только,
что модальное слово устанавливает определенное отношение между некоторой
ситуацией и внешним или внутренним участником. Необходимость выделения
модальных слов в отдельную семантическую группу возникла из-за того, что
синтаксические средства выражения модальности крайне разнообразны.
Любому модальному слову в словаре должна быть приписана СХ МОДЛ.
У модального слова может быть три валентности: СОДЕРЖ, СУБ, ОГРН.
СОДЕРЖ – это та ситуация, которую характеризует модальное слово
по достоверности/недостоверности, возможности/невозможности, желаемости/нежелаемости и др.
СУБ – тот одушевленный участник, который находится с ситуацией в
модальном отношении. Тот, кому нужно,
хочется, необходимо, невозможно и т.д.
ОГРН – ограничение распространения модальности ситуации:
Эти статьи мне необходимы для подготовки к экзамену.
Для некоторых слов субъект модальности может являться участником
модальной ситуации, точнее, ее первым актантом, а может и не являться. Однако
есть такие модальные слова, у которых СУБ всегда является первым актантом
СОДЕРЖ (мочь, вправе, время).
У всех модальных слов в нашем понимании есть валентность СУБ,
валентности ОГРН может и не быть (хотеть,
мочь ).
Обязательной частью словарных статей для модальных слов будет:
СХ = МОДЛ
ВАЛ = СУБ , А1 , С
СОДЕРЖ , А2 , С
СХ1 = 1 ОДУШ
Кроме этого, в эти статьи часто еще входят следующие поля:
ГХ1 = 1 к_доп : Д
ГХ2 = 1 отпредик : инф
ДОП = СУБ ( А1 , А2 )
Теперь рассмотрим более
сложные случаи связей между семантическими отношениями:
АДР,
В-НАПР, КОН-Т
Все три
отношения обычно входят в валентную структуру некоторого
действия С. Общность этих отношений проявляется, например, в английском языке
на синтаксическом уровне:
I
talk to you
=> АДР(you, talk)
I go to the town => КОН-Т(town,go)
Тhe vane points to the north
=> В-НАПР(north, point)
Различие между АДР и КОН-Т заключается в том, что АДРесат – это семантически одушевленный участник ситуации
С. КОН-Т, напротив, семантически
неодушевленный участник.
Соответственно, от АДР можно ждать некоторой реакции на действие С, а от
КОН-Т - нельзя.
Предполагается, что после
завершения действия С один из участников ситуации должен переместиться в КОН-Т или в АДРесата. Для валентности В-НАПР последнее утверждение
неверно. В-НАПР указывает только направление, но не точку.
В книге Апресян[1995] предполагается, что Adr(АДР)
может быть участником только информационного процесса. В системе ДИАЛИНГ
валентность АДР понимается шире, например: помощь
врагу, награда солдату.
СПОСОБ, ИНСТР, СРЕДСТВ, ПОСРЕД
Как и в предыдущем случае, все четыре отношения обычно
используются в контексте некоторого действия С. Эти отношения часто выражаются
русским творительным или английским предлогом with:
To paint smth. with grey => СРЕДСТВО(paint,
grey)
The
warship was armed with nuclear weapons => ИНСТР(nuclear
weapons, arm)
You are
trying to prove it with your figures => СПОСОБ (figures, prove)
He
concluded his address with a poem => ПОСРЕД(poem,
conclude)
Отношение СПОСОБ – самое общее из этих четырех. ИНСТР отличается
от СРЕДСТВО тем, что СРЕДСТВО должно расходоваться в процессе выполнения
действия С, а ИНСТР - нет. ПОСРЕД – отношение, связывающее такой объект Х с
действием С, который в принципе не был
предназначен для действия С, но был в нем использован. Использование ПОСРЕД для
действия С не противоречит никаким природным законам, но в нем самом не
заложено, что он должен быть использован для Х.
ИДЕНТ,
ИМЯ
ИДЕНТ отличается от ИМЯ тем, что ИДЕНТ предполагает некоторую
уникальность среди ему похожих. В примере Дом
N 20 идентификатор N 20 обязан обеспечить только
уникальность Дома N 20 среди всех
других домов. В примере мальчик Петя, имя Петя возможно несет какие-то дополнительные коннотации. Однако
во многих случаях эти два отношения
следует приравнивать.
СУБ,
АГЕНТ
Предполагается, что АГЕНТ какой-то ситуации всегда действует с
некоторой целью. Он является либо каузатором, либо инициатором, либо каким-то
другим активным, целеполагающим участником.
СУБ не является таковым. Если АГЕНТ обычно участник действия или
процесса, то СУБ – первый актант
какой-то ситуации-состояния.
ПРИЗН,
ОЦЕНКА, ПАРАМ
ПРИЗН – наиболее общее из этих отношений. ОЦЕНКА обычно
связывается с некоторым субъективным признаком, меняющимся в зависимости от
времени, места и человека. ОЦЕНКА часто бинарна (плохо – хорошо, красиво – уродливо и т.д.).
ПАРАМ обычно связан с
числовым значением (отношение ЗНАЧ), т.е. формула ПАРАМ(А,B)
предполагает, что где-то должно быть сказано ЗНАЧ(С,А). Например, для предложения Высота дома – восемь метров, строятся две формулы ПАРАМ(высота,
дом), ЗНАЧ(восемь метров, высота). Подробнее о ПАРАМ смотри Семенова[1996].
ЦЕЛЬ,
НАЗН
Актант, заполняющий валентность НАЗН, обозначает то, зачем был
создан этот объект. Хозяин валентности
НАЗН обычно не является семантически одушевленным, а валентность ЦЕЛЬ,
напротив, возникает у АГЕНТа, т.е. у семантически одушевленного субъекта.
ОБ,
СОДЕРЖ.
Несмотря на кажущуюся разницу между ОБ и
СОДЕРЖ, они часто взаимозаменяемы. Однако СОДЕРЖ – это обычно целая ситуация.
Например, вторая валентность слова сказать
скорее СОДЕРЖ, чем ОБ (сказать, что думаешь; сказать, как выйти
наружу и т.д.). Напротив, вторая валентность глагола беречь скорее ОБ. Хотя возможны фразы:
говорить о Президенте (ЭТК.ОБ)
беречь
любовь (ЭТК.СИТ), то есть прямо
противоположные примеры.
Множественный актант возникает там, где одна валентность
предиката заполняется многими актантами.
Синтаксический однородный ряд всегда
переходит во множественный актант.
Например:
Петя
и Маша => МНАи(Петя, Маша).
В этом случае мы будем называть слова Петя,Машаэлементами МНА, а союз и - оператором МНА или оператором однородности.
Множественные актанты – это явление скорее текстовое, чем
словарное. Однако, на самом деле, МНА
включено в валентные структуры некоторых слов, например, слов связать, соединять.
Это необходимо для осуществления
следующих синонимических преобразований:
Петя связан с Машей
Петя и Маша связаны.
Понятие множественного актанта
- это обобщение понятия симметричного предиката, описанного в работе Иомдин[1981]. В этой работе симметричным предикатом
называется такой предикат P, что P(X,Y) <=>
P(Y,X), где X и Y валентности
P, например, X борется
с Y <=>
Y борется с Х. В нашей интерпретации все
симметричные предикаты имеют только одну
валентность на множественный актант, а не две симметричные валентности. С помощью
такой валентной структуры легко объясняются примеры с симметричными
предикатами, в которых число участников либо неизвестно, либо больше двух:
Компьютеры связаны между собой.
Петя, Вася и Саша – друзья.
Таким образом, множественный актант – это множество актантов,
заполняющих одну валентность предиката и упорядоченных между собой оператором
однородности.
[1] Семантический
узел – также одно из основных понятий; о нем будет сказано ниже.
[2] Некоторые
соображения о самой природе СХ смотри Сокирко [1998].
[3] Смотри Мельчук[1974].
главная о нас продукты скачать демо технологии ^ |