главная о нас продукты скачать демо технологии ^
Диссертация А.Сокирко "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)" |
Введение
Глава 1. Обзор литературы
I. Некоторые логико-философские исследования
Универсальный язык И.Ньютона
Lingua Mentalis Г.Лейбница
II. Семантический анализ и семантические словари
Link Grammar Parser (LinkParser)
Формальная семантика
Проект Микрокосмос
Онтология Микрокосмос
Реализация концептов в тексте
Микротеория прилагательных
Генеративный лексикон
Система Artwork
Система UNL (Universal Networking Language)
Система ФРАП
Глава 2. Досемантический анализ русского текста
Глава 3. Первичный семантический анализ русского текста
Глава 4. Синтез английского текста
Заключение
Литература
Выступление на защите
Глава 1. Обзор литературы |
^ |
|
I. Некоторые логико-философские
исследования |
^ |
|
Универсальный язык И.
Ньютона |
^ |
Работа великого английского ученого И.Ньютона "Об универсальном языке" [1] представляется вполне закономерной и соответствующей тому времени попыткой выделить универсальное начало в естественных языках. Ньютон обосновывал языковую общность тем, что языки, по его мнению, были созданы для обозначения субстанций (духов или тел), которые у всех народов одинаковы. Слова же, обозначающие отношения или предикаты, описываются через главного своего представителя - основного действующего лица, субъекта предиката.
О корнях универсального языка Ньютон говорит лишь то, что каждый из них должен начинаться с буквы, которая относит этот корень к какой-то одной субстанции (типу). Например, должна быть специальная буква для обозначения видов людей, ангелов, домов и т.д. Но полный перечень субстанций не дается.
Большая часть работы посвящена тому, что мы сейчас бы назвали семантикой морфологии или просто грамматикой языка. Ньютон перечисляет все грамматические префиксы и аффиксы, объясняя попутно их использование. Начинается все с категории степени, в которой выделяется 16 значений, каждое из которых призвано обозначить некоторую позицию в оценочных шкалах типа плохой-хороший, большой-маленький и т.д. Современная интерпретация шкал в Московской лингвистической школе беднее Ньютоновской: в ней используются только две степени (полюса), только по трем шкалам (Bon-AntiBon, Magn-AntiMagn, Ver-AntiVer). В других работах шкалы играют более значительную роль (Raskin[96]).
При описании типов предикатов и отношений Ньютон на самом деле перечисляет те отношения, которые могут связывать участника ситуации с ситуацией, т.е. то, что сейчас было бы названо глубинными падежами. К сожалению, в работе приведен один единственный пример с глаголом "рисовать" (точнее, c субъектом рисования - художником), что не позволяет достоверно спроектировать ньютоновские падежи на какую-нибудь из современных систем. Отметим только, что помимо общепринятых основных отношений СУБЪЕКТ, ОБЪЕКТ, АДРЕСАТ, РЕЗУЛЬТАТ и т.д., введены специальные отношения, которые как бы дублируют основной набор для некоторого другого, попутного участника ситуации. Например, есть специальная роль, связывающая участника с ситуацией, когда он действует в общем предикате наравне с основным субъектом. Надо полагать, что два равных субъекта усматриваются, например во фразе: Я с Машей иду в кино. Необходимость этих дублей не совсем понятна, хотя в некоторых современных системах (см. ниже об универсальном сетевом языке) они получают даже большее применение.
Категория времени в работе "Об универсальном языке" разработана очень детально. Здесь описывается положения на оси времени трех точек: 1) время говорящего; 2) время основного предиката; 3) время вспомогательного предиката.
Сравнивается положение первой точки со второй и второй с третьей.
В первом случае выделяется два полюса ("бесконечно давно" и "по прошествии бесконечности"), между которыми в центре стоит "настоящее время" (первая точка). Между каждым полюсом и центром(настоящее время) - еще пять позиций. Например, между "бесконечно давно" и "настоящим временем":
- давно, насколько это в разумных пределах возможного;
- давно;
- неопределенное время назад;
- недавно;
- недавно, насколько это в разумных пределах возможного.
С логической точки зрения эта шкала выглядит безупречно: она симметрична относительно неопределенного прошлого (точка 3.), противопоставляя давно-недавно. Но в естественном языке такой симметричности не наблюдается. Нам представляется, что эта шкала не годится даже для приближения к формальной модели времени.
Несмотря на неоправданную стройность (логичность) модели времени, Ньютон правильно раскрывает главные объекты "временной логики" - точки на временной шкале, к которым относятся события (предикаты) языка, порядок, заданный на них, и некие конвенциональные временные отрезки, которыми измеряется время в естественном языке.
|
Lingua Mentalis Г.
Лейбница |
^ |
Г. Лейбниц посвятил немало страниц своих философских трудов лингвистике. К числу работ, связанных с языком, относят книгу "О словах", вошедшую в главное произведение Лейбница "Новые опыты о человеческом разумении".
Книга "О словах" начинается с разделения всей лексики на собственную и нарицательную, причем разъясняется, что все имена собственные произошли от нарицательных (общих). Затем рассматривается механизм метонимического переноса на примере локативных предлогов, которые от "чувственного" пространственного значения перешли к "нечувственному" ментальному осмыслению.
После этого, достаточно подробно обсуждается вопрос о "реальных" и "номинальных" определениях какой-либо сущности. Говорится, что реальное определение - это определение, которое задает объект, существование которого подтверждено нашим опытом или конструктивным доказательством. Номинальное определение - дает лишь описание объекта словами, никак не гарантируя его существование в действительности. Например, правильный десятигранник - это номинальное определение объекта, реального определения этому объекту дать невозможно (поскольку правильного десятигранника в нашем мире существовать не может). Определяя золото как драгоценный, желтый металл с хорошей ковкостью, мы определяем его лишь номинально, а, установив его внутреннюю структуру (по таблице Менделеева), получаем реальное определение. Лейбниц отмечает, что в естественном языке реальные определения используются наравне с номинальными и что последними не стоит пренебрегать. Реально-номинальное деление фактически является предвосхищением всей проблематики вычисления истинности языкового выражения, которое подробно обсуждалось представителями позитивистской философии начала ХХ века (см. Рассел []).
Затем Лейбниц переносит фокус размышления на элементарные идеи, замечая, что они безусловно необходимы для определения сложных терминов, но сами не имеют реального или номинального определения. К сожалению, ничего конкретного об элементарных идеях не говорится.
|
II. Семантический
анализ и семантические словари |
^ |
|
Link Grammar Parser
(LinkParser) |
^ |
Американская система LinkParser разработана в 1990-е гг. тремя лингвистами-программистами - Davy Temperley, John Lafferty, Daniel Sleator [Temperley 1995]. Эта система включает все элементы анализа текста - от начального (графематического) до того уровня, который условно можно назвать первичной семантикой английского языка. Свободное распространение словарей и анализаторов системы позволяет подробно ознакомиться с решениями конкретных проблем английского анализа. Кроме этого, общность идеологии LinkParser c идеологией систем деревьев зависимостей позволяет нам до некоторой степени перенести часть решений LinkParser на русский язык, поскольку мы считаем, что только деревья зависимостей вполне адекватно отражают первично семантическое (глубинно-синтаксическое) представление русского текста. Ниже будут описаны принципы устройства системы LinkParser.
Синтаксическая структура [2] (именно так называют заключительную структуру авторы системы) - набор связей (бинарных отношений) между словами или знаками препинания. Для каждого слова в словаре записывается то, какими связями оно может быть связано с другими словами предложения. Для этого используются так называемые коннекторы (специальные последовательности символов), которые обозначают тип связи. Для обозначения направления связи справа к каждому коннектору присоединяется либо знак +, либо знак -. Например, если слову W1 приписан коннектор А+, а слову W2 -коннектор A-, то в синтаксической структуре предложения, состоящего из двух слов W1 W2 , будет проведена связь А между слова W1 и W2. Предложение же W2 W1 не получит никакой интерпретации, поскольку W2 приписан коннектор А-, который образует связь только влево, а слову W1 приписан А+, который образует связь только вправо.
Одному слову может быть приписана целая формула коннекторов, составленная с помощью следующих связок:
- & - несимметричная конъюнкция. Например, если слову W приписана формула А+ & B+ (что впредь будет обозначаться так: "W : А+ & B+"), то некоторое слово Х, с которым слово W образует связь A, должно стоять раньше по тексту, чем слово Y, с которым слово W образует связь B;
- or - дизъюнкция. Если W : А+ or B-, то слово W может образовывать либо связь А вправо, либо связь B влево.
- {} - факультативность. Если W: A+ & {B+}, то после того, как слово W образовало правую связь A, оно может образовывать или не образовывать связь B.
- @ - неограниченность означает, что связь может строиться неограниченное число раз.
Формулы могут быть приписаны отдельному слову, а могут - целому классу слов. Например, коннектор(A), соединяющий прилагательные положительной степени с существительными, приписан сразу всем прилагательным. Таким же образом формулы приписаны 23 категориям слов английского языка, которые выделены по морфологическим (степени сравнения прилагательных и наречий, грамматическое число существительных и т.д.) и базовым синтаксическим признакам (транзитивность, битранзитивность и т.д.).
Анализ LinkParser проходит в два этапа:
- построение множества синтаксических представлений одного предложения на английском языке;
- постпроцессинг.
Первый этап рассматривает все варианты связей между словами, выбирая среди них те, которые подчиняются критерию проективности (связи не должны пересекаться) и критерию связности (получившийся граф должен содержать наименьшее число компонент связностей). Приведем пример. Пусть дан словарь:
the: D+
black: A+
dog: D- & A- & S+
has: S- & PP+
gone: PP-,
тогда для фразы the black dog has gone будет построена следующая структура:
+----- D -----+
| +--A--+-S-+-PP-+
| | | | |
the black dog has gone
Здесь алгоритм построил четыре связи: D (the - dog), A (black - dog)), S (dog - has), PP (has - gone).
На втором этапе анализа программа разделяет построенный граф на т.н. домены, которые содержат связи, принадлежащие одному английскому фрагменту (клаузе). Например, в предложении I know that you are clever будет выделено два домена "I know" и "that you are clever". После чего для каждого домена проверяются условия типа: если в домене есть связь А, то (не) должна быть связь B. Таким образом удается проверить наличие/отсутствие в домене одной связи в зависимости от наличия/отсутствия другой связи, причем эти связи могут не иметь общих слов (если были бы общие слова, то такие условия можно было проверить на предыдущем этапе).
LinkParser - достаточно необычная система, хотя результирующее представление, как правильно отмечают авторы, может быть переведено в дерево зависимостей, а оттуда, используя, например, механизм, описанный Гладким [1991], - в размеченную систему составляющих. Рассмотрим пример. Пусть дано представление в LinkParser:
+--- C ----+
+-Ss-+-O-+ +-Sp-+--I--+
| | | | | |
He told me they would go
Каждая из пяти связей имеет уникальный тип. Более того, известно, что стоит слева и справа от каждой связи. Например, у связей Ss и Sp слева стоит подлежащее, а справа - сказуемое. Связь O всегда идет от глагола к дополнению в объектном падеже, связи типа I - от глагола к инфинитивному дополнению. Небольшую проблему создает межклаузная связь С, которая идет не к глаголу второй клаузы, а к подлежащему второй клаузы; но ее, впрочем, можно легко передвинуть с подлежащего на сказуемое. Таким образом, видно, что представление LinkParser легко переводится в дерево зависимостей.
Главной причиной, по которой мы называем LinkParser семантической системой, можно считать уникальный по полноте набор связей (около 100 основных, причем некоторые из них разбиваются на 3-4 подслучая). В некоторых случаях тщательная работа над разными контекстами привела авторов LinkParser к переходу к почти семантическим классификациям, построенным исключительно на синтаксисических принципах. Так, выделяются следующие классы английских наречий:
- Ситуационные наречия, которые относятся ко всему предложению в целом (clausal adverb);
- Наречия времени (time adverbs);
- Наречия-вводные, которые стоят в начале предложения и отделены запятой (openers);
- Наречия, модифицирующие прилагательные и т.д.
Из достоинств системы нужно отметить, что организация самой процедуры нахождения вариантов синтаксического представления очень эффективна. Построение идет не сверху вниз (top-down) и не снизу вверх (bottom-up), а все гипотезы отношений рассматриваются параллельно: сначала строятся все возможные связи по словарным формулам, а потом выделяются возможные подмножества этих связей. Это, конечно, приводит к алгоритмической непрозрачности системы, поскольку очень трудно проследить за всеми отношениями сразу, и не к линейной зависимости скорости алгоритма от количества слов, а к экспонентной, поскольку множество всех вариантов синтаксических структур на предложении из N слов в худшем случае равномощно множеству всех остовных деревьев полного графа с N вершинами[11]. Последняя особенность алгоритма заставляет разработчиков использовать таймер, для того чтобы вовремя останавливать процедуру, которая работает слишком долго. Однако все эти недостатки с лихвой компенсируются лингвистической прозрачностью системы, в которой с одинаковой легкостью прописываются как активные валентности слова, так и пассивные, причем порядок сбора валентностей внутри алгоритма принципиально не задается - связи строятся как будто параллельно, что полностью соответствует нашей языковой интуиции.
Стоит указать и главный недостаток системы LinkParser, который заключается в отсутствии конкретных формул для слов, имеющих нестандартную модель управления, которых, впрочем, не столь много в английском языке. Авторы обещали исправить этот недостаток в следующих версиях этой системы.
Представление значения предложения с помощью формулы лямбда-исчисления - одно из самых распространенных в автоматических системах, работающих с английским языком. Первоначально предложенное исключительно для лингвистических целей расширение логики с помощью l-оператора и двух операций (a-конверсии и b-конверсии) теперь получило много применений как компьютерных (язык ЛИСП) и математических (лямбда-исчисление), так и лингвистических (формальная семантика). Работа с l-оператором достаточно проста. Синтаксически l-оператор работает так же, как работают кванторы всеобщности и существования: l ставится перед переменной, после чего эта переменная считается связанной во всем подкванторном выражении. Каждое вхождение переменной, которая связана оператором l, является дыркой, ждущей заполнения формулой. Таким образом, переменная, связанная оператором l, эксплицитно помечает места недостающей информации, которые нужно заполнить. Операция, называемая b-конверсией, осуществляет необходимые подстановки. Пусть, например, есть формула
lх.MAN(x).
Здесь префикс lх связывает переменную х в выражении MAN(x). Переменная х в MAN(x) эксплицитно обозначает, что предикат MAN имеет аргумент, который мы можем заменить. Конкатенация обозначает, что здесь нужно сделать подстановку. Специальный символ @ используется для обозначения конкатенации. Например, можно записать так:
lх.MAN(x) @ VINCENT.
Здесь первую часть выражения (до знака @) мы будем называть функтором, а вторую - аргументом. Такая конструкция позволяет осуществить b-конверсию, то есть приравнять переменную х константе VINCENT, получив в результате:
MAN(VINCENT).
Функторы и аргументы могут быть сколь угодно большими формулами, что открывает достаточно широкие перспективы. Общий механизм работы системы на лямбда-исчислении для одного предложения выглядит так:
- всем словам приписывается по формуле, составленной по законам лямбда-исчисления, которые в результате составляют одну большую формулу;
- последовательно применяя b-конверсию и другие законы логики первого порядка, упрощаем формулу;
- в результате должна получиться формула без l-операторов и операторов конкатенации.
Приведем пример. Пусть нам дана фраза every boxer walks; припишем формулы словам этой фразы:
every: lP.lQ."х(P@x -> Q@x)
boxer: ly.BOXER(y)
walks: lx.WALK(x)
Применяя b-конверсию для формул every boxer, получаем
lP.lQ."х(P@x -> Q@x)@ ly.BOXER(y) = lQ."х(ly.BOXER(y)@x -> Q@x) =lQ."х(BOXER(x)-> Q@x).
Применяя еще раз b-конверсию, получаем
lQ."х(BOXER(x)-> Q@x) @ lx.WALK(x) = "х(BOXER(x)-> lx.WALK(x)@x) = "х(BOXER(x)-> WALK(x))
Последняя формула точно отражает смысл предложения every boxer walks, точнее смысл кванторного слова every.
Вообще говоря, заключительная формула никак не может удовлетворить специалиста в области лексической семантики, поскольку в ней явно прописан только смысл кванторного слова every, ничего не сказано о словах boxer и walk. Но так уж развернулось это направление, что в нем больше занимаются самыми жесткими языковыми конструкциями и словами, которые могут переходить в логические связки или кванторы. Об этом, кстати, не раз заявляла B. Partee, говоря, что формальная семантика - это скорее семантика синтаксиса.
Однако техника приписывания словам формул l-исчисления не является единственным направлением деятельности в формальной семантике. Вторая немаловажная сторона обращена к интенсионально/экстенсиональному разграничению означаемого любого знака, введенного впервые в [??]. По определению, экстенсионал Х (Ext(X)) - это множество объектов, которые обозначаются Х-ом в данном возможном мире [3], а интенсионал Х (Int(X)) - это функция, которая по Х вычисляет Ext(Х). Например,
В мае 2000 года Ext(Президент США) = Билл Клинтон,
а Int(Президент США) - это функция, которая в каждом возможном мире вычисляет человека, который является Президентом США.
Используя интенсионально/экстенсиональное деление, можно определить т.н. интенсиональные и экстенсиональные конструкции (см. подробнее Partee [1989]). Пусть синтаксическая конструкция С построена из А и В. Положим, что функции А на аргументе В дает значение С (А(В) = С), тогда если существует функция F, такая, что F(Ext(A), Ext(B)) = Ext(С), то назовем конструкцию С экстенсиональной, в противном случае, если существует только такая функция F, что F(Ext(A), Int(B)) = Ext(С) - интенсиональной. Например, пусть С = красный шар, А = красный, В = шар, Ext(A) = множество всех красных объектов, Ext(B) = множество шаров, искомая функция F - пересечение, поскольку верно, что Ext(красный) C Ext(шар) = Ext (красный шар). Другой случай, С = искусный хирург, А = искусный, В = хирург, Ext(A) - множество всех искусных субъектов (они могут быть и не хирургами), Ext(B) - множество хирургов. Это не экстенсиональная конструкция, а интенсиональная, и вот почему. Пусть в некотором мире есть субъект, который является искусным поваром; ввиду того, что он искусный повар, он попадает во множество искусных субъектов Ext(A); вдобавок к этому этот субъект является хирургом, но не искусным. Поскольку этот искусный повар является еще и хирургом, он попадает во множество Ext(B). Таким образом, получается, что указанный субъект попал в оба множества, и никакими теоретико-множественными операциями нельзя его оттуда исключить. Это приводит нас к выводу, что конструкция искусный хирург интенсиональная.
Применяя интенсионально/экстенсиональное разграничение конструкций можно получить, что глаголы love, hit, sit, eat, buy, break являются экстенсиональными, а глаголы need, want, imagine, must - интенсиональными.
На наш взгляд, интенсионально/экстенсиональное разграничение дает иногда слишком глубокое (теоретико-множественное) описание семантики конструкций. Не достаточно ли было сказать, что прилагательное искусный (в отличие от красный) является оценочным, поэтому требует имплицитно субъекта оценки и т.д. (см., например, Семенова [1997])? А глаголы need, want, imagine, must являются модальными в широком смысле, поэтому имеют валентность на целую ситуацию, которой, может быть, не было в реальности.
Подытоживая, можно сказать, что формальная семантика использует l-исчисление для представления смысла высказываний и строит теоретико-множественные интерпретации, осложненные интенсионально-экстенсиональным разграничением. Это позволяет быстро перейти от языкового выражения к его логической структуре и референтам высказывания, но на очень ограниченном "фрагменте" языка.
Проект Микрокосмос(1991-99 гг.), разрабатываемый в университете Нью-Мексико под руководством С.Ниренбурга, - одна из самых интересных и масштабных попыток использовать семантическую и онтологическую информацию в машинном переводе. Этот проект, первоначально призванный улучшить качество существовавшего уже испано-английского перевода, трансформировался в полную семантическую систему, способную хранить сведения о конкретных семантических свойствах естественных языков (на данный момент есть сведения о четырех языках: английском, испанском, японском, русском) вместе с общеязыковой онтологией (сведения о мире, сформулированные на общем метаязыке). Основные достижения разработчиков Микрокосмоса связаны именно с семантическим и послесемантическими анализами, поскольку морфологические и синтаксические анализаторы были ими заимствованы (Pangloss MT syntactic analysis module). Само название проекта Микрокосмос возникло из идеи максимально продуктивно синтезировать множество существующих на сей день теоретических разработок (т.н. микротеорий) в единую систему. К числу самых интересных микротеорий, адаптированных и улучшенных в Микрокосмосе, мы относим:
- теорию организации онтологии, принципов извлечения информации из нее;
- методы применения онтологии к реальным текстам, в частности методы разрешения омонимии;
- конкретные семантические микротеории, например микротеория прилагательного.
Онтология или тезаурус, как место хранения кроссязыковой информации, всегда привлекали разработчиков машинного перевода. Основным достоинством онтологического подхода в противовес бинарному переводу считается возможность более глубокого анализа текста и возможность подключать к системе перевода новые языки, не изменяя онтологии. Несмотря на это очевидное достоинство, специалисты усматривают в онтологическом подходе следующие недостатки:
- Избыточность. Часто считается, что разрешить семантическую неоднозначность можно, используя несемантические методы;
- Зависимость от конкретного языка. Многие полагают, что онтологии слишком сильно зависят от языковой компетенции составителя языка;
- Ненаучность. Отсутствие точных методик составления онтологий делает невозможным повторение экспериментов по их воссозданию;
- Инженерная сложность. Время на разработку онтологий зависит от размера онтологии не линейно, а экспонентно.
На эти контраргументы отвечает статья С.Ниренбурга (Apologiae Оntologiae[1994]):
- Онтология не избыточна, поскольку ни одна система машинного перевода трансферного (бинарного) типа не может полноценно справиться с задачами восстановления кореферентных связей и метафорического переноса, без которых невозможно сделать необходимое приближение к компьютерной модели естественного языка.
- Зависимость от конкретных языков, безусловно, - обязательное свойство онтологий, но чем больше языков описано на этой онтологии, тем более она становится независимой. Важно, что онтологии являются не чем-то принципиально ортогональным всем языкам, а неким медленно растущим образованием - общим знаменателем всех языков.
- Контраргумент в ненаучности не лишен основания, хотя этот же довод можно отнести к любой семантической теории. По мнению Ниренбурга, точное воссоздание онтологии в каком-то другом коллективе вообще не является обязательным, поскольку их онтология имеет множество других эквивалентных альтернатив. Единственный критерий правильности онтологий - это ее практическая полезность в системах автоматической обработки текста.
- Последний аргумент опровергается на практике. Ведь известно, что основную сложность для перевода представляют первые 10-15% процентов лексикона (самые общие слова). Кроме этого, существующие сейчас большие тезаурусы, доступные онлайн, (Miller[1991]) позволяют существенно сэкономить затраты. Использование полуавтоматических средств (Viegas [1996]) для составления словарных статей дает возможность описать лексикон в 10000 слов за шесть человеко-месяцев.
Таким образом, онтологии в автоматической обработке текста становятся не слизком дорогим инструментом.
Перейдем теперь к описанию самой онтологии системы Микрокомос (Mahesh [96]). Онтология Микрокосмоса состоит из концептов и отношений между ними. Отношения записаны в слотах концепта. Концепт одновременно может содержать как абстрактную информацию (поле СЕМ), так и конкретные данные, взятые непосредственно из входного текста (поле ЗНАЧ).
Формально, концепт - это множество слотов (slots). Слот - множество пар вида <Поле, Значение> (<facet, filler>), где Поле(facet) может принимать следующие значения:
- ЗНАЧ (Value) - значением этого поля может быть любая текстовая реализация концепта, число, буква и т.д.
- СЕМ (Sem) - значением этого поля может быть имя другого концепта, число или шкала. Значение этого поля служит селективным ограничением для полей УМОЛЧ и ЗНАЧ. Именно с помощью поля СЕМ концепты связаны.
- УМОЛЧ (Default) - тип значения поля такой же, как у поля ЗНАЧ. Здесь записывается значение слота по умолчанию.
- ЕД-ИЗМ (Measuring-Unit) - здесь записывается шкала, в которой измеряется значение полей ЗНАЧ и УМОЛЧ. Шкалы являются отдельными концептами онтологии.
- ВЕС (Salience): обозначает информационный вес концепта.
- МАКС_ОТКЛ (Relaxable-to) - здесь записывается то, насколько селективные ограничения могут быть нарушены.
Из сказанного ясно, что значение поля может быть либо константой, отрезком шкалы, либо отсылкой к другому элементу онтологии. В первом случае поле называется атрибутом, а во втором, поскольку оно связывает два элемента, - отношением. Сами атрибуты и отношения (поля в слотах) являются концептами онтологии. Например, в концепте-атрибуте "цвет" можно найти все значения атрибута "цвет": красный, синий и т.д.
Главное отношение ВЫШЕ (is-a) тоже записывается в слотах концепта. Верхним концептом всей онтологии (по отношению ВЫШЕ) является концепт ALL. Его непосредственными потомками - концепты EVENT, OBJECT и PROPERTY.
Концепт может наследоваться от многих других концептов, если они не имеют противоречащих слотов. Концепт наследует от "отцов" все слоты.
Семантическое различие между "сыновьями" может быть исключающим или перекрывающимся. Например, всех животных можно разделить на позвоночных и беспозвоночных - это исключающее наследование. Перекрывающиеся наследование проиллюстрируем на примере "организаций".
Организации в системе Микрокосмос делятся на коммерческие и некоммерческие. Однако есть такие организации ("лаборатории"), которые могут быть как коммерческими, так и нет, то есть у них неопределенный статус. К тому же, у любой лаборатории должна быть заполнена валентность "научной направленности", что не обязательно для организаций. То, что лаборатории могут иметь собственные признаки, заставляет нас создать отдельный концепт, а не ограничиться, например, внесением нового слота("быть лабораторией") для концепта "организация". Понятно, что концепт "лаборатория" наследуется от концепта "организации". Кроме этого, придется создать еще два концепта: коммерческая лаборатория, которая наследуется от коммерческой организации и лаборатории, и некоммерческая лаборатория, которая наследуется от некоммерческой организации и лаборатории. Таким образом, непосредственными потомками концепта "организация" являются коммерческая организация, некоммерческая организация и лаборатория. Если у двух сыновей одного концепта есть общий потомок, то это - перекрывающиеся наследование, поскольку эти сыновья в принципе не взаимоисключают друг друга.
Авторы онтологии не раз заявляют, что точных критериев выделения "сыновей" у концепта не существует. Более того, как нам видится, если бы значения какого-то слота можно было вычислять по значениям другого слота этого же концепта, то само наследование можно было бы свести только к исключительному. В таком случае, для концепта всех организаций можно было иметь только один концепт, в котором нужные валентности включаются в зависимости от того, как включены основные слоты (коммерческая/некоммерческая и лаборатория/не лаборатория). К сожалению, такого механизма в Микрокосмосе нет.
Еще одно замечание, на которое мы хотели бы указать, касается всех больших тезаурусов и, в частности, систему Микрокосмос.
Как нам кажется, онтологии и тезаурусы, в которых используется формальные выводы с большим количеством шагов, не имеют смысла, поскольку транзитивность на тезаурусных отношениях работает только на "коротких" дистанциях. Например, используя безупречный, с точки зрения тезаурусов, транзитивный закон для отношения ЧАСТЬ (для любых х, y, z, если ЧАСТЬ(x,y) и ЧАСТЬ(y,z), то ЧАСТЬ (x, z)), по утверждениям
черенок - часть листа
лист - часть ветки
ветка - часть дерева
дерево - часть леса
получаем утверждение, что "черенок - часть леса" - утверждение формально верное, но на практике маловероятное.
Несколько слов нужно сказать о соотношении онтологии и лексикона в системе Микрокосмос. Лексикон содержит слова конкретного естественного языка, а онтология - концепты, которые являются общими для всех языков. Онтология и лексикон связаны отношением реализацией (instance), по которому можно сказать, какой концепт каким словом может выражаться. Отношение реализации может быть простым и с ограничениями. Ограничения могут быть у концепта (какое-нибудь значение слота равняется какому-то определенному значению) и у слов лексикона (такая-то валентность выражается таким-то грамматическим способом). Например, русский глагол уходить переводится либо в концепт to leave, либо в to go в зависимости от наличия у уходить реализации КОН-Т:
- уходить + ИСХ-Т -> leave (уходить с работы, уходить из комнаты);
- уходить + КОН-Т -> go (уходить в леса, уходить домой).
В одно слово лексикона может входить много отношений реализации, тогда встает вопрос о выборе одного из отношений. Этот вопрос будет обсуждаться в следующем разделе.
|
Реализация концептов в тексте |
^ |
Концепты, записанные в онтологии Микрокосмос, реализуются в тексте в словах. Слова могут быть неоднозначны, т.е. им может быть приписано несколько концептов, из которых нужно выбрать один. Проблема выбора нужного номера значения слова - одна из самых сложных, поскольку полный перебор вариантов приписывания номеров значения на больших отрезках текста не осуществим из-за большой неоднозначности. В данном случае всегда используются эвристики: лингвистические или логические. Лингвистические эвристики применимы в конкретных языках, они обычно сужают область поиска конкретными правилами, уменьшающими отрезки текста, на котором нужно применять полный перебор. Логические эвристики - связаны с предположением, что семантическая структура предложения чаще всего бывает деревом. Поскольку именно этот тип эвристик используется в Микрокосмосе (Beale[96]), мы остановимся на нем подробнее.
Задача приписывания номеров значений словам сформулирована так: дано синтаксическое представление одного предложения, нужно приписать им номера значений, если для каждого номера значения указано, с какими другими номерами он может употребляться. То, что номер значения какого-то слова обусловливает выбор номера значения другого слова, мы будем называть ограничением. Граф, в узлах которого стоят слова, а на стрелках - находятся ограничения, будем называть графом ограничений. Стрелки графа ограничений получаются из синтаксического анализа, а сами ограничения - из лексикона и онтологии, которые в этой системе называются селективными ограничениями. Например, по предложению
Петя ест уху
строится синтаксическое представление:
подл(есть, Петя)
к_доп(есть, уха)
по которому строится граф ограничений:
подл(есть, Петя): "Петя - одушевленный субъект"
к_доп(есть, уха): "уха - съедобный объект".
Кроме стрелок, возникших из синтаксиса, ограничения могут быть записаны в словаре. Например, может быть сказано, что прямой объект данного предиката находится в такой-то семантической связи с подлежащим. Понятно, что между этими объектами прямой синтаксической связи нет.
Нахождение всех решений приписывания номеров значений составляет отдельную теорию, т.н. теорию ограничений (Constraint satisfaction theory), базовой книгой для которой является Tsang[1993]. Основным положением теории ограничений, как уже было сказано, служит тот факт, что граф ограничений в естественных языках чаще всего бывает деревом или почти деревом в том смысле, что можно разбить граф на такие подграфы, когда число узлов, зависящих от узлов, не входящих в данных подграф, существенно меньше общего числа узлов, входящих в этот подграф. Несколько более формально это можно сформулировать следующим образом. Представив подграф графа ограничений в виде пары <Out,In>, где Out - узлы, зависящие хотя бы от одного узла, не входящего в подграф, а In - узлы, зависящие только от узлов подграфа. Тогда основное предположение теории ограничений звучит так:
граф ограничений для семантических структур естественного языка можно разбить на такие подграфы <Out,In>1 ,..., <Out,In>N, что размер любого Outi будет меньше размера Ini (1<= i <=N). Если <Out,In>i пересекается с <Out,In>j, то один из них входит в другой, а <Out,In>N - является собственно графом подчинения, включающим все предыдущие <Out,In>i (1<= i <=N-1). Понятно, что <Out,In>N - будет содержать пустой первый член и максимально полный - второй.
Идеальный случай для главного предположения теории ограничений - это дерево. Дерево можно разбить на подграфы, число которых равно числу нетерминальных вершин, причем в каждом подграфе (за исключением последнего) Out будет содержать ровно один элемент. Два наиболее "плохих" случая - это полностью несвязный граф и полный граф. И в том и другом случаях множество подграфов с нужным условием не удается построить. Таким образом, теория ограничений ориентирована на деревья или на "почти деревья".
После того, как системе удается разбить граф ограничений на необходимые подграфы, что само является непростой задачей (если пытаться решить ее полностью и корректно), вычисляется оптимальное приписывание номеров значений узлам, входящим в Out, для каждого графа. Затем вычисляются Out-узлы для каждого подграфа, если его подграфы уже были вычислены, и т.д. Таким образом, вычисление вариантов приписывания номеров значений идет от маленьких графов к большим, причем узлы, входящие во множество In некоторого графа, уже не пересчитываются, когда вычисляется значение для узлов, принадлежащих другим подграфам.
Этот метод вычисления можно проиллюстрировать на примере выборной системы. Как известно, проводить референдумы по каждому государственному вопросу было бы слишком дорого, поэтому государство использует систему делегирования полномочий, когда вся страна поделена на округа, по которым выбирается один или несколько депутатов, те, в свою очередь, собираются и выбирают депутатов от своих собраний и т.д. В конце концов, заданный государственный вопрос решается небольшой группой депутатов с помощью обычного референдума.
В проекте Микрокосмос многое было сделано для развития теории ограничений. Главные из них следующие:
- Применение небинарного способа слияния подграфов (раньше сливались только два подграфа), что позволяет оптимально рассматривать варианты и осуществлять откатку (Solution synthesis);
- Использование количественных ограничений, которые не просто могут выполняться или не выполняться, а имеют некоторую оценку от 0 до 1.
Для внедрения последнего усовершенствования нужно использовать метод нахождения минимального пути во взвешенном графе (Branch-and-Bound technique) для получения лучшей комбинации решений на подграфах.
Несмотря на успешное внедрение теории ограничений в реально работающую систему и на то, что эта теория позволила сократить количество переборов с миллионов до сотен, следующие два момента остаются неясными:
- Если граф зависимостей строится только на основе синтаксических знаний и статической словарной информации, мы в какой-то степени утверждаем, что все семантические зависимости получаются только из синтаксических, что представляется чрезмерным упрощением семантического анализа;
- Не доказана оптимальность используемой в Микрокосмосе процедуры получения множества подграфов (circle), что, по всей видимости, является сложной математической задачей.
|
Микротеория прилагательных |
^ |
Микротеория прилагательных, представленная в работе Raskin[96], на наш взгляд, - отличный образец компиляции теоретических работ по прилагательным в одну микротеорию. Микротеория поделена на три части: обзор литературы, описание классов прилагательных внутри Микрокосмоса, описание процедуры включения прилагательного в тот или иной класс.
Первое лингвистическое наблюдение Lyons[1977] заключается в том, что в языках, где нет специальных форм для прилагательных, роль прилагательных играют либо существительные, либо глаголы. Это разграничение можно спроецировать на языки с прилагательными, выделив два класса прилагательных (существительные) и прилагательных (глаголы), которые, правда, не покрывают всего множества прилагательных.
Другое немаловажное замечание состоит в том, что экстенсионал прилагательных обычно превосходит по объему экстенсионал существительных, а интенсионал, наоборот, - меньше. Это происходит из-за того, что прилагательные обозначают только одно свойство, а существительные целые наборы свойств.
Следующее разграничение, активно обсуждаемое в литературе, касается возможности прилагательных стоять в предикативной позиции, что для русского языка эквивалентно возможности образования краткой формы. Согласно исследованию Levi[1978], непредикативные прилагательные (не имеющие краткой формы) имеют следующие свойства:
- отсутствуют степени сравнения;
- не могут образовывать однородный ряд с предикативным прилагательным;
- могут сочетаться с кванторными приставками типа поли-, би-, мульти-.
- имеют такое же таксономическое дерево, что и существительные, поскольку в большей части произошли от существительных;
- связываются с модифицируемым существительным ситуативными отношениями, например:
агентивные: редакторская колонка, человеческий труд
объектные: конституционное собрание
инструментальные: ручная работа;
- не могут субстантивироваться.
Разделение прилагательных на качественные и относительные не противоречит различению предикативность/непредикативность, поскольку относительные прилагательные всегда являются непредикативными. Отсутствие интереса английской лингвистики к относительным прилагательным объясняется тем, что в английском языке мало относительных прилагательных, их функции выполняют существительные, поставленные в препозиции. Наоборот, качественные прилагательные - более популярная тема. Семантика качественных прилагательных всегда связана с возможностью иметь степени сравнения, которые обозначают точки на заданной шкале, причем порядок на шкале выражает прилагательное сравнительной степени. Таким образом, смысл качественного прилагательного выражается скорее сравнительной степенью, чем положительной (Sapir [1944]).
Заканчивая обзор предшествующей литературы по прилагательным, авторы останавливаются на одном замечании, высказанном в работе Marx[1977], о том, что прилагательные имеют наиболее сложные композиционные характеристики, буквально: "одни и те же прилагательные могут относиться к разным частям семантики существительного в зависимости от семантического класса самого существительного". Например, прилагательное хороший; связанное с артефактом, относится к использованию артефакта; связанное с ролью, относится к обязанностям этой роли; связанное с едой, относится к вкусовым качествам. Авторы статьи не упоминают, что Пустейовский (Pusteyovsky[1995]), разбиравший эту же проблему с прилагательным хороший, предложил использовать здесь одну из базовых функций TELIC (назначение), с помощью которой он описывал отношения между концептами (например, TELIC(нож) = резать, TELIC(книга) = читать). Пустейовский указал, что сложные композиционные свойства прилагательного хороший связаны с тем, что оно часто относится к значению функции TELIC:
хорошая книга <=> книга хороша для чтения
хороший нож <=> этим ножом хорошо резать
Далее авторы предлагают свою интерпретацию семантики прилагательных. Основным элементом их теории является понятие шкалы, которые бывают двух сортов: численные и символьные. Например, шкала размеров "маленький, средний, большой и т.д." - численная, а шкала цветов "красный, синий, зеленый" - символьная. Все прилагательные делятся на две категории: шкальные прилагательные (scalar adjectives) - те, которые привязаны к какой-то шкале, и нешкальные прилагательные (nonscalar adjectives), у которых нет шкал. Основа шкальных прилагательных - качественные прилагательные, которые могут стоять в предикативной и атрибутивной позиции. Большинство нешкальных прилагательных - относительные непредикативные прилагательные. За скобками шкально/нешкального деления стоят некоторые прилагательные времени типа: бывший сотрудник, ранний гость, случайный посетитель, которые должны преобразовываться в семантическую конструкцию с наречием: "человек, с которым вы раньше работали", "гость, который рано пришел", "посетитель, который случайно зашел".
Шкальные прилагательные делятся на настоящие шкальные (большой, красный) и конвертированные шкальные (властный, поэтический). Настоящие шкальные прилагательные имеют степени сравнения и легче используются в предикативной позиции. Конвертированные шкальные произошли от относительных, поэтому сохраняют до некоторой степени их черты, но все-таки должны разрешать сравнительный контекст типа:
Его взгляд был более властным, чем в прошлый раз.
Нешкальные прилагательные делятся на произошедшие от имен собственных (африканский, кремлевский и т.д.), ситуативные (загрузочный, вычислительный) и настоящие относительные (стеклянный, деревянный).
Затем авторы статьи проводят дальнейшую субкатегоризацию трех самых обширных классов прилагательных (настоящие шкальные, ситуативные и настоящие относительные), приводя примеры статей из английского лексикона системы Микрокосмос.
Композиционная проблема прилагательных, упомянутая выше, решается в русле генеративного лексикона (Pusteyovsky[1995]). И это означает, что значений у прилагательных не очень много (для прилагательного хороший - одно), но зато при каждом объекте прописано, по каким шкалам он может изменяться и что, собственно, в этом объекте может изменяться. Длинные перечни значений для прилагательных, наподобие тех, что есть в WordNet (12 значений для хороший), вообще невозможны в Микрокосмосе, поскольку здесь действуют два правила дополнительной дистрибуции:
"1. Попробуй поставить двух кандидатов на разные значения в одно предложение. Если нужен дополнительный контекст, чтобы реализовалось одно из значений, то это значение не является самостоятельным, и должно быть включено в первое.
2. Если кандидат на отдельное значение применим только к ограниченному классу семантически сходных существительных, значит это значение нужно подвести под уже существующее в системе значение" (Raskin[96] стр. 149.)
В целом микротеория прилагательного предлагает новый подход, в котором понятие шкалы вбирает в себя предыдущие противопоставления в семантике прилагательных. Используя генеративные механизмы, микротеория переносит часть ранее приписываемого прилагательному смысла на существительные, приписывая не прилагательным классы существительных, которые они могут модифицировать, а существительным - те классы прилагательных, которые могут их модифицировать.
Одно критическое замечание, которое касается символьных шкал, состоит в том, что сами точки на т.н. символьной шкале не составляют шкалу в обычном смысле этого слова, поскольку на шкале все-таки предполагается заданным некоторый порядок. Отношение между точкой символьной шкалы и самой шкалой скорее выражается отношением ВЫШЕ (is-a), например: красный - разновидность цвета, круг - разновидность формы. Если принять это замечание, то столь фундаментальное положение понятия шкалы изменится. Но это не затронет основ микротеории.
Второе замечание - по поводу использования численных шкал. Верно, что порядок на таких шкалах обычно является плотным (в обычном математическом смысле), что вводит в соблазн соотнести точки на этих шкалах с действительными числами от 0 до 1. На самом деле в языке задан только порядок, но не сами значения, верно, что "большой > средний > маленький", но пропорции между ними не заданы, поэтому и не стоит их вычислять.
Книга Джеймса Пустейовского (Пустейовский[1995]) полностью посвящена семантике естественных языков, так сказать, с логической точки зрения. Основная проблема, затрагиваемая в книге, касается принципа композициональности, сформулированного представителями школы формальной семантики:
"Смысл выражения получается с помощью некоторой функции из смыслов его синтаксических составляющих " (об этом подробнее, Bach [1991]).
Несмотря на критику этого постулата (например, Lahav[1989]) , компьютерной лингвистике приходится его признавать, поскольку альтернативы могут привести к заключению, что компьютерные модели естественного языка принципиально неадекватны [4], то есть нарушить пресупозицию существования компьютерной лингвистики.
Композициональная функция (та, из которой получается смысл) находится в центре внимания автора Генеративного лексикона. Формальное определение этой функции или хотя бы какого-нибудь ее свойства представляет собой существенное достижение в лингвистике.
По мнению автора Генеративного лексикона, существующие методы моделирования этой функции не способны к новому, креативному осмыслению слов в контексте, что обязательно. Традиционный подход делит слова на активные функторы и пассивные аргументы, тогда как зависимости внутри языкового выражения взаимны.
Критикуя организацию существующих семантических словарей, автор говорит, что с точки зрения омонимии/полисемии большинство из них устроено так: каждому омониму слова приписывается отдельный вход, а все полисемичные слова содержатся в одном входе, где внутри явно прописано отношение, которое связывает полисемичные элементы. Такие словари называются SEL-словарями (Sense Enumerative Lexicons), и единственное их достоинство, с позиции Пустейовского, в том, что можно отделить словарь от его обрабатывающего программного кода, разделить таким образом данные и программу. Но SEL-словари не могут:
- объяснить, как слова принимают новые значения в разных контекстах;
- смоделировать достаточно точно отношения между полисемичными входами;
- приписать разные синтаксические модели управления одному значению слова.
Первый недостаток иллюстрируется примерами:
Mary wants another cigarette.
Mary wants a beer.
Mary wants a job.
Здесь SEL-словари вынуждены вводить три разных значения для глагола to want:
want1 = to want to smoke
want2 = to want to drink
want2 = to want to have.
Очевидно, что таких значений будет больше трех - бесконечно много, значит, всех их включить в словарь нельзя.
Второй недостаток, касающийся полисемичных входов, иллюстрируется на примерах типа:
- a. bake potatoes (process)
b. bake a cake (creation)
- a. break a window (physical object)
b. crawl through the window (aperture)
- a. a sad woman (human)
b. a sad day (interval)
Автор утверждает, что, несмотря на возможность записать отношения между этими полисемичными входами, у SEL-словарей просто не хватает для этого выразительных средств, поэтому составители часто заносят их в отдельные входы, никак не связанные между собой.
Последнее недостаток, конечно, не касается элементарных синтаксических вариантов модели управления одного слова, когда смысл слова не меняется, но этот недостаток проявляется тогда, когда одно небольшое грамматическое изменение приводит к переосмыслению всего выражения. Такое происходит, например, с фактивными/нефактивными употреблениями глагола:
Mary forgot that she locked the door (фактивное)
Mary forgot to lock the door (нефактивное)
Небольшое синтаксическое изменение привело к тому, что фраза меняет свое истинностное значение (в первом случае Мария закрыла дверь, а во втором - нет). SEL-словарям приходится вносить два разных значения, чтобы различить эти случаи.
Обозначив недостатки SEL-словарей, Пустейовский переходит к описанию своего словаря (генеративного лексикона). Словарная статья генеративного лексикона состоит из четырех зон:
- аргументная структура (Argument Structure): определение логических аргументов и их синтаксического выражения;
- структура событий (Event Structure): внешнее определение слова (процесс, состояние, переход) и внутренняя структура событий;
- смысловая структура (Qualia Structure): состоит из четырех полей FORMAL, CONSTITUTIVE, TELIC и AGENTIVE (будет объяснено ниже);
- структура лексического наследования: здесь записывается отношение антонимии, синонимии, пресупозиции и пр.
Вся эта информация призвана поддерживать следующие семантические генеративные механизмы:
- преобразование типа выражения(type coercion): когда лексическая единица меняет свой семантический тип, не меняя синтаксический тип под влиянием управляющего предиката;
- выборочное связывание (selective binding): когда один элемент влияет на часть другого элемента, не меняя свой тип;
- ко-композиция (co-composition): когда много слов, ведущих себя как активные функторы, создают новое значение у слова, которое не было записано в словаре; ко-композиция подразделяется на manner co-composition, feature transcription и light verb specification (см. ниже).
Аргументная структура слова содержит перечень всех логических отношений, которые могут связывать слово с другими словами в тексте. По синтаксическим признакам аргументы бывают четырех типов:
- обязательные аргументы (true arguments), которые всегда должны выражаться в тексте: John arrived late;
- факультативные аргументы (default arguments), которые не обязательно выражаются в тексте, поскольку по словарной статье этого слова можно вычислить его значение:
John built the house out of bricks;
- скрытые аргументы (shadow arguments), которые всегда подразумеваются, поэтому обычно не реализуются в тексте, за исключением случаев, когда они специально уточняются:
Mary buttered her toast with an expensive butter / *with butter
Harry kicked the wall with his gammy leg / *with his leg
- свободные обстоятельства (true adjuncts), которые относятся ко всей ситуации, а не к отдельному слову: Mary drove down to New York on Tuesday. [5].
Свободные обстоятельства не представляют интереса для автора, поскольку их семантическое влияние на другие элементы не слишком велико. Скрытые аргументы, наоборот, слишком конкретно определены, поэтому не требуют дальнейшего исследования. Первая и вторая группы - самые важные в аргументной структуре. Фактически, мы имеем здесь дело с попыткой выразить, должна ли валентность синтаксически выражаться через смысл этой валентности. Если есть хоть какая-нибудь возможность заполнить эту валентность собственными внутренними средствами, то она может не выражаться, в противном случае она должна быть. Интересны случаи, когда обязательные аргументы переходят в факультативные:
Mary showed her paintings to John. (обязательно)
Mary showed a movie (to John). (факультативно)
Структура событий в словарной статье описывает те события, которые составляют значение слова. События определены начальной точкой на шкале времени, конечной точкой на шкале времени и фокусностью. В зависимости от положения начальных и конечных точек событие А может произойти раньше события B, или событие B раньше A, или они могут перекрываться. Определяется алгебра времени <Е, <=, <, o, inc, * >, где Е - множество событий; <= - частичный порядок включения [6]; < - строгий порядок следования событий во времени [7]; о - перекрывание событий во времени; inc - включение событий по времени,* - помета главного(фокусного) события. Алгебра предназначена для определения событий внутри одной ситуации. Например, ситуация "потопить корабль"(е3) предполагает два события е1 - каузацию потопления (обычно выстрел) и е2 - сам процесс опускания корабля на дно. В этом случае е3 логически состоит только из е1 и е2, причем е1 < e2.
Фокусность определяет главное событие всего слова, например у слов покупать и продавать одинаковая событийная структура, состоящая из двух событий:
е1: X передал некоторому Y-у некоторый Z за деньги;
е2: Y получил от Х некоторый Z за деньги.
Для глагола покупать событие е2 будет фокусным, а для глагола продавать - событие е1. Фокусность используется для определения смысла некоторых свободных обстоятельственных групп, например фраза John ran home for an hour может быть осмыслена двояко: либо John бежал два часа домой, либо он находился два часа дома, но поскольку фокусным событием во фразе run home является заключительное состояние (быть дома), то остается только последняя интерпретация, что соответствует интуиции англоязычного носителя.
Смысловая структура одного объекта (QUALIA STRUCTURE) состоит из четырех полей:
CONST - отношение между объектом и его составляющими;
FORMAL - отношение, которое выделяет его внутри предметной области;
TELIC - назначение объекта;
AGENT - причины, приведшие к появлению этого объекта. Например, для слова novel эти поля будут заполнены так:
CONST = narrative
FORMAL = book
TELIC = reading
AGENT = writing
Такое описание смысла слова очень симметрично. CONST - описывает внутреннюю структуру объекта ("взгляд внутрь"), FORMAL - внешнюю характеристику объекта ("взгляд наружу"), TELIC - назначение объекта ("взгляд в будущее"), AGENT - происхождение объекта ("взгляд в прошлое"). Нетрудно соотнести эти поля с принятыми в русской традиции названиями тезаурусных отношений ЧАСТЬ(CONST), ВЫШЕ(FORMAL) и лексических функций Real(TELIC) и Incep (AGENT). Ясно, что эти четыре поля идеально приспособлены к предметным существительным, но уже слова-ситуации трудно описать в этих терминах. Вот как, например, описывается глагол to build:
FORMAL = exist (e2, a2)
AGENT = build_act (e1, a1).
Здесь а1 и а2 - аргументы глагола to build ("кто строит" и "что строит"), e1 и е2 - два подсобытия: действия по строительству(е1) и состояние построенного объекта(е2). Получается, что глагол to build отличается от остальных тем (FORMAL), что после его второго заключительного события объект глагола начинает существовать, а причиной (AGENT) этому послужили "строительные действия" субъекта глагола. Грубо говоря, все, что здесь сказано, что to build - креативный глагол, связанный со строительными действиями. С нашей точки зрения, этого явно мало для семантического словаря.
Центральной частью книги является представление трех генеративных механизмов, указанных выше (преобразование типа, выборочное связывание и ко-композиция). Преобразование типа - это операция, конвертирующая тип аргумента в тот, который нужен функции, если конвертор этого типа приписан аргументу или функции. Конверторы – это небольшие правила, описывающие, как нужно конвертировать. Различаются два вида операций преобразования типа: преобразование по отношению НИЖЕ (subtype coercion) и полное преобразование аргументов (true complement coercion). Преобразование по отношению НИЖЕ позволяет конвертировать тип слова в другой тип, к которому приписано поле по полю FORMAL. Например, FORMAL второго актанта глагола drive (ехать) должно быть vehicle (транспортное средство). Благодаря преобразованию по отношению НИЖЕ возможны фразы типа:
She drove a new Honda.
Здесь Honda - разновидность транспортного средства.
Полное преобразование аргументов использует поля TELIC и AGENT. Это преобразование позволяет объяснить и протолковать фразы:
Mary wants a beer. (используется поле TELIC)
John began a book. (используется поле AGENT)
Операция ко-композиции позволяет перераспределять семантическую нагрузку таким образом, чтобы число значений слов в лексиконе было минимально. Эта операция работает тогда, когда смысл выражения получается путем взаимной адаптации элементов выражения друг к другу, причем влияние элементов принципиально не однонаправлено. Примером ко-композиции служит использования глагола to bake, который в традиционных описаниях (Atkins[1988]) имеет два значения:
John baked the potato (изменение состояния)
John baked the cake (креативное действие)
Пустейовский приписывает этому глаголу только одно значение (первое), а второе получает с помощью ко-композиции. Креативное значение возникает потому, что в поле AGENT(cake) приписано действие bake. Таким образом, если поле AGENT некоторого объекта Х равно Y-у, и Y синтаксически управляет Х-ом, то значение фразы Х Y должно быть такого типа: "создание с помощью действия Y объекта X".
Нам представляется, что, если смотреть на поле AGENT как на лексическую функцию, то ко-композиция была бы очевидна, поскольку в таком случае глагол to bake считался бы призвязочным глаголом (с нулевой семантикой), а существительное cake - словом-ситуацией. Это вполне оправдывало бы передачу семантического веса от глагола к существительному.
Последний из генеративных механизмов - операция выборочного связывания. Эта операция похожа на ко-композицию, но относится к отношениям не между существительным и глаголом, а между прилагательным и существительным. С помощью поля TELIC операция позволяет осуществлять следующие трансформации:
a good knife: a knife that cuts well
а fast typist: a typist who types fast.
Все перечисленное выше составляет ядро Генеративного лексикона. Несмотря на очевидно новые и глубокие идеи, развитые автором, этот подход подвергся критике, которую мы рассмотрим на примере статьи Fodor&Lepore[1996]. Основные критические замечания, высказанные авторами, были следующими:
- Д.Пустейовский работает в русле так называемого информационно-ролевого подхода, когда в значение слова включают механизмы вывода и лексические отношения(синонимия, антонимия и т.д.) с другими словами. В противоположность этому подходу существует традиционная денотативная семантика, когда смысл слова состоит только из отсылки к его денотату. Fodor&Lepore считают, что определения лексических отношений и механизмов вывода никогда не формулируются точно, a, наоборот, часто опираются на энциклопедические сведения, поэтому сам информационно-ролевой подход вместе со всеми его отношениями не является продуктивным направлением.
- Многие примеры Пустейовского, по мнению этих авторов, не совсем корректны. Например, предложение Mary wants a beer не равен по значению Mary wants to drink a beer (пример полного преобразования аргументов), поэтому не нужно строить никаких механизмов, их приравнивающих. Кроме этого, пример to bake a potato звучит смешно ("sounds funny") и т.д.
- Механизмы Генеративного лексикона, как кажется, могут осмыслить фразы, которые в языке семантически неприемлемы. Если генеративный механизм из John finished a cigarette получает John finished smoking a cigarette, то, развивая подобные выводы, почему нельзя осмыслить фразу "John asserted a cigarette" таким образом: "for some cigarette-involving proposition P, John asserted P"?
С первым пунктом критики мы не согласны, поскольку точные определения синонимии и прочих отношений давались во многих работах (например, Апресян[1995]). Правда, эти определения основывались на семантических примитивах, введенных самими же авторами.
Второй пункт не входит в нашу компетенцию, поскольку здесь одни лингвисты обвиняют в неправильности примеров другого лингвиста, причем для всех этих специалистов английский язык - родной.
С последним замечанием мы склонны согласиться, поскольку в Генеративном лексиконе, действительно, нигде не говорится об ограничениях в генерации, поэтому перегенерация("overgeneration") новых смыслов возможна.
Система Artwork (Wiebe[1997]) - подсистема испано-английского
машинного перевода диалогов,
выполняющая две функции: вычисление значений групп времени (temporal
reference resolution) и приписывание коммуникативной цели ("вопрос",
"предложение", "согласие", "отказ" и т.д.) высказываниям участников
диалога(speech act resolution). Нас будет интересовать первая функция системы
Artwork, поскольку вторая более специфична для диалогов, исследование которых
составляют отдельное направление.
Участники диалогов (материал системы Artwork) разговаривают только
на одну тему: назначение общей встречи когда-нибудь в будущем.
На вход системе подаются результаты семантического анализа, которые
называются межъязыковым текстовым представлением (InterLingual Text или ILT). В
ILT все группы времени, которые были в тексте, уже обнаружены. Некоторые из
них самодостаточны и полностью
определены, другие требуют доопределения. Приведем пример диалога:
s1: Hello, can we meet next week... mmm on Thursday?
s2: On Thursday I can meet after two pm
s1: Then how does from two thirty to four thirty seem to you?
s2: OK, then Thursday the nineteenth of August.
s1: Good.
Именно доопределение временных групп является первой задачей ArtWork.
Полное определение временной группы предполагает заполнение слотов темпорального кортежа (temporal unit или TU):
((start-month, start-week, start-date, start-day-of-week, start-hour&minute, start-time-of-day)
(end-month, end-week, end-date, end-day-of-week, end-hour&minute, end-time-of-day))
Некоторые слоты избыточны, например, start-week вместе с start-day-of-week
эквивалентны слоту start-date, но это неважно, поскольку данное представление
направлено на доопределение, а не на хранение "аптечной" информации по времени.
С помощью темпоральных кортежей можно хранить как точки на оси времени, так и
отрезки, например, выражение From 2 to 4, on Wed the 19th of August будет
представлено так:
((August, 19th, Wed, 2, PM), (August, 19th, Wed, 4, PM)),
а выражение "It is now 3pm":
((,,,3,PM), (,,,3,PM)).
Каждой временной группе диалога приписывается один темпоральный
кортеж. Некоторые слоты могут быть пустыми, что соответствует нашему текстовому
"незнанию". Задача алгоритма - указать, какие темпоральные кортежи относятся к
одному и тому же времени, тем самым доопределив кортежи максимальным образом. В
связи с этим, различаются анафорические и неанафорические вхождения кортежей.
Анафорическое вхождение интерпретируется с учетом кортежа, который был упомянут
выше. Неанафорическое - указание времени, которое не обсуждалось выше.
Например:
- s1: How is Wednesday, January 31st?
- s2: No good. I have classes Wednesday.
- s1: Let’s meet next Monday at 2 pm.
Здесь "Wednesday" во втором примере - анафорическое вхождение, а
"Monday" в третьем - неанафорическое. Анафорическое вхождение ссылается на
какое-то предыдущее вхождение, которое будет называться TU_previous.
Неанафорическое может использовать
только слоты текущего времени диалога (TU_current).
Алгоритм доопределения использует отношение частичного порядка на
слотах кортежа, задающего точность (specificity) самого кортежа. Например,
кортеж, в котором определен только
месяц, менее точен, чем кортеж, в котором определены месяц и дата. Отношение
точности определено следующим образом:
month < week <
weekday < time of day < hour&minute
month < date < time of day <
hour&minute
Чаще всего анафорическое вхождение только уточняет свой антецедент,
например:
s1: I am completely free the
first week in March
s2: Well, how about Tuesday
then?
Но бывает замена самого последнего (самого "точного") слота кортежа
другим. В таком случае общая точность
кортежа остается такой же:
s1: Are you free Tuesday at
3?
s2 No, how about 2?
Основываясь на данных выше определениях, авторы системы формулируют правила доопределения:
1. Неанафорические вхождения:
а. Правила для выражений типа tomorrow,
last week, которые напрямую
вычисляются по TU_current(текущей дате диалога);
б. Правила вычисления кортежа по TU_current и указанному дню
недели. Например, вычислить время встречи, если собеседник предлагает встретиться в среду (мы знаем,
какой сегодня день недели). Например:
TU_current = Monday, 19th, August
How about Wednesday at 2? => 2pm, Wed 21 Aug.
2. Анафорические вхождения:
а. Правило уточнения, когда текущее вхождение уточняет предыдущее
(TU_previous);
б. Правило обобщения, когда
текущее вхождение обнуляет некоторые слоты TU_previous, поскольку они оказались
неприемлемыми для собеседника;
в. То же, что и правило 1.б, но вместо TU_current используется
TU_previous.
г. Правило замены самого конкретного слота TU_previous другим.
Происходит тогда, когда говорящий согласен со всеми слотами кортежа, кроме самого конкретного, и предлагает его
заменить.
Сформулированные правила не исключают друг друга, а могут,
наоборот, сосуществовать. Каждое правило снабжено специальным коэффициентом
доверия, который применяется при оценке вывода. Кроме этого, используется
коэффициент расстояния для
анафорических правил, оценивающий расстояние от обрабатываемой временной группы
до TU_previous.
Общий алгоритм работает так. Для входного диалога и для каждого темпорального кортежа применяются
все правила. Пусть R1,..., Rn - все
результаты работы правил для всех кортежей. На R1,..., Rn можно установить
отношение совместимости в том смысле, что два одинаковых слота кортежей,
обозначающих один временной отрезок [8],
не могут быть заполнены ненулевыми разными значениями. Решениями системы
считаются все максимальные совместимые подмножества R1,..., Rn, у которых
максимальны суммы коэффициентов расстояния и доверия.
Оценки качества этого алгоритма достаточно высоки. Полнота - 81%
(отношение правильно уточненных кортежей ко всем кортежам), точность - 92%
(отношение правильно уточненных кортежей ко всем уточненным кортежам).
Нас же интересует в этом алгоритме сама схема его организации,
которая кратко выглядит так. Иемеются правила, меняющие некую лингвистическую
структуру. Правила могут сосуществовать и не противоречить друг другу. Порядок
применения принципиально не задан,
поэтому приходится применять все правила сразу, а потом искать те решения, которые не противоречат друг другу.
Сами авторы, в принципе, готовы
назвать свою систему системой продукций, за одним исключением:
вместо того, чтобы выбрать в качестве результата правую часть последней
отработавшей продукции, результат получается из многих продукций, совместимых
друг с другом.
|
Система UNL (Universal Networking Language) |
^ |
Проект UNL возник
в 1996 г. внутри одного из научных институтов под эгидой ООН. UNL – метаязык для описания семантики
естественных языков. Основной документ по UNL (Uchida[1996]), в котором
содержится спецификация и идеология языка, доступен в Интернете. На данный
момент над проектом UNL работают пятнадцать университетов и научных институтов,
в том числе часть сотрудников ИППИ РАН, разрабатывающих систему ЭТАП (Boguslavsky
et al. 2000).
UNL – это, прежде всего, интерлингва - язык, который должен быть посредником между естественными языками
во время машинного перевода. Для каждого естественного языка нужно написать конвертор,
который переводит c этого языка на UNL, и деконвертор, который переводит
в обратную сторону. Разработчики UNL считают, что конверторы и деконверторы
не должны быть полностью
автоматическими, а, наоборот, - позволять ручное вмешательство. После
постредактирования документы на UNL могут быть не только переведены на другой язык, но тематически
проиндексированы и, в конце концов, должны быть сохранены в базе данных всех
UNL-документов. База данных должна быть доступна в компьютерной сети. Таким
образом, UNL – это язык электронных документов, максимально приспособленный для
автоматической обработки.
Текст на естественном языке представляется на UNL ориентированным
гиперграфом. На дугах написаны семантические отношения типа: agt (агент), obj (объект), tim(время),
plc(место), ins(инструмент) и т.д. В узлах находятся т.н. универсальные
слова (Universal Words или UW). Узлам могут быть приписаны одноместные
грамматические характеристики: @imperative, @generic, @future, @obligation и т.д.
Каждому универсальному слову могут быть приписаны семантические
характеристики, которые уточняют значение слова. Для этого используется поле
icl (is a class?), например, коса
(icl>берег) – разновидность формы берега, коса(icl>инструмент)
– инструмент, которым косят траву.
Ниже будет приведен пример UNL
графа для предложения
Monkey eats bananas
[W]
eat(icl>do).@present:00
monkey(icl>animal).@generic:01
banana(icl>food).@generic:02
[/W]
[R]
00agt01
00obj02
[/R]
Здесь UNL-описание поделено на две части: перечисление
универсальных слов ([W]… [/W]) и перечисление отношений, которые связывают
универсальные слова ([R]… [/R]). Для записи отношений используются коды
универсальных слов, которые записаны слева от универсальных слов через
двоеточие.
Каких-либо полных и
авторитетных перечней семантических и
грамматических характеристик в книге Dr. Uchida не дается, но зато есть
проработанный список семантических отношений с определениями и комментариями.
Этот список представлен ниже в сокращенном варианте.
Отношение |
Определение |
Примеры |
|
agt |
Определяет
участника, который контролирует ситуацию (АГЕНС) |
John breaks;Computer translates |
and |
конъюнкция |
|
aoj |
связывает
объект с его признаком или состоянием |
leaf is red; John is a teacher |
ben |
связывает
событие с участником, который либо что-то приобрел в результате, либо пострадал
от этого события |
John give ... for Mary |
cag |
нефокусный агент ситуации |
walk with John;lives with aunt |
cao |
нефокусный
признак или состояние |
is here with you |
cnt |
равенство
|
|
cob |
нефокусный
объект ситуации |
died with Mary
have a pen with a pencil |
con |
условие |
If light is green, ... go |
coo |
отношение
между двумя одновременными событиями |
run with crying |
dur |
отрезок
времени, который заняло событие |
work nine hours |
fmt |
промежуток
между двумя полюсами |
from a to z;from Osaka to New York |
frm |
происхождение
объекта |
man from Japan |
gol |
конечное
состояние процесса или заключительное состояние |
change ... to red
is transformed ... to strong |
ins |
инструмент |
look ... with telescope |
man |
способ
действия или аспект состояния |
look quickly
very beautiful |
met |
средство,
используемое для достижения целей |
... solve ... with dynamics
... solve ... using algorithm |
mod |
любое
ограничение обьекта |
whole story;master plan |
nam |
имя
объекта |
Tokyo tower |
obj |
объект,
на который напрямую направлено действие |
cure paitient
snow melt |
opl |
место,
на которое направлено действие |
pat ... on shoulder
cut ... in middle |
or |
дизъюнкция |
|
per |
периодичность
или пропорция |
.two
per day; twice a week |
plc |
место
|
cook ... in kitchen |
plf |
исходная
точка |
go from home |
plt |
конечная
точка |
talk until Boston |
pof |
отношение
ЧАСТЬ |
Bird's wing. |
pos |
отношение
принадлежности |
John's dog |
ptn |
партнер,
с которым вы вместе действуете |
collaborate with machine |
pur |
назначение
объекта или цель действия |
come to see;budget for research |
qua |
количество |
seven truckload |
rsn |
причина |
go because of illness |
scn |
виртуальное
место |
play in movie |
seq |
отношение
предшествования во времени |
look before leaping |
src |
начальное
состояние процесса |
change from red
is transformed from weak |
tim |
время |
look on Tuesday |
tmf |
время
начала |
look since morning |
tmt |
время
завершения |
think until morning |
to |
направление |
train for London |
via |
промежуточное
состояние, маршрут |
go ... via New York |
Видно, что в перечне
довольно много традиционных семантических отношений (agt, obj, tim, aoj, plc и
т.д.), но есть, с нашей точки зрения, некоторые излишние новшества:
Отношения cag отличается
от agt тем, что cag связывает нефокусного
агента с процессом, который возник в результате основного процесса. Правда,
примеры свидетельствуют о том, что фокусный и нефокусный агенты скорее
задействованы в одном процессе (см. в
таблице). Такие же соображения относятся к нефокусному объекту (cob) и состоянию (сao), поэтому, наверно, проще было бы ввести специальный атрибут @фокусность, а не плодить отношения.
В перечне нет самых общих отношений исходной и конечной точки.
Вместо этого есть только конкретные
реализации:
конечная точка (gol, plt, pur, tmt, to);
исходная точка (frm, plf,
tmt);
отрезки (dur, fmt).
Отношение scn – это
отношение виртуального места, но почему тогда нет отношения виртуального
объекта (бороться с грехом) или
виртуального агента (пришла одна мысль)?
Отношения via (маршрут)
и per (периодичность) – очень
хорошее новое предложение. Мы надеемся, что эти отношения обязательно войдут в
будущие системы автоматической обработки текста.
Система ФРАП (французско-русского автоматического перевода) была
разработана коллективом лаборатории машинного перевода Всесоюзного центра
переводов совместно с коллективом лаборатории машинного перевода МГПИИЯ им М.
Тореза. Общее описание системы можно получить в статье Леонтьева[1986].
Система ФРАП была реализована в двух версия: ФРАП1 (1976-1980) и
ФРАП2(1980-1986). В системе ФРАП1 устойчиво работал только
грамматизированный подстрочник, а синтаксический и семантический компоненты
работали в автономном режиме, между собой они не были состыкованы. В системе ФРАП2 был полностью реализован
синтаксический компонент и начат семантический компонент. Устойчивый перевод осуществлялся на
синтаксическом уровне, поскольку семантический анализатор не был закончен, и
семантический словарь содержал всего 1000 входов. Однако именно семантическая
часть ФРАП2 представляет собой интересную попытку использовать смысловые
механизмы для машинного перевода. В каком-то смысле, система Диалинг, с которой автор данной диссертации связывает все
свои достижения, является развитием и
продолжение системы ФРАП2.
Система ФРАП1-2 обладала особой информационно-переводческой
моделью, которая, как нам кажется, достаточно продуктивна. Компоненты,
составляющие переводческую модель, - лингвистические процессоры, которые друг
за другом обрабатывают входной текст. Вход одного процессора является выходом
другого. Выделяются следующие компоненты:
- Графематический анализ. Выделение слов, цифровых комплексов, формул и т.д.
-
Морфологический анализ. Построение морфологической интерпретации слов входного текста.
-
Синтаксический анализ. Построение дерева зависимостей всего предложения.
-
Семантический анализ. Построение семантического графа текста.
-
Информационный анализ. Соотнесение в семантического графа с внешними базами данных.
Для каждого уровня разрабатывался свой язык представления.
Язык представления, как полагается, состоял из констант и правила их комбинирования. На
графематическом уровне константами были графематические дескрипторы (ЛЕ –
лексема, ЦК – цифровой комплекс и т.д.) На морфологическом уровне – граммемы (рд – родительный падеж, мн
-множественное число). На
синтаксическом – названия отношений (suj – отношение между подлежащим и сказуемым, circ
- обстоятельство). О других уровнях будет сказано ниже.
С каждого уровня представления можно сделать переход к такому же
представлению на другом естественном языке (трансфер), что позволяет осуществлять перевод, даже
если "глубокие" (семантический и информационный) анализаторы не смогли
обработать текст. Основой для построения уровней служили результаты работы
предыдущих этапов, но, что важно, последующие анализаторы также могли улучшить
представление предыдущих. Например, для
какого-то предложения синтаксический анализатор не смог построить полного
дерева зависимостей, тогда, возможно, семантический анализатор сможет
спроектировать им построенный семантический граф на синтаксис.
Такой многоуровневый подход позволяет предложить критерии оценки
систем машинного перевода. Разработчики ФРАП (Леонтьева et al[1980] ) показали,
что для достижения адекватности
перевода (равенство по смыслу
входному тексту) и грамматической правильности выходной фразы
необходимо присутствие всех пяти этапов, причем адекватность перевода можно гарантировать только после работы
"глубоких" анализаторов. Таким образом, критерии оценки систем машинного
перевода сводятся к оценке проработанности отдельных уровней представления.
Перейдем теперь к описанию семантического представления системы
ФРАП.
Семантика системы ФРАП состоит из двух частей. Первая -
семантический язык и аппарат, куда входят смысловые отношения (СО) и
семантические характеристики (СХ),
понятие валентной структуры и формализм написания словарных статей.
Вторая - алгоритмическое использование семантического аппарата в тексте:
интерпретация синтаксического представления (СинП), построение и проверка семантических узлов(СемУ), общая оценка
семантического представления (СемП). За исключением тех замечаний, о которых
будет говориться ниже, первая часть семантики ФРАП была полностью построена. Вторая же часть просто не была до
конца спроектирована: в ней не было
последнего этапа, который бы контролировал СемП общими структурными законами,
а можно было говорить только о
локальной правильности валентных структур [9].
Семантический аппарат системы ФРАП был потом использован в системах
ПОЛИТЕКСТ (Леонтьева [1995]), например, в Русском общесемантическом
словаре(РОСС)( Леонтьева[1997]) , из которого, собственно, был взят весь
иллюстративный материал третьей главы данной диссертации.
В центре семантического аппарата ФРАП (первая часть семантики)
находятся два перечня: семантических характеристик (СХ) и смысловых отношений
(СО). Используется минимальное
количество семантических характеристик: ВЕЩВО("вещество"),
ИЗМ("изменение"),
ИНТЕЛ("интеллектуальность"), ИНФ("информация") и т.д.; слова
характеризуются по признаку принадлежности к одному или нескольким классам. СХ
обеспечивают проверку семантического согласования при интерпретации связей в
тексте. Никаких жестких критериев составления перечня СХ не существует.
Перечень не однороден: некоторые СХ можно условно назвать признаками, а другие
объектами. Например, ВОСПР ("слышать", "видеть"), ИНТЕЛ ("изучать", "решать"),
ХОР ("взаимопомощь", "мужество"), ГОС ("республика", "министерство") и т.д. –
заведомо СХ-признаки, а НОСИНФ ("книга", "газета"), УСТР ("компьютер",
"автомобиль"), ДОЛЖ ("повар", "партработник" ) - СХ-объекты. Характеризовать
слова можно целыми формулами, составленными из СХ, например,
СХ("компьютер")=ИНТЕЛ,УСТР [10];
СХ("министр") = ГОС, ДОЛЖ.
Но даже комбинирования признаков, на самом деле, не хватает:
перечень СХ-объектов заведомо неполон, т.е., его не хватает для описания всего
языка.
Если сравнивать систему ФРАП с системой Микрокосмос, то в системе
Микрокосмос СХ-объектам соответствуют концепты онтологии, зависящие от концепта
OBJECT. Таких концептов больше, чем СХ-объектов, но меньше, чем слов,
обозначающих объекты. Всего их около 3000. Системы, в которых число таких
концептов сильно больше или меньше, разработчики Микрокосмоса (Viegas et
al.[1998]) условно называют
"минималистскими" (например, Conceptual Dependency Theory of R. Schank) и "максималистскими" (например, WordNet,
Miller et al[1988]). Безусловно, что к минималистскому подходу можно отнести
систему ФРАП. По мнению все тех же разработчиков Микрокосмоса, "минималистский"
подход нельзя довести до промышленного масштаба, а главное, с ним трудно
организовать синтез, который смог бы обрабатывать сложные толкования слов и
порождать предложения на естественном языке.
Мы согласны с этой критикой. Наши собственные исследования в
конкретных предметных областях (географическая и компьютерная) показали, что
перечень СХ-объектов не полон. В
географической области пришлось вводить СХ ВОДН(озеро, река) и АДМ(город,
район), в компьютерной КЛАВИША (Delete, CapsLock, Ctrl), ПРОГР(симулятор,
драйвер, операционная система, редактор). Все они выполняли роль селективных
ограничений и были необходимы для построения СемП. Таким образом, стало ясно,
что перечень СХ-объектов не должен состоять только из 20 констант("минималистский") - его размер должен быть на порядок больше.
Если СХ-объекты относятся в основном к номинативной лексике, то
СХ-признаки более разнородны. СХ ВОСПР,ИЗМ,ДВИЖ, КОММУНИК, ИНТЕЛ – глагольные
характеристики,а АБСТР, ВРЕД, ХОР, ЭМОЦ, МЕСТОИМ, СОБИР – общие.
Алгоритмическое использование глагольных характеристик очевидно, поскольку
похожие классификации русских глаголов обозначаются во многих исследованиях
(например, Апресян[1967]). За каждым глагольным СХ-признаком стоят конкретные
синтаксические и семантические преобразования.
Второй класс СХ-признаков представляет область "чистой" семантики,
поскольку эти СХ фактически не используются как селективные ограничения, а
скорее являются часть смысла слова. Две из них ХОР и ВРЕД равны по смыслу
лексическим функциям Bon и AntiBon (Мельчук [1974]), поэтому в последнее время
стали ими заменяться. Другие общие СХ-признаки (АБСТР (модель, план, структура, тенденция), МЕСТОИМ (проблема,
вопрос, намерение), ЭМОЦ (мизерный,
могучий, несчастный), СОБИР (библиотека,
молодежь, группа) ) вызывают наибольшую трудность у составителей словаря, что объясняет наибольший процент ошибок при
приписывании этих СХ. Таким образом, ввиду алгоритмической безосновательности
не все общие СХ-признаки были перенесены в систему Диалинг.
Теперь коротко охарактеризуем перечень семантических отношений (СО)
или глубинных падежей, открытие которых обычно приписывается Ч.Филмору (Fillmore
[1968]). В том или ином виде основное ядро отношений системы ФРАП (АГЕНТ, ИДЕНТ
(идентификатор), ПРИНАДЛ(принадлежность), АДР (адресат), СУБ (субъект, ОБ
(объект), ПАЦИЕН (пациенс), СОДЕРЖ (содержание), МОДЛ (модальность), КОН-Т
(конечная точка), ИСХ-Т (исходная точка), СРЕДСТВО, ОГРН(ограничение), КОЛИЧ
(количество) и т.д.) уже давно является
частью всеобщего лингвистического аппарата. С похожими отношениями работают
многие исследователи (Апресян[1995], Леонтьева[1998], Падучева[1998] и мн.
другие). Эти отношения, входящие в основное ядро, наиболее часты в словаре РОСС
(80 процентов), тогда как существуют
довольно много отношений, вклад которых ничтожен. Именно такие низкочастотные
"карлики" были убраны в системе ДИАЛИНГ и заменены на более общие отношения по
схемам, часть которых приведена в Приложении 1.
[1] Работа
опубликована в сборнике "Семиотика и информатика". Выпуск 35. 1997.
[2] Именно так
называют заключительную структуру авторы системы, хотя мы, повторяю, назвали бы
ее первично семантической.
[3] Возможный
мир определяется координатами типа <текущее время, место, говорящий и т.д.>.
[4] Например, принцип может формулироваться
так: "Смысл выражения получается с помощью некоторой функции из смылов его
синтаксических составляющих и интуиции говорящего".
[5] Ясно, что,
раз уже аргументы типа свободного обстоятельства относятся ко всей ситуцации,
они никогда не входят в аргументные
структуры конкретных слов.
[6] Например,
движение левой ноги обычно явлется логической частью ходьбы. Логический порядок
никак не связывает события по времени.
[7] Например,
после нажатия курка из ствола вылетает пуля.
[8] Два кортежа
Х и Y из некоторых Ri и Rj обозначают один временной отрезок, если: 1. они
относятся к одному и тому же месту текста; 2 либо связаны анафорическими связями
с кортежами, которые относятся к одному и тому же месту текста.
[9] Это
приводило к тому, что вопрос о выборе нужного номера значения в словаре вообще
никак нельзя было решить.
[10] Запятая
здесь обозначает конъюнкцию.
[11] Нужно заметить, что экспоненциальный взрыв может возникнуть только теоретически, поскольку для этого нужно, чтобы первая фаза алгоритма породила бы все возможные полные деревья предложений, а вторая фаза (пост-процессинг) вынуждена была бы перебирать все эти деревья. В реальности же грамматики для любых естественных языков никогда не порождают множества всех возможных деревьев. См. подробнее об этом дискуссию с Сергеем Протасовым в гостевой книге на сайте www.aot.ru.
главная о нас продукты скачать демо технологии ^ |