АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии   ^

Словосочетания в проекте ДИАЛИНГ

Словосочетания в проекте ДИАЛИНГ

Словарь устойчивых словосочетаний

 

Словосочетания в проекте ДИАЛИНГ ^

Словосочетаниям в проекте ДИАЛИНГ уделено достаточно большое внимание, поэтому актуальной стала задача их алгоритмической классификации. Классификация построена на двух дихотомиях, которые будут описаны ниже.

Вообще говоря, по способу обнаружения словосочетания могут быть условными (выполнение всех синтаксических и лексических требований к словосочетанию в тексте еще не является достаточным условием их существования в тексте) и безусловными (для которых синтаксические и лексические условия являются достаточными). Безусловные словосочетания обладают повышенной синтаксической или лексической идиоматичностью типа: «бить баклуши». Условные словосочетания требуют семантических свидетельств в пользу их существования, поэтому в семантическом анализе должны рассматриваться обе альтернативы СемП (словосочетание и как свободная цепочка слов), что, естественно, замедляет анализ. Составитель словаря должен помечать условные и безусловные словосочетания разными флагами; любые сомнительные случаи должны трактоваться как условные.

Противопоставление открытого и закрытого словосочетания используется уже только в семантическом представлении.Открытое словосочетание отличается от закрытого тем, что каждый элемент открытого словосочетания получает отдельную словарную интерпретацию, а закрытое словосочетание может получить только интерпретацию в целом. Поскольку элементы открытого словосочетания получают собственную словарную интерпретацию, они могут присоединять по валентностям другие узлы. Закрытое словосочетание переходит в один семантический узел, а открытое в связный подграф, в котором есть одна главная вершина, представляющая это словосочетание, но все остальные узлы не являются пассивными. Вышесказанное сведено в следующую таблицу:

Словосочетания = безусловные открытые безусловные закрытые
условные открытые условные закрытые

Для увеличения скорости работы программы в нашей реализации все открытые словосочетания являются безусловными. Таким образом, класс условных открытых словосочетаний в нашей реализации не рассматривается.

При поиске словосочетаний очевидно, что существуют некие ограничения на совместное вхождение словосочетаний в какое-то предложение. Назовем эти ограничения условием бесконфликтности. Бесконфликтность для закрытых словосочетаний формулируется просто: если слово входит в закрытое словосочетание, то оно не может быть частью другого словосочетания. Бесконфликтность вхождений безусловных словосочетаний находится вне рамок данной диссертационной работы, поскольку для обнаружения безусловных словосочетаний нужно использовать только лексико-грамматические, но не семантические условия. Теоретический интерес представляет бесконфликтность для условных открытых словосочетаний (теоретический – поскольку в проекте ДИАЛИНГ они считаются безусловными). Понятие конфликтности для них может быть улучшено, если учесть синтаксическую однородность. Пусть X1, X2,…,XN текстовые вхождения элементов словосочетания С1, а Y1, Y2,…,YN – словосочетания С2. Действительно, можно считать вхождения С1 и С2 бесконфликтными, если: 1. никакой Xi(1<=i<=N) не равен никакому Yj(1<=j<=N); 2. или все Xi равны Yi (1<=i<=N) кроме некоторого Xj, который не равен Yj, но связан с ним синтаксическим отношением однородности. Первый пункт это фактически бесконфликтность для закрытых словосочетания, а иллюстрации второго пункта приведем пример. Пусть в словаре есть два словосочетания «сделать возможным» и «сделать необходимым», тогда вхождения этих словосочетаний во фразу «сделать возможным и необходимым» будут считаться бесконфликтными по второму пункту определения. Любые дальнейшие обобщения определения бесконфликтности с позиции однородности мы считаем непродуктивными из-за отсутствия каких-либо подтверждающих их языковых примеров. На самом деле, даже такая достаточно скромная коррекция по однородности может вызвать много проблем на дальнейших этапах машинного перевода.  Например, если одно словосочетание переводится одним словом, а другое – целой конструкцией, то программа будет вынуждена перестроить однородность таким образом, чтобы однородными стали уже не элементы словосочетаний, а словосочетания в целом.

 

Словарь устойчивых словосочетаний ^

Устойчивым словосочетанием мы назовем конструкцию, у которой семантические параметры и валентная структура не могут быть вычислены по-элементно. Вообще, в проекте ДИАЛИНГ устойчивые словосочетания (далее просто словосочетания) делятся на три типа:

  1. идиомы;
  2. построенные на лексических функциях-параметрах;
  3. построенные на словах с ограниченной сочетаемостью.

Самым многочисленным типом являются словосочетания, построенные на лексических функциях-параметрах. Эти словосочетания состоят из двух слов, одно из которых называется словом-ситуацией, а второе словом-параметром (присвязочным глаголом).  Значение лексических функций-параметров записывается в словарной статье слова-ситуации в словаре РОСС (поле ЛФ). Набор лексических функций включает стандартный набор (Мельчук[1974]), но им не ограничивается. Надо сказать, что в проекте ДИАЛИНГ все двусловные словосочтания с ярко выраженными словом-ситуацией и словом-параметром считались построенными на лексических функциях.

По оценкам специалистов (Борисова[1995]), словосочетаний, построенных на словах с ограниченной сочетаемостью (типа «щекотливый вопрос»), на порядок меньше тех, которые построены на лексических функциях. В проекте ДИАЛИНГ такие словосочетания записываются в словаре РОСС в поле ОЛХi (обязательная лексическая характеристика). Например, для слова «щекотливый» ОЛХ1 (относится к первой пассивной валентности) будет таким:

ОЛХ1         =       вопрос
                                           положение.

Словосочетания, построенные на словах с ограниченной сочетаемостью, не требуют перерасчета валентностей, а потому, если следовать строго определению, не являются устойчивыми.

Идиомам как самым многочисленным представителям фразеологических оборотов в лингвистической литературе уделяется огромное внимание (Жуков[1986], Телия[1996], Солодуб[1997] и др.). Основные теоретические проблемы касаются определения границ фразеологизмов и особенностей фразеологического значения в сравнении с лексическим значением. Несмотря на теоретическую недостроенность фразеологической теории (что, вероятно, не произойдет никогда), существуют достаточные полные словари идиом, которые можно использовать в машинном переводе (Телия [1995]).

Поскольку идиомы являются устойчивыми конструкциями (см. определение), они включаются в словарь словосочетаний. Так же в этот словарь включаются все фразеологические обороты, которые нельзя приписать к построенным на лексических функциях или словах с ограниченной сочетаемостью.

Формат словаря словосочетаний начал разрабатываться еще в проекте ПОЛИТЕКСТ (Салмин[1998]). В проекте ДИАЛИНГ формат словаря словосочетаний почти такой же, как у словаря групп времени, за исключением следующего:

  • форматы для английского перевода не так глубоко разработаны, поскольку в словаре групп времени полная процедура перевода содержалась в русской статье, а в словаре словосочетаний пишутся только отсылки к английским эквивалентам (словам или словосочетаниям);
  • дырка (‘_’) не является частью словосочетания, а показывает только место разрыва.
  • после каждого элемента поля СОСТАВ в квадратных скобках нужно записывать частицы, которые модифицируют эти элементы, например:
      ЗГЛ = не хватить духа
      СОСТАВ = хватить[НЕ] дух

В отличие от групп времени словосочетания по умолчанию считаются условными закрытыми. Если в словарной статье в поле ДОП записана внутренняя структура словосочетания, то такое словосочетание считается уже открытым. На существующей версии словаря словарных статей с полем ДОП пока нет.

 

главная о нас продукты скачать  демо технологии   ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.