АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии   ^

Диссертация А.Сокирко "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)"

Введение

Глава 1. Обзор литературы

Глава 2. Досемантический анализ русского текста

Глава 3. Первичный семантический анализ русского текста

Глава 4. Синтез английского текста

Заключение

Литература

Выступление на защите

 

Глава 4. Получение естественного текста  по семантическому представлению (на примере английского языка) ^

В системе ДИАЛИНГ после поверхностно  семантического анализа, который является последним этапом, работающим исключительно с русским представлением текста, следуют этапы трансфера и синтеза [1]. На этапе трансфера решаются следующие задачи:

  • Для узлов русского семантического графа  ищутся английские эквиваленты по Английскому общесемантическому словарю (АОСС), из которых строятся английские семантические узлы;
  • Английские семантические отношения строятся по русским отношениям с необходимыми перестройками;
  • Актантам английских узлов приписываются грамматические характеристики в соответствии с их словарными статьями.

На этапе синтеза, работающего непосредственно после этапа трансфера, осуществляется следующее:

  • Порождаются английские словоформы по заданным на этапе трансфера граммемам;
  • Определяется порядок слов;
  • Осуществляется перевод терминов, групп времени, слов, не вошедших в семантические словари;
  • Синтезируются артикли для именных групп.

Текущее разделение задач между синтезом и трансфером в проекте ДИАЛИНГ мы не считаем удовлетворительным, поскольку оно не имеет теоретического обоснования. Правильнее было бы считать этап синтеза чисто английским этапом, которому запрещено использовать русскую структуру. Тогда перевод всех типов русских узлов должен перейти на этап трансфера, в то время как порождение словоформ, порядок слов, артикли и т.д останутся на этапе синтеза.

В данной главе описаны решения задач трансфера, хотя некоторые задачи синтеза безусловно тоже являются семантическими [2]. Задачи трансфера решаются последовательно, несмотря на то, что предпочтительным был бы более «quot;дорогой»quot;, с точки зрения скорости, путь - параллельный. Первая задача трансфера - выбор английского эквивалента связан со следующими структурными трудностями:

  • некоторые подграфы русского графа могут перейти  в один  узел английского графа и наоборот,  например, открытое словосочетание может перейти в  закрытое или в даже одно слово;
  • абстрактные узлы русского графа (Copul, ModalCopul) должны перейти в конкретные английские леммы в соответствии с их  словарными статьями.

Первая трудность не была решена, хотя в некоторых простых случаях эта проблема рассматривалась, а именно: пусть дан подграф G, который должен быть переведен в английский узел У, тогда если все отношения, связывающие G c остальным графом, идут через семантически главную вершину G, то  перевод возможен, а все отношения, связывающие G c остальным графом, просто можно перенести к узлу У. В случае, когда хотя бы одна связь от подграфа G идет не через семантически главную вершину, перевод невозможен.

Перевод абстрактных узлов производится по словарным статьям и по специальным алгоритмам. Например, для фразы считать это главной задачей будет построено:

 СОДЕРЖ(Copul,считать),  П_АКТ (Copul,это),

 В_АКТ (Copul,задачей), ПРИЗН (главной, задача).

Этап трансфера преобразует эту структуру в следующее:

СОДЕРЖ(as(Copul),consider),  П_АКТ (as (Copul),this),

 В_АКТ (as(Copul),task), ПРИЗН (main, task).

Таким образом абстрактный узел Copul перейдет в предлог as.

Абстрактный узел ModalCopul возникает в словарных статьях отрицательных местоимений (негде, нечего, некогда и др). Теоретически, эти слова на  синтаксическом уровне имеют синтаксические валентности на ИГ в творительном падеже и инфинитив, например: Вам некуда идти,  Вам не о чем волноваться. Но на последнем примере видно, что сами эти слова заполняют валентность инфинитива: ТЕМА (не о чем, волноваться), т.е. своей  собственной  синтаксической валентности. Таким образом,  инфинитив волноваться заполняет синтаксическую валентность слова нечего, а  слово нечего заполняет семантическую валентность инфинитива волноваться(ТЕМА). Для того чтобы не получился цикл, приходится вводить абстрактный узел ModalCopul с двумя стандартными модальными валентностями СУБ и СОДЕРЖ, который является «quot;наместником»quot;   слова нечего: узел ModalCopul подчиняет инфинитив волноваться,  а инфинитив волноваться подчиняет нечего. В итоге, для фразы Вам не о чем волноваться будет построено:

СУБ (Вам, ModalCopul);СОДЕРЖ (волноваться, ModalCopul);

ТЕМА(не о чем, волноваться).

При переводе ModalCopul переходит в глагол to have. После необходимого упорядочивания актантов получаем: You have nothing to worry about.

Однако структурные трудности не являются основной проблемой при выборе эквивалента. Главная трудность - упорядочивание альтернативных вариантов перевода по семантической предпочтительности.  Здесь используются следующие критерии:

  1. Равенство валентных структур исходного слова и переводного эквивалента;
  2. Согласование СХ исходного слова с СХ переводного эквивалента.

Равенство валентных структур определяется как простое равенсто двух множеств валентностей, причем английская валентность считается равной русской, если она либо имеет такое же название, что и  русская, либо находится выше по иерархии. Так, валентность ИНСТР  какого-то русского предиката  может перейти в валентность С-ПОМ английского предиката, поскольку ИНСТР - разновидность С-ПОМ. Таким образом, валентности могут переходить только в более абстрактные. Естественно, что при проверке равенства валентных структур учитываются только заполненные валентности.

Согласование по СХ  так же использует иерархию семантических характеристик. Эта проверка полностью совпадает с функцией проверки отношений по семантическим характеристикам (см. выше).

Кроме семантических критериев используются некоторые лексико-грамматические правила:

  • Если в словарной статье дано N (N>1) переводов, то составитель может заставить программу выбирать j-й перевод в зависимости от грамматических, лексических или семантических свойств i-го актанта (поля АГХi(j), АЛХi(j) и  АСХi(j)). Например, запись АГХ1(2) = жр  означает, что если первому актанту приписана граммема женского рода, то нужно выбрать второй перевод из поля АНГ.
  • Если со словом в русском графе связана лексическая функция, то английский эквивалент, статья которого содержит одноименную лексическую функцию, имеет наибольший приоритет. В этом случае перевод для лексической функции берется из этой статьи.

Лексико-грамматические правила имеют приоритет над семантическими критериями.

После того как все русские узлы переведены в английские, программа приступает к решению второй большой задачи этапа трансфера - установлению грамматических характеристик по словарным статьям из АОСС. Для всех отношений английского семантического представления, для которых известно, какой конкретно валентностью они являются, вся релевантная грамматическая информация переносится из словаря в семантическое представление. Например:

Фраза => Русское СемП => Английское СемП => Англ. фраза
сказать почтальону АДР(почтальон, сказать)
ГХ(почтальон)=дт
АДР(postman, tell)
ПРЕДЛОГ(postman) = to
tell to   postman
прекратить плакать СОДЕРЖ(плакать, прекратить)
ГХ(плакать)=инф
СОДЕРЖ(cry, stop)
ГХ(cry) = ger
stop crying
хотеть, чтобы ты улыбался СОДЕРЖ(улыбаться, хотеть)
АГЕНТ(ты, улыбаться)
ГХ (улыбаться) = прш
СОДЕРЖ(smile, want)
АГЕНТ(you, smile)
ГХ (smile) = inf
want you to smile

 

 

[1] Подробное описание этих этапов можно найти в статье Гершензон&Панкратов [2000].

[2] Вообще говоря, семантическими проблемами мы называем все те проблемы, чьи решения хотя бы опосредованно завивисят  от содержания семантических словарей или тезаурусов. Поскольку семантическое представление строится по семантическому словарю, все дальнейшие этапы не лишены семантических проблем, например,  проблема постановки артикля на этапе синтеза является семантической.

 

главная о нас продукты скачать  демо технологии ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.