АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии   ^

Словарь групп времени (TimeRoss)

 

В словарь групп времени входят словосочетания, которые переходят в семантический узел А в формуле ВРЕМЯ (А, С). Иначе говоря, любая группа времени из данного словаря может заполнять валентность ВРЕМЯ какой-либо ситуации: слабую или сильную. Синтаксически все группы времени, входящие в данный словарь, являются обстоятельственными группами. В словарной статье словаря TimeRoss содержатся сведения, необходимые для того, чтобы она была найдена в тексте и правильно переведена.

Группы времени считаются безусловными открытыми словосочетаниями.

Формат статьи словаря TimeRoss разработан с опорой на формат статьи РОССа.

В заголовок статьи записывается словосочетание.

Поле СОСТАВ представляет собой набор элементов T1,...,Tn, где элемент Ti может быть:

  • леммой, стоящей на i-ом месте словосочетания;
  • дыркой (обозначается символом "_") – свободным элементом словосочетания.

В тексте дырка может соответствовать одному графематическому слову. ( В особо оговариваемых случаях  дырка может заполняться целой группой.) Например, заголовок словарной статьи ИЗО ДЕНЬ В ДЕНЬ  содержит четыре элемента, и в нем нет дырок. Заполнители дырок считаются частью группы времени. Таким образом, группы времени являются неразрывными.

Необходимые семантические, лексические и грамматические  ограничения  элемента Ti записываются в полях  CХ(i), ЛХ(i) и ГХ(i) соответственно.   Например, грамматические ограничения T4  для статьи ИЗО ДЕНЬ В ДЕНЬ будут  такими:

ГХ(4)   = 1  C ед , рд.

Поле ГХ(i)  содержит часть речи и граммемы элемента, которые, впрочем, указываются, если только они необходимы для выделения группы в тексте.  

Поле СХ(i) может содержать константы ДЕН_НЕД, МЕСЯЦ или ИНТРВЛ, которые обозначают, что на i-м месте группы должно стоять название дня недели, месяца или любого временного интервала соответственно. Слова, обозначающие любой временной интервал, берутся из словаря РОСС.

В поле ЛХ(i)  перечислены варианты лемматического заполнения элемента Ti (предполагается, что Ti – дырка). Если словарная статья содержит ЛХ(i), то дырка Ti может заполняться только одним словом (не группой!),  взятым из перечня ЛХ(i). Например, статья:

СОСТАВ  =      _ _
ГХ(2)   =  1   С
ЛХ(2)   =  1   весна
           2   осень

покрывает только две группы к весне и к осени, но не к зиме.

Здесь уже видна избыточность выразительных средств. Слово, записанное в поле СОСТАВ, можно перенести в поле ЛХ, у которого значением будет только одно это слово,  а вместо этого слова в поле СОСТАВ записать дырку. Чтобы избегать избыточности мы в дальнейшем будем говорить только о поле ЛХ, включая в них недырочные элементы поля СОСТАВ.

Если Ti  - дырка и в статье отсутствует ЛХ(i), то обязательно должно быть поле ГХ(i). В таком случае, если ГХ(i) = ЦК, то дырка может заполняться синтаксической группой КОЛИЧ, числительным или графематическим словом с пометой ЦК.

Подробнее об алгоритме нахождения групп времени смотри ниже.

Любая словарная статья должна содержать поле СИНП -  синтаксическое представление заглавного словосочетания. В этом поле записана информация о синтаксических отношениях, которые должны быть построены на данном словосочетании. Например:

СОСТАВ   =  КАЖДЫЙ ...
СИНП     =  ПРИЛ-СУЩ (2, 1)

Отдельную проблему в описании групп времени составляют предлоги. Вообще говоря, в системе ДИАЛИНГ предложные группы строит синтаксический анализ. Для того чтобы синтаксис построил предложную группу, нужно, чтобы сначала была построена именная группа с падежом, которым управляет предлог. Однако для временных групп эта именная группа часто не может быть построена по общим синтаксическим законам. Например,  чтобы  построить предложную группу "на 27 августа", нужно построить группу  "27 августа", которая не строится по общим законам, поскольку сама является группой времени. В итоге, если предложная группа должна быть построена синтаксисом (например, в ближайшее время), то соответствующую  запись  нужно добавить в поле СИНП (в ближайшее время СИНП = ПГ (1, 3)), иначе нужно воспользоваться полем ПРЕДЛОГi(j). В поле ПРЕДЛОГi(j) должен стоять тот предлог, который находится на i-м месте и который нужно отнести к j-му элементу поля СОСТАВ. Например, для группы "на 27 августа" нужно сделать запись ПРЕДЛОГ1(3) = на+В. Таким образом строятся предложные группы, построение которых не было возможно на синтаксическом  уровне.

В поле СГС записывается номер семантически главного слова, которое является представителем всей группы в СемП. Все управление группой времени идет через СГС.

Поле АВРЕМ содержит информацию о влиянии группы времени на выбор глагольного времени у английского предиката, которому подчинена эта группа. Например:

ЗГЛ     = только_что
АВРЕМ   = прш -> PresPerf // русское прошедшее время переходит в 
                          // Present Perfect Tense
ИЛЛ     = Он только что пришел => He has just come

В поле TR(i)  даются английские переводы слов из поля ЛХ(i). Например,

ЛХ(2)   =   1 весна
            2 осень
TR(2)   =   1 spring
            2 autumn

В поле PR(i)  даются английские переводы предлогов из поля ПРЕДЛОГj(i). Например,

ПРЕДЛОГ1(3)   =  1  к+Д
                 2  до+Р
PR(3)         =  1  by
                 2  until

В поле АНГ дается перевод заглавной группы времени. В записи этого поля присутствуют как английские словоформы, так и обозначения функций от элементов заголовка, значения которых надо вычислить и поставить в результирующий перевод. Формально  запись поля АНГ состоит из некоторого числа элементов  А1,...,Аk вида:

  • английская словоформа;
  • FI[i], где 0<i<=n,  - перевод i-го элемента c использованием поля АНГ словаря РОСС;
  • TR[i], где 0<i<=n, - перевод i-го элемента c использованием поля TR(i);
  • PR[i], где 0<i<=n, - перевод i-го элемента c использованием поля PR(i);
  • B[i] , где 0<i<=n, -  перевод i-го элемента c использованием большого бинарного словаря.

Если элемент значения поля АНГ является функцией,  то после него в круглых скобках можно указать морфологическую форму, в которую нужно поставить значение функции в перевод. Например,  АНГ = TR[i](sg).

Подытоживая  вышесказанное  о словаре групп времени, отметим, что словарь групп времени является исключительно семантическим словарем по подбору словарных входов, но на данный этап - больше синтаксическим по содержанию, поскольку условия обнаружения  словосочетания в тексте занимают основную часть словарной статьи. Однако его семантическая независимость позволяет вводить новые семантические характеристики (ДЕН_НЕД и МЕСЯЦ), релевантные только для темпоральной предметной области, и новые поля (АВРЕМ). Вместе с тем, этот словарь обладает проработанным аппаратом для достройки синтаксического представления.

 

главная о нас продукты скачать  демо технологии   ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.