АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии   ^

Описание словаря оборотов

В словарь оборотов внесены служебные слова и словосочетания (в том числе и разрывные), которые при анализе текста рассматриваются как единый комплекс, то есть приравниваются к однословным единицам. Формат этого словаря разработан в соответствии с форматом словаря РОСС. Вся информация об обороте содержится в этом словаре в следующих полях:

 

Поле ОБОР – заглавный оборот; все словоформы, входящие в оборот, пишутся через подчеркивание; если это предлог или предложная группа, то она пишется вместе с обозначением падежа следующего за ней имени через плюс, например "без_учета+Р".

 

Поле ЗНАЧ – числовое поле, имеющее вид

ЗНАЧ = n,

где n - номер рассматриваемого значения из нескольких возможных, или номер рассматриваемого оборота из группы нескольких омонимичных оборотов.

 

Поле СОСТАВ. В этом поле записываются графические и другие варианты оборота.

Некоторые обороты имеют орфографические варианты. Это касается:

а) слитного либо раздельного написания предлога с последующим существительным,

б) наличия / отсутствия некоторого знака препинания внутри или после оборота

в) варьирования знаков препинания или служебных слов после оборота. Варианты помечаются следующим образом:

1. Знак, разделяющий варианты - |

2. Варианты со слитным либо раздельным написанием предлога и существительного записываются:

ПРЕДЛОГ СУЩЕСТВИТЕЛЬНОЕ ... | ПРЕДЛОГ СУЩЕСТВИТЕЛЬНОЕ ...,

Например: в придачу к | впридачу к

3. Случаи, описанные выше в пунктах б) и в), можно свести к позиционному варьированию некоторой части оборота (наличие либо отсутствие некоторого знака рассматривается как чередование этого знака с нулем). Такие случаи описываются следующим образом:

3.1. варьирующаяся часть оборота заключена в скобки;.

3.2. варианты в скобках перечисляются через "|", порядок вариантов не имеет значения;

3.3. отсутствие либо наличие некоторого знака или слова (обозначим его через Х) записывается (|X) либо (X|);

Пример 1:

Запись

ЗГЛ        = при условии, (если | что)

означает, что заглавный оборот встречается в двух вариантах:

  • "при условии, если" [Я останусь при условии, если он уехал.] и
  • "при условии, что" [Я останусь при условии, что он уедет.]

В случае если данный оборот – разрывный союз, между его частями ставится многоточие (если ... то).

Знаки препинания пишутся только в том случае, если данный оборот, употребленный без данных знаков препинания, является другим оборотом или другой частью речи.

Также в поле СОСТАВ могут писаться синонимы (семантические и синтаксические аналоги) данного оборота, в том случае если их переводы совпадают.

Если в словаре есть разные статьи на обороты с одним составом (т.е. разные значения одного и того же оборота), то поле СОСТАВ заполняется только в статье первого значения.

 

Поле ОГРН – особые ограничения или специальные пометы для оборотов. Запись    "подл !" означает, что данный оборот (союз) может стоять непосредственно перед подлежащим (напр., Он когда пришел, тут же позвонил мне. Иван хоть и вор, но не убийца.)

 

Поле КАТ – семантическая категория, к которой относится оборот.

Для того, чтобы описать использование этого поля, необходимо сказать несколько слов о представлении семантики в данной системе автоматической обработки текста. В ходе анализа текста строится его семантическое представление (СемП), которое представляет собою связный ориентированный граф, состоящий из семантических узлов (СемУ) и отношений (СемО) между ними. Для записи семантики разработан специальный информационный язык-посредник (ИЯП). Элементарное высказывание на ИЯП фиксирует отношение между двумя СемУ, и имеет вид формулы R(A,B), в которой R – имя отношения, а А и В – СемУ.

Разбиение лексики на таксономические категории, информация о которых заносится в поле КАТ, производится в зависимости от того, какое место в формуле R(A,B) занимает рассматриваемая лексическая единица с точки зрения ее семантики. Кратко охарактеризуем, опираясь на статью Леонтьева 97, таксономические категории, которые могут встречаться в поле КАТ. При этом мы будем ориентироваться на заполнение этого поля в данном словаре, а не вообще в системе РОСС, так как специфика словаря оборотов накладывает некоторые ограничения.

  1. ЭТК – слова-этикетки, занимающие в семантической формуле R (A, B) позицию одного из термов А или В, то есть представдяющие собой СемУ. В словаре оборотов эта характеристика может встречаться только в комбинации с пометой ОТН.
  2. МЕСТ – слова-местоимения, также занимающие в формуле R (A, B) позицию одного из термов. Они отличаются от слов-этикеток тем, что их семантику невозможно узнать, не прибегая к отношению РЕФ (?, С ), записанному в поле ВАЛ. Используя отношение РЕФ(?, С), специальный алгоритм по уже построенной части СемП'а, находит первый аргумент формулы РЕФ, то есть определяет, к какому СемУ уже построенного СемП'а отсылает рассматриваемая лексическая единица в данном употреблении.
  3. Примеры оборотов, относящихся к данной категории:

    "в связи с этим"

    "точно так же"

    "тот же самый"

    "следующим образом"

    "при этом"

  4. АСП – слова, занимающие в формуле R (A, B) позицию А и определяющие отношение R, которое является как бы более общим понятием по отношению к слову данной категории.
  5. Пример оборота, относящегося к данной категории – "в индивидуальном порядке". Данному обороту сопоставляется формула ИЯП "СПОСОБ(в индивидуальном порядке, В), то есть данный оборот предопределяет семантическое отношение СПОСОБ ДЕЙСТВИЯ.

  6. ОТНОШ - слова, занимающие в формуле R (A, B) позицию R
  7. Слова 1, 2 и 3 категорий представляют собой СемУ, а слова 4 категории характеризуют отношения между ними. Существует еще одна категория, слова которой не являются ни СемУ, ни отношениями – это категория

  8. ОПЕР. Семантику этих слов нельзя описать при помощи формулы R(А, В), так как в СемП'е словам этой категории не сопоставляются ни узлы, ни связывающие их отношения. Значение этих слов-операторов накладывается на уже построенный СемП, и преобразует его семантику. Для этого вызывается специальный алгоритм, точнее, фактически, отдельный алгоритм для каждого такого слова. Дело в том, что семантическое поведение слов этой группы чрезвычайно индивидуально. Оно описывается специальной грамматикой, так как синтаксическое дерево, на основе которого строится СемП, не может дать достаточной информации для их адекватной интерпретации. (Показательно, что для описания синтаксического (и семантического) поведения слов этой группы лингвистами используются такие несинтаксические понятия, как "сфера действия" и "модальная рамка".)

Часто помета ОПЕР встречается как дополнительная, то есть она может появляться в поле КАТ у слов, которые уже отнесены к некоторой другой категории. Это означает, что в семантике их присутствует компонент, не позволяющий считать их исключительно СемУ или семантическим отношенем. На практике это означает, что такие слова имеют нормальные синтаксические связи (как и положено словам категорий ЭТК, МЕСТ, АСП и ОТН), однако их семантическое поведение нетривиально (а для сочинительных союзов вследствие этого – и синтаксическое), и его удобнее описывать не общими правилами грамматики, а индивидуальными правилами.

В тех случаях, когда в поле КАТ заносилась помета ОПЕР, в поле КОММ кратко обосновывалась необходимость введения специальных правил для этого слова.

Кроме того, встречается еще одна комбинация семантических категорий – комбинация

КАТ = 1 ОТНОШ
        ЭТК

Такая комбинация помет встречается у слов, которые, устанавливая отношения между двумя семантическими узлами, одновременно сами входят в качестве терма в валентную схему (семантические валентности данного слова записываются в поле ВАЛ). Как правило, этой комбинацией помет сопровождаются предлоги, имеющие вид "предлог + отглагольное существительное", так как предлоги такого рода наследуют часть валентностей глагола, от которого образовано имя, входящее в состав данного предлога. Например:

ЗГЛ        = при посредстве
ЗНАЧ       = 1
КАТ        = 1  ОТНОШ
ЭТК
...
ВАЛ        =  С-ПОМ ( А1 , А2 )
              АКТ ( А2 , С )

У оборота "при посредстве" в поле ВАЛ записано, что он, во первых, установливает семантическое отношение "с-помощью" между семантическими узлами А1 и А2 [запись "С-ПОМ ( А1 , А2 )"], а во-вторых, что А2 заполняет семантическую валентность на актора у данного оборота [запись "АКТ ( А2 , С )"].

 

Поле ГХ – грамматическая характеристика оборота. В данном поле в словаре оборотов могут встречатся следующие пометы:

  1. ПРЕДЛ – предлог.
  2. СОЧ_СОЮЗ – сочинительный союз.
  3. ПОДЧ_СОЮЗ – подчинительный союз.
  4. РАЗРЫВ_СОЮЗ – разрывный союз (например, как... так и)
  5. ВВОДН – вводное слово
  6. ЧАСТ – частица.
  7. НАР:обст_гр – наречие, синтаксически являющееся обстоятельственной группой.
  8. НАР:нар_опр – наречие, синтаксически я вляющееся наречным определением.
  9. ПРИЛ:с_опр – прилагательное, синтаксически являющееся согласованным определением.
  10. ВОПР_БИРКА – аналог английских question tags ("не так ли?")

Грамматическая характеристика однословного оборота соответствует его части речи (подч_союз, соч_союз, разрыв_союз – союзы, нар:обст_гр, нар:нар_опр - наречия).

Следует сказать несколько слов о соотношении заполнения поля КАТ с заполнением поля ГХ в данном словаре. В большинстве случаев ГХ определяет категорию слова (см. таблицу 1).

Таблица 1
ГХ КАТ Возможные добавочные пометы в поле КАТ
ПРЕДЛ ОТНОШ ЭТК  
СОЧ_СОЮЗ ОПЕР
ПОДЧ_СОЮЗ  
ВВОДН ОПЕР -
ЧАСТ
НАР:обст_гр АСП [1] ОПЕР
НАР:нар_опр
ПРИЛ:с_опр

Союзные слова (т.е. слова, связывающие части предложения, но являющиеся при этом его членами) не помещаются в этом словаре – они находятся в РОССе..

 

Поле СХ – семантическая характеристика оборота. В данном поле могут (одновременно) встречаться следующие пометы:

  1. семантическая характеристикой из общего набора СХ, используемого в словарях формата РОСС;
  2. имя лексической функции из набора лексических функций, используемого в словарях формата РОСС, без указания аргументов данной лексической функции;
  3. имя семантического отношения из набора семантических отношений, используемого в словарях формата РОСС, без указания аргументов данного семантического отношения.

 

Поле ВАЛ – семантические валентности данного оборота. Данное поле заполняется формулами вида R (A, B), где R – имя семантического отношения, А и В – термы, связанные этим отношением. Для обозначения термов используются следующие символы:

С – СемУ, соответствующий заглавному слову.

А1 – СемУ, соответствующий семантическому хозяину С (то есть СемУ, из которого в СемПе выходит стрелка, входящая в С).

Аn, где n>1 – СемУ, соответствующий n-ному семантическому зависимому С (то есть Сем У, в который в СемПе входит стрелка, выходящая из С).

Суммируем (см. таблицу 2), как заполнение поля КАТ коррелирует с заполнением поля ВАЛ.

Таблица 2
КАТ ВАЛ
ОТНОШ R (А1, А2)
ОТНОШ,ЭТК R (А1, А2)R (А2, С)
АСП R (С, А1)
МЕСТ R (С, А1)РЕФ (А2, С)

Существенно упомянуть, что для перевода безглагольных предложений с предлогами важно указание в полях СХ и ВАЛ их "локативности" - ЛОК, ИСХ-Т или КОН-Т (так, Книга на столе будет переводиться как The book is on the table).

 

ПОЛЕ ГХ1 – грамматическая характеристика синтаксического хозяина (а1) оборота, и ПОЛЯ ГХn – грамматическая характеристика n-ного синтаксического зависимого (аn) данного оборота. Эти поля заполняются одной или несколькими пометами из общего набора ГХ, используемого в словарях формата РОСС.

Например, запись:

ГХ1 = ГГ
      ИГ

означает, что синтаксический хозяин данного оборота – глагольная группа или именная группа.

Эти ГХ могут быть:

ГГ – глагольная группа, т.е. группа слов, главное в которой – глагол в личной форме

ИГ – именная группа, т.е. группа слов, главное в которой – существительное, прилагательное или местоимение

ПРИЛ – прилагательное

НАР – наречие

ПРЕДК – предикативное слово

ПРОП – предложение; законченный фрагмент

ТЕКСТ – текст из одного или более предложений;

также могут стоять обозначения падежей имен.

Перед пометой может стоять один из четырех значков: (см. таблицу 3).

Таблица 3
Значок Значение значка
> а1 либо, соответственно, аn надо искать где-то справа в тексте
>> а1 либо , соответственно, аn находится контактно справа от данного оборота, то есть непосредственно следует за ним. [2]
< а1 либо, соответственно, аn надо искать где-то слева в тексте
<< а1 либо, соответственно, аn находится контактно слева от данного оборота, то есть непосредственно предшествует ему. [3]
^ a1 либо, соответственно, an находится между частями разрывного союза

 

ПОЛЕ CХ1 – семантическая характеристика синтаксического хозяина оборота, и ПОЛЯ CХ – семантическая характеристика n-ного синтаксического зависимого данного оборота. Эти поля заполняются по тому же принципу, что и поле СХ (см. выше). Однако существуют дополнительные возможности:

2. Когда семантические характеристики а1 и an совпадают, используется следующая запись:

СХn = СХ (1)

 

ПОЛЕ СИНО – синтаксическое отношение, устанавливаемое анализатором при обработке данного оборота. Синтаксические отношения могут устанавливаться:

а) между а1 и а2 – в том случае, если ГХ оборота – ПРЕДЛ или СОЮЗ, то есть если оборот относится к категории ОТНОШ.

б) между оборотом и a1 – во всех остальных случаях.

С+А2

 

ПОЛЕ ВАР. В это поле записываются слова или словосочетания, являющиеся неполными аналогами данного оборота (например, отличающимися по управлению).

 

ПОЛЕ АНГ. В этом поле записаны английские эквиваленты – семантические и, по возможности, синтаксические – данного оборота. Если нет ограничивающих полей АГХ, АСХ, АЛХ или АПО, варианты перевода записываются в порядке убывания частотности.

 

ПОЛЕ АГХi(j). В этом поле указывается, что от ГХi зависит выбор j-того варианта перевода.

 

ПОЛЕ АСХi(j). В этом поле указывается, что от СХi зависит выбор j-того варианта перевода.

 

ПОЛЕ АЛХi(j). В этом поле указывается, что от лексической характеристики (заполнения конкретным словом) i-того "хозяина" или "зависимого" зависит выбор j-того варианта перевода.

 

ПОЛЕ АПО(j). В этом поле указывается, что j-тый вариант перевода употребляется в соответствующей предметной области (например, худ – художественная литература).

 

 

[1] Если семантика не предопределяет отнесения этих слов к категории МЕСТ

[2] С той оговоркой, что между этими контактно расположенными словами может вставать вводное слово или вводный оборот.

[3] С той оговоркой, что между этими контактно расположенными словами может вставать вводное слово или вводный оборот.

главная о нас продукты скачать  демо технологии   ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.