главная о нас продукты скачать демо технологии ^
Диссертация А.Сокирко "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)" |
Введение
Глава 1. Обзор литературы
Глава 2. Досемантический анализ русского текста
Глава 3. Первичный семантический анализ русского текста
Глава 4. Синтез английского текста
Заключение
Литература
Выступление на защите
Исследователи в области автоматической обработки текста (АОТ), планомерно продвигаясь от самых простых методов анализа к более сложным, постепенно приближаются к такому смысловому представлению текста, которое соответствует человеческому восприятию, однако, по всей видимости, полностью сымитировать языковое поведение человека на обычных тьюрингоподобных компьютерах нереально. Принципиальную неадекватность современных компьютеров феномену естественных языков мы принимаем за аксиому. Любые алгоритмические модели языка обеспечивают лишь большие или меньшие приближения.
Приближения могут быть частичными и полными. Частичные приближения моделируют только часть языка (один из его механизмов), например, какое-нибудь отдельно взятое морфологическое явление конкретного языка. Вход для частичной модели (приближения) обычно некое идеальное представление текста, а не просто сырой материал (последовательность символов, составляющая текст). Частичные модели не учитывают ошибки во входном представлении, поэтому состыковка частичных моделей в одну полную систему, которая моделирует все механизмы языка сразу (от морфологии до семантики), требует особых усилий.
Полные модели, к которым относятся все большие системы машинного перевода или полного анализа текстов, обычно создаются целой группой лингвистов, которая после долгой совместной работы превращается в научное направление прикладной лингвистики.
Данная диссертационная работа описывает использование семантического анализа в системе русско-английского машинного перевода ДИАЛИНГ, спроектированной на базе полных систем французско-русского автоматического перевода (ФРАП) и анализа политических текстов (ПОЛИТЕКСТ).
Промышленные системы АОТ, в основном, сейчас используют два этапа анализа текста: морфологический и синтаксический. Однако теоретические разработки многих исследователей предполагают существование следующего за синтаксическим этапа – семантического. В отличие от предыдущих шагов семантический этап использует формальное представление смысла составляющих входной текст слов и конструкций. Суть семантического анализа понимается разными исследователями по-разному. Мы считаем, что в сферу семантического анализа входит:
Построение семантической интерпретации слов и конструкций;
Установление "содержательных" семантических отношений между элементами текста, которые уже принципиально не ограничены размером одного слова (могут быть больше или меньше одного слова).
Результирующее представление, в котором решены эти две задачи, является наиболее глубоким и законченным из тех, которые можно достичь только лингвистическими средствами, не прибегая к внешним экстенсиональным источникам, и этим объясняется актуальность семантического анализа. Таким образом, создание полных систем АОТ для русского языка, использующих семантический анализ, является чрезвычайно актуальной задачей.
Базисом для таких разработок мы избрали две системы:
Система французско-русского автоматического перевода (ФРАП), разработанная в ВЦП совместно с МГПИИЯ им. М. Тореза в 1976-1986 гг. (работы Леонтьева [1986]);
Система анализа политических текстов на русском языке (ПОЛИТЕКСТ) (работы Леонтьева [1995]), разработанная в Центре информационных исследований в 1991-97 гг.
Система ФРАП содержала полную цепочку анализа текста, вплоть до семантического, который был реализован только частично. В системе ФРАП был разработан и опробован семантический аппарат, который представляется нам настолько законченным и совершенным, что его можно заимствовать фактически без изменений. В центре семантического аппарата ФРАП находятся два перечня (вернее, две грамматики): семантических характеристик (СХ) и смысловых отношений (СО). Используется минимальное количество семантических характеристик: ВЕЩВО("вещество"), ИЗМ("изменение"), ИНТЕЛ("интеллектуальность"), ИНФ("информация") и т.д.; слова характеризуются по признаку принадлежности к одному или нескольким классам. СХ обеспечивают проверку семантического согласования при интерпретации связей в тексте. Вместе с тем ФРАП не содержала механизмов структурных оценок семантического представления, то есть методов взвешивания не просто одного вхождения текстового элемента, а всей структуры в целом.
Система ПОЛИТЕКСТ была направлена на анализ официальных документов на русском языке и содержала полную цепочку анализаторов текстa: графематический (первичный анализ), морфологический, синтаксический и частично семантический. Графематический анализ в данной диссертационной работе был частично заимствован (см. [5]), но адаптирован под новые стандарты программирования. Программа морфологического анализа была написана заново [1] , поскольку скорость работы была низкой, но сам морфологический аппарат не изменился[6] . Синтаксический анализ системы ПОЛИТЕКСТ обладал рядом инженерных недостатков, поэтому его не удалось перенять.
В итоге, цепочка процессоров (графематический, морфологический и синтаксический) была собрана на базе OOO Диалинг. После этого стала актуальной разработка семантического анализа внутри системы ДИАЛИНГ как логического завершения цепочки анализаторов.
Целью настоящей работы является разработка лингвистико-алгоритмического аппарата, обеспечивающего эффективное решение задачи семантического анализа на базе системы ДИАЛИНГ.
Для достижения поставленной цели было необходимо:
Изучить возможности существующих методов автоматического семантического анализа русского языка;
Разработать систему правил, порождающих гипотезы о реализации семантических элементов и правила глобальных оценок семантического представления текстов на русском языке;
Построить алгоритмический аппарат, реализующий семантический анализ текстов на русском языке;
Продемонстрировать эффективность предложенного метода на конкретных языковых примерах на основе соответствующих программных реализаций.
На основе анализа современных семантических методов в целом, а также углубленного исследования семантического аппарата системы ФРАП, с одной стороны, и изучения лингвистических особенностей русских текстов – с другой, в диссертационной работе разрабатывается оригинальный метод семантического анализа – метод полных вариантов. Идея метода состоит в том, что в анализе должны быть четко разделены варианты анализа, возникающие на разных этапах, и декларативные лингвистические правила (частичные модели), которые строят и оценивают отдельные варианты. Такой подход, ранее применяемый только для предсемантических анализаторов, теперь, ввиду развития компьютерных мощностей, можно перенести на семантику, тем самым повысив уровень разделения процедурной и декларативной частей системы. Проще говоря, если раньше лингвистические правила на этапе семантического анализа должны были выбирать интерпретацию участка входного текста из многих альтернатив (ср. т.н. "метод фильтров", реализованный в [8]), то теперь необходимость в этом отпала. Таким образом, стало возможным упростить лингвистические модели благодаря увеличившейся скорости компьютеров. Процедурная часть семантического анализа в идеальном случае сводится к циклам, перебирающим разные лингвистические варианты.
Кроме этого, в диссертационную работу включено описание прототипов двух словарей (словарь временных групп и словарь словосочетаний) и алгоритмы использования этих словарей в системе ДИАЛИНГ.
Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:
Алгоритмы семантического анализа русских текстов с учетом структурных оценок всего семантического представления русского текста;
Структура и алгоритмы использования двух семантических словарей (словарь временных групп и словарь словосочетаний).
Программная система, созданная на базе предложенного метода и словарей, внедрена в первую версию машинного русско-английского переводчика ДИАЛИНГ. Анализ опыта внедрения демонстрирует его достаточно высокую эффективность, что характеризует практическую значимость работы.
Апробация работы. Основные научные выводы и результаты работы докладывались на международной конференции Диалог-2000 (г. Протвино, 1-5 июля 2000 г.), а также на научных семинарах РГГУ и ИСК РАН в 1999-2000 гг.
По теме диссертации автором опубликованы 3 работы. Сдана в печать одна статья.
Структура и объем работы: Диссертация, объемом в 100 страниц, состоит из введения, четырех глав, заключения, списка использованной литературы из 71 наименования.
В первой главе содержится обзор систем АОТ, использующих семантический анализ. Описываются три системы, которые были программно реализованы (LinkParser, Mikrokosmos, Artwork), и три системы, предлагающие оригинальные семантические аппараты (Formal Semantics, Generative Lexicon, Universal Networking Language или UNL). Вторая глава посвящена процессорам, работающим до семантического анализа: графематическому, морфологическому и синтаксическому. Третья глава содержит описание поверхностно семантического компонента системы ДИАЛИНГ. Четвертая глава посвящена описанию использованию семантического представления на этапе перевода и синтеза английской фразы.
Система ДИАЛИНГ результат коллективного творчества. Данная диссертационная работа – лишь часть этого проекта. В разное время проекте ДИАЛИНГ принимали участие следующие специалисты:
- Е.Борисова (словарь служебных частей речи);
- А.Урманчиева (словарь служебных частей речи);
- Б. Шахова (словарь словообразования);
- М.Рудерман (словарь словообразования, словарь групп времени);
- Г.Брумберг (английская морфология, компьютерный тезаурус);
- Г.Романов (английская морфология);
- A.Широков (программа доступа к бинарному русско-английскому словарю);
- А.Путрин (морфологический анализ, конкорданс, английский синтез);
- Г. Дурново (наполнение словарей словосочетаний и служебной лексики);
- И.Максимова (финансовый тезаурус);
- И.Ножов (русский синтаксис и фрагментация);
- Т.Кобзарева (русский синтаксис и фрагментация);
- О.Шалимов (русский и английский семантические словари);
- М.Рубинштейн (русский и английский семантические словари, постановка артиклей в англ. синтезе);
- Б.Кобрицов (русский и английский семантические словари, общий тезаурус);
- К.Серебряный (программа доступа к морфологии, бинарным словарям, английский синтез);
- Д.Панкратов (программа русского синтаксиса и фрагментации, перевод русской семантической структуры в английскую (трансфер));
- Л.Гершензон (русский синтаксис и фрагментация, русский и английский семантические словари, трансфер, словари групп времени и словосочетаний, английский синтез);
- А.Сокирко (графематический анализ, программный интерфейс к морфологическому словарю, оболочки и интерфейс к тезаурусу и семантическим словарям, русский синтаксис, словари групп времени и словосочетаний, программа первичного семантического анализа).
Всем участникам проекта ДИАЛИНГ автор выражает большую благодарность, поскольку те результаты, которые выносятся на защиту в данной диссертационной работе не были бы возможны без проработки остальной части проекта. Естественно, что все принципиальные положения, на которых зиждется программа первичного семантического анализа, не раз прорабатывались на общих семинарах.
[1] Сами морфологические данные были получены из Института русского языка Российской академии наук.
главная о нас продукты скачать демо технологии ^ |