Исследование
слов с характеристиками “информация” и “носитель информации” в Русском
общесемантическом словаре
А.В.Сокирко
Abstract
This paper contains a point of view on the lexical description of words and collocations that are connected with information and knowledge. The main methods of description are based on the principles of the Russian General-Purpose Semantic Dictionary. The author attempts to apply his quite mechanical and strict point of view to the general principles of the Dictionary.
Аннотация
В статье изложена точка зрения на лексический анализ слов, помеченных в Русском общесемантическом словаре характеристиками “информация” и “носитель информации”. Основные инструменты анализа заимствованы от составителей словаря, однако определенный опыт по составлению программного обеспечения наложило отпечаток на понимание автором лексического материала.
1. Введение
Словарь РОСС - семантический словарь, разрабатываемый в системе ПОЛИТЕКСТ и-та США и Канады РАН. Устройство этого словаря подробно описано в статье [1]. Словарь создавался для анализа общественно политических документов, таких, как указы президента, постановления правительства и т.д., организованных в информационную базу данных "Россия" [2]. Для одного значения одной лексемы в словарь помещалась специальная статья, записанная на некотором искусственном языке, в которую включались сведения о семантическом классе слова, о валентной структуре слова и о семантических ограничениях на выражения актантов. В статье также описаны некоторые морфологические и синтаксические свойства слова. Отдельным блоком в словарной статье идут лексические функции, точнее, значения функций, взятых от слова. Этот словарь в настоящее время содержит около 5 тысяч словарных статей.
Cловарь предназначен для автоматического анализа текста, поэтому информация в нем в достаточной степени унифицирована и упорядочена.
Однако ощущение некой расплывчатости не покидает читающего словарные статьи, которые, хоть и составлены по строгому синтаксическому образцу, но содержат содержательную неоднозначность.
Наша задача
состоит в том, чтобы понять природу
этой неоднозначности словарные статьи, и, таким
образом, снять ее.
Рассмотрим эту задачу на примере слов и словосочетаний, связанных с информацией (ИНФ).
Сначала несколько общих слов об информации.
2. Общие свойства информации
Сначала лучше сформулировать несколько общих свойств информации. Информация произошла от латинского слова informo-avi-atum-are, что значит придавать форму (отображать в форму). Соответственно, первоначально слово информация - отглагольное существительное с самым общим значением переводить что-то в форму. В современном понимании, слово информация значит уже не процесс перевода в какую-то форму, а результат этого процесса, что достаточно типично для глаголов, обозначающих процессы или действия. Результат перевода чего-то в форму - форма, а форма не может существовать без материи, то есть, без того, формой чего она является (откинув все философские абстракции).
Форма не может быть без материи, значит, информация не может быть без носителя, т.е. без того, на чем она написана. Информация должна быть на носителе, будь то бумага, человеческий мозг, магнитная лента, воздух или что-то еще. Идеально, мы можем представлять себе информацию как незримое облачко, но в повседневной жизни информация может существовать только на ощутимом носителе.
Слова, обозначающие разновидности информации, не одинаково связывают себя со своими носителями. Одни могут существовать только на ограниченном круге носителей, для других - свободы меньше. Но все-таки принципиальное свойство информации - это переносимость с одного носителя на другой. Информация может быть перенесена. Это подтверждается существованием глаголов переноса информации. Сам глагол informo обозначал именно перенос в форму (а переносить можно только форму). Поэтому глагол informo - глагол передачи информации.
Передача информации происходит в течение некоторого времени, в течение которого передается информация. Значит, если время членимо, то информация тоже членима. Часть информации - всегда информация.
Подытожим все вышесказанное:
1) информации не может быть без носителя;
2) информация может быть перенесена с одного носителя на другой;
3) информация имеет составляющие ее части.
Все вышесказанное составляет базис, на котором построен разбор слов, связанных с информацией.
3. Семантические характеристики в словаре РОСС
Семантические характеристики (СХ) в словаре РОСС играют важнейшую роль в семантическом описании слов. В базе данных РОСС семантических характеристик около 50. Это множество называется Д_СХ (домен СХ). Из СХ строятся формулы (со стандартными логическими связками). Множество всех формул, построенных на константах из элементов Д_СХ, назовем Формулы(Д_СХ).
Каждому слову приписана некоторая формула из Формулы(Д_СХ). Эту формулу мы назовем СХ-главное.
Также для каждого слова записывается валентная структура <A1,...,A7>, где Аi - описание актанта, которое является парой <ГХi, CХi >, где ГХi - некое описание грамматического выражения актанта в предложении, а CХi Î Формулы(Д_СХ) - семантическое описание актанта.
Начиная с некоторого i (1<=i<=7), Ai может быть пусто, это означает, что у слова имеется только i -1 актантов.
В процессе анализа текста алгоритм находит слово, смотрит его актанты, ищет внутри предложения слова, которые удовлетворяют грамматическим и семантическим ограничениям, которые сформулированы для актантов. Если алгоритм находит такие слова, то он связывает слово с актантом. Таким образом, собирается валентная структура слова. При проверке возможности семантической связи слова с другим словом, которое встретилось в предложении, используются CХI и СХ-главное. Алгоритм сличения CХI и СХ-главных составляет тему отдельного разговора[1].
Сейчас нас интересует сама природа СХ. Первоначально СХ - это просто селекционные ограничения, предназначенные для улучшения работы синтаксиса. Идея очень проста. Синтаксический процессор обнаружил некоторую синтаксическую связь, но на самом деле эту синтаксическую связь проводить не надо: этo - случайная корреляция, возникшая из-за общей бедности синтаксических средств выражения. Специалисты видят, что эти случайные корреляции можно отбросить, если ввести некие семантические проверки для синтаксической связи, и они вводят их. В таком подходе ясно, как можно получить множество СХ и как нужно их использовать. Получение СХ может в грубой форме выглядеть так. Пусть синтаксический процессор (без семантических ограничений) для слова С в качестве актанта Ai выбрал множество слов D. То есть синтаксический процессор прошелся по текстам, не глядя на семантические ограничения, нашел для слова С все слова, которые могут встать на место актанта AI. Информант-лингвист может разбить множество D на две части: множество положительных примеров D+ и отрицательных D-. Придумаем название для множества D+, и включим это название в перечень СХ. Если примеры будут снабжены некоторой структурой (контекстом, в котором они встретились), то появляется возможность использования системы абдуктивного вывода такие, как ДСМ метод. То есть, получение множества СХ, если СХ только селекционные ограничения, - автоматизированная процедура. Приписывание СХ словам прямо зависит от того, как это СХ было получено.
Другой подход к пониманию СХ можно назвать априорным. Здесь мы идем не от синтаксиса, а от понимания вещей. Специалист рассматривает некое множество слов и вычленяет слова, которые имеют что-то общее друг с другом, или, наоборот, в чем-то противоположны. Специалист разбивает это множество на группы слов по общим или разнящимся признакам и дает названия группам. Эти названия он включает в множество названий СХ. Общее у двух слов - размытое понятие, но достаточно весомое, чтобы его заметить.
Составители словаря РОСС сначала рассматривали СХ как селективные ограничения , но из-за огромного объема информации иногда были вынуждены вводить априорные СХ. По нашему мнению, априорные СХ должны быть полностью уничтожены, а вместо них нужно поставить удобные селективные ограничения.
Первоначально нам показалось, что характеристики ИНФ и НОСИНФ - априорные, но потом стало ясно, что для каждой характеристики можно подобрать множество контекстов, для которых они являются селективными ограничениями.
4. Семантическая характеристика ИНФ и НОСИНФ в словаре РОСС
Семантическая характеристика (СХ) ИНФ нужна для того, чтобы выделять разновидности информации. Помета ИНФ может встречаться как при главном слове (слово, для которого написана словарная статья), так и при актантах. В последнем случае она ограничивает сочетаемостные свойства главного слова, разрешая ему брать актантом только слова, которые имеют СХ=ИНФ. Ниже приводим примеры слов, для которых СХ = ИНФ:
высказывание, дополнение, замечание, знание, известие,
информация,
обращение, телевыступление, формулировка.
Кроме этого, в словаре используется характеристика НОСИНФ (носитель информации) для слов:
Абзац, атлас, ведомость, видеофильм, газета, журнал, записка, литература, ноты, обзор, паспорт, подраздел и пр.
Отличие перечня (СХ=ИНФ) от перечня (СХ=НОСИНФ) вполне ощутимо. Слова (СХ=ИНФ) - абстрактные понятия, которые обычно не связаны с каким-то предметом. Эти слова восходят к ментальным категориям. Но нам необходимо подобрать контексты, чтобы доказать это.
Слова перечня (СХ=ИНФ) не образуют семантически верного словосочетания с глаголом сжечь, требующего СХ=ПРЕДМ (предмет) в качестве второго актанта:
*Сжечь высказывание
*Сжечь информацию
Но эти существительные могут использоваться в контексте основываться на+Х или с осмыслить(полученное)+Х:
Основываться на знаниях
Основываться на замечании
Осмыслить полученные знания
Осмыслить телевыступление
Для перечня (СХ=НОСИНФ) контекст сжечь+Х маркирован. Также для этих слов разрешен контекст печатать+Х и контекст проверять+Х.
Итак, газета, журнал - это информация на носителе. Такое мнение разделяют некоторые специалисты. Например, Д.Пустейовский [2] считает правильной следующую формулу:
Newspaper = information.physobj.
Здесь характеристику physobj можно перевести характеристикой ПРЕДМ, а information - ИНФ. Оператор '.' (dotted operator) используется для склеивания типов в семантической иерархии.
Итак, что верно, что НОСИНФ = ПРЕДМ.ИНФ. Поэтому с носителем информации можно сделать все, что можно сделать как с информацией, так и с предметом.
Но так ли отчетлива граница между ИНФ и НОСИНФ, если никакая информация не бывает без носителя? Информация может быть в человеческой голове, компьютере, в любом слове, для которого СХ=НОСИНФ. Информация может быть стерта из памяти. Информацию можно получить, дать, проверить, как-то использовать. Значение слова знание чуть уже, чем слова информация. Знания можно извлекать, получать, давать. Знания могут быть в голове или компьютере (база знаний). Знания могут содержаться в книге. Но знание и информацию нельзя сжечь. Получается, что чисто теоретически информация без носителя не бывает, поэтому не имеет смысла вводить специальную СХ НОСИНФ, но такая характеристика нужна, чтобы обслуживать контекст типа сжечь+Х.
Но возьмем слово текст. Какую характеристику нужно приписать слову текст? ИНФ или НОСИНФ? Слово текст, убрав все искусствоведческие ассоциации, обозначает некую последовательность символов, которая записана на некоторой поверхности. Последовательность может быть любая, лишь бы только существовала возможность ее прочтения. Кто-то написал текст, кто-то может прочитать текст. Но у этого слова есть сильная валентность на НОСИНФ, например:
Текст сочинений Пушкина
Текст научной статьи
С другой стороны, в контекстах, где слова из перечня (СХ=НОСИНФ), преобразуются в ИНФ[2], возможны следующие синонимические преобразования:
Syn(Я выучил стихотворение) = Я выучил текст стихотворения
Syn(Я проверил статью) = Я проверил текст статьи
Получается, что слово текст обозначает информационный компонент слов из перечня (СХ=НОСИНФ), значит, слово текст принадлежит перечню (СХ=ИНФ).
Слова типа тетрадь, лист, бланк, анкета, т.е. слова, для которых разрешен контекст чистый+Х, предполагают, что они чаще выступают как предметы, а не как информация. Поэтому эти слова лучше включить в перечень (СХ=ПРЕДМ.ИНФ), а не в (СХ=ИНФ.ПРЕДМ). Тем самым, предполагается, что оператор '.' не симметричен.
Слова типа глава, введение, заключение должны быть включены в перечень (СХ=НОСИНФ), так как для них возможен контекст сжечь+Х, но у этих слов еще есть сильная валентность на слово из (СХ=НОСИНФ):
Глава книги
Заключение статьи
Слова, обозначающие участки текста, которые обычно меньше страницы, типа абзац, предложение, слово, символ уже принадлежат перечню (СХ=ИНФ), так как нельзя их использовать в контексте сжечь+Х.
5. Заключение
Мы попытались лишь как-то приблизиться к более строгому пониманию семантических характеристик в словаре РОСС. Нас не покидает надежда сформулировать ясные и простые характеристические контексты для каждой семантической характеристики этого словаря.
6.Благодарности
Работа выполнялась в рамках
исследований по проектам, поддержанным фондами РГНФ и РФФИ (Проекты РГНФ:
96-03-12103 и РФФИ: 97-06-80093).
Литература
1. Леонтьева Н.Н. Русский общесемантический словарь (РОСС): структура наполнение // НТИ. Сер. 2. - 1997. - N 12 - c.5-19.
2. Yudina T. IS Russia: An Artificial Intelligence - Based Document Retrieval System in Oracle 7// Select. - 1995.-2, No 1.
3. Pustejovsky J. The Generative Lexicon. - London: The MIT Press, 1995.
4. Григорьев П. А. Об одной модификации ДСМ системы: применение статистических соображений. Дипломная
работа, РГГУ, 1997.
[1] 1 Нам хотелось бы подчеркнуть отличие подхода специалистов словаря РОСС от школы формальной семантики (Montague R.; Bach E.; Partee B.). Последние считают, что предложение естественного языка может быть переведено в некую формальную грамматику и потом, как любая формула, может быть вычислено внутри этой грамматики. Они это называют принципом композициональности, который гласит, что смысл предложения есть функция от составляющих это предложение внутри некой формальной грамматики. Составители РОСС не решаются на такое смелое заявление. Для них смысл предложения - некий семантический граф, который лишь частично покрывает смысловые закономерности предложения, кроме этого, операции на этом графе специально определяются, и они совсем не ограничиваются строгим логическим выводом формальных грамматик.
[2] Преобразование типов
возможно поскольку НОСИНФ = ПРЕДМ.ИНФ.
Я прочитал об этом у Пустейовcкого[3].