Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Молчанова Татьяна Викторовна

Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе
<
Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Молчанова Татьяна Викторовна. Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе : ил РГБ ОД 61:85-10/499

Содержание к диссертации

Введение

ГЛАВА I. СРАВНИТЕЛЬНЬШ АНАЛИЗ СЛОВАРЕЙ, ИСПОЛЬЗУЕМЫХ В РАЗЛИЧНЫХ СИСТЕМАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ ..15

І.Г. Организация словарей в системах АЛ с одного естественного языка на другой и в некоторых системах искусственного интеллекта 15

1.2. Организация словарей развитых информационных языков 20

1.3. Соотношение словаря и системы текстуальных отношений информационного языка27

ГЛАВА П. ОРГАНИЗАЦИЯ АБТОМТЙЧЕСКОГО СЛОВАРЯ В ИНТЕГРАЛЬНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЕ... 31

П.І. Общее описание процедур автоматической обработки текстов в интегральной ин формационной системе 31

П.І.І. Процедура анализа текстов ...35

П.1.2. Процедура построения представлений текстов на ИЯ. 39

П.1.3. Процедура преобразования представлений текстов на ИЯ. 42

П.2. Требования к автоматическому словарю.,46

П.З. Обоснование структуры словарной статьи автоматического словаря 52

П.4. Структура словарной статьи лексической единицы 58

П.4.1. Обще сведения о лексической единице (зона 0.) ...58

П.4.2. Переводной эквивалент (зона I.) 62

П.4.3. Морфологические сведения (зона П.)...65

П.4.4. Синтаксические сведения (зона Ш.)...69 П.4.5. Семантические сведения (зона 1У.)...84

П.4.6. Тезаурусные сведения (зона У.) 100

ГЛАВА Ш. АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ С ПОМОЩЬЮ АВТОМАТИЧЕСКОГО СЛОВАРЯ 118

Ш.І. Автоматическая обработка текстов на основе ИЯ высшего уровня .118

Ш.І.І. Автоматический анализ текстов 118

Ш.І.2. Построение представлений текстов на ИЯ 120

Ш.І.З. Преобразование представлений текстов на ИЯ 125

Ш.2. Автоматическая обработка текстов на основе ИЯ промежуточного уровня... 137

Ш.З. Автоматическая обработка текстов на основе ИЯ низшего уровня. 138

ГЛАВА ІУ. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ПОСТРОЕНИЮ И ВЕДЕНИЮ АВТОМАТИЧЕСКОГО СЛОВАРЯ В ИНТЕГРАЛЬНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЕ...І4Г

ІУ.І. Методика построения автоматического словаря. 141

ІУ.І.І. Начальный этап построения словарных статей. Запись обязательной лексикографической информации 143

ІУ.І.2. Завершающий этап формирования словарных статей...150

ІУ.2. Ведение автоматического словаря... 163

ІУ.2.І. Задачи ведения ...163

ІУ.2.2. Обзор систем ведения словарей Ж 164

ГУ".2.3. Актуализация автоматического словаря 168

ІУ.2.4. Совершенствование автоматического словаря 180

ЗАКЛЮЧЕНИЕ .183

Приложение Г. СТРУКТУРА СЛОВАРНОЙ СТАТЬИ АВТОМАТИЧЕСКОГО СЛОВАРЯ 108

Приложение 2. ПЕРЕЧЕНЬ ЗНАЧЕНИИ ПРИЗНАКА ЧАСТИ РЕЧИ ФЛЕКТИВНЫЕ КЛАССЫ СЛОВ. 190

Приложение 3. "ГРАММАТИЧЕСКИЙ" СЛОВАРЬ 197

Приложение 4. БИНАРНЫЕ СИНТАГМАТИЧЕСКИЕ ОТНОШЕНИЯ ИЯ 207

Приложение 5. ОБРАЗЦЫ ПРЕДОТАВЛЕНШ ТЕКСТОВ ДОКУМЕНТОВ НА ИЯ 210 Приложение 6. ОБРАЗЦЫ ПРЕДСТАВЛЕНИЙ ТЕКСТОВ ЗАПРОСОВ НА ИЯ И ОПИСАНИЕ ПРОЦЕДУРЫ ПОИСКА ФАКТОГРАФИЧЕСКИХ

СВЕДЕНИИ 220

Приложение 7. СВОДНАЯ ТАБЛИЦА ЗАПОЛНЕНИЯ СЛОВАРНЫХ СТАТЕЙ

ЛЕКСИЧЕСКИХ ЕДИНИЦ 225

Приложение 8. ФРАГМЕНТ АВТОМАТИЧЕСКОГО СЛОВАРЯ 227

Приложение 9. УКАЗАТЕЛЬ ИСПОЛЬЗОВАННЫХ В ДИССЕРТАЦИИ СОКРАЩЕНИЙ.УКАЗАТЕЛЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, ИСПОЛЬЗОВАННЫХ В ЛИСТИНГАХ 228

Приложение 10. ДОКУМЕНТЫ, ПОДТВЕРЖДАЮЩИЕ ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ. 232

ЛИТЕРАТУРА 233

Введение к работе

В настоящее время в сфере информационной деятельности значительное место отводится созданию и внедрению автоматизированных интегральных информационных систем (ШС), предназначенных для решения целого комплекса информационных задач.

В работе [Михайлов и np.I976j ШС определяется как "...совокупность методов и средств, позволяющая при однократном описании, индексировании и реферировании научных документов и преобразовании полученных данных в машиночитаемую форму- обеспечивать многоаспектную обработку этих данных и их многократное использование для удовлетворения разнообразных информационных потребностей."

Условие одноразового ввода данных в автоматизированную ИИС предусматривает построение такой системы обработки текстов информационных документов, которая бы! при однократном автоматическом переводе (ш) этих текстов на информационный язык (ш) позволяла бы различным образом перестраивать их формализованное представление на этом языке в зависимости от стоящей, информационной, задачи. Решение этой проблемы непосредственным образом связано с потребностями современного научно-технического прогресса и таким образом является актуальным.

Круг задач ИИС, предполагающих предварительную лингвистическую обработку текста, может быть достаточно широк. Сюда относятся: документальный поиск, ретроспективный или избирательный на узкотематическом или политематическом массиве документов; "непосредственный" фактографический поиск, т.е. такая э разновидность, при реализации которой фактографические све-ния извлекаются из самих текстов документов; информационные сис-мы (йс) такого типа являются довольно распространенными (см,, пример, описание фотографической системы на основе ИЯ объектно-изнакового типа [кристальный и др. 1976, 1983] , информационно-исковой системы "ФТОР" [мищенко,Щулов 1976J w фактографической стемы по географии [клыков,Лебедев І97б] ; в принципе среди задач С может также рассматриваться и наиболее сложная разновидность ктографического поиска, ориентированного на предварительную ло-ческую переработку информации ( описание такого рода процедуры ., например, в Гv/oods 1973]); - автоматическое построение предметных ні систематических ука-телей к информационным изданиям.

В сферу деятельности ИИС может быть также включена задача манного перевода с одного естественного языка (ш) на другой ( см. исание автоматизированных информационных систем "Электротехника" амонова и др.1977] ,\Певзнер I977J , titus [Due-rot I974J , также фррмулировку принципов так называемого "интерпретированное " перевода в рамках ИИС (Леонтьева Н.Н. 1975J у* В последней рабо-к функциям ИИС, требующим проведения лингвистического анализа кстов документов, причисляется также подготовка информации для гоматизированной системы управления - классификация информации, гоматическое накопление сведений по определенной теме и др. К зряду интегральных может быть также отнесена система umilex , горая предназначается для автоматизации различных лексикографи-зких работдинформационного обслуживания лексикографов и перевод-ков в режиме "запрос-ответ" [Андрющенко 1982] .

Кроме того, возможна также ситуация, когда многофункциональная їентация ИИС предполагает использование отдельных массивов доку^. ментов только для определенной информационной задачи. В этом случае основным требованием, предъявляемым к лингвистическому компоненту системы и, в частности, к ее словарю, является обес-печение гибкой перестройки системы обработки текстов в зависимости от решаемой задачи. Так, в работеІРнлова 1977 , где в общем виде формулируется идея построения так называемой адаптивной системы автоматической обработки текстов(А0Т)й', предлагается в целях повышения эффективности автоматизированных ИС создавать поисковые образы документов, сохраняющие различную часть содержания последних и привязанные к определенной задаче.

Данная работа в своей основной части носит методологический характер. Её главной целью является описание состава и структуры словаря, представленного в форме, которая позволяет использовать этот словарь при обработке текстов с помощью ЭВМ. Поэтому '395/ мы назвали этот словарь автоматическим.

Автоматическая обработка текстов с помощью такого словаря сводится к записи этого текста в виде формализованного представле ния, моделирующего его смысловую организацию. Представление текста предназначено для решения следующих информационных к/ Основы теории автоматизированных систем обработки тєкстов(аСОТ) заложены в работах Б.Ю.Городецкого (см..например,[Городецкий 1976, 1978)) и в работах Р. Г. Пиотровского ('см.,например,(Пиотровский 1975 I979J), где речь идет о системах автоматической переработки текс- та(АПТ). - -'См.определение в Словарь по... 1979) . Другое понимание этого термина подразумевает построение с помощью ЭВМ словаря, используемого далее человеком по его назначению, например тезауруса для ручного индексирования

Вишнякова 1975 или машинного тезауруса рус- ского языка [караулов 1980,1981

Караулов и др.1982 . - 8 -задач: нахождение в тексте отдельных сведений (задача фактографического поиска); нахождение самого текста по его содержанию (задача документального поиска) и автоматическое формирование по тексту рубрики предметного указателя к реферативному журналу.

Таким образом, словарь указанного типа предназначен для решения перечисленных задач в интегральной информационной системе, и в частности в системе АССИСТЕНТ ВИНИТИ АН СССР (о структуре этой системы см. в [Михайлов и др.197б] и [черный,Пащенко 1979().

Перед тем, как перейти к характеристике АС, необходимо, хотя бы в общих чертах, обрисовать систему ЛОТ, в которой, предполагается использовать этот словарь. Тем более, что выбранный нами подход к организации такой системы непосредственным образом определяет представление в ней большей части словарных сведений.

Одним из возможных путей построения системы обработки текстов в ИИС является создание комплекса информационных языков, каждый из которых ориентирован на определенную задачу (такой способ организации лингвистического обеспечения, в частности, в интегральных библиотечно-информационных системах рассматривается в [Коровякова І976П; проблема обеспечения совместимости информационных языков и их словарей, входящих в Государственную автоматизированную систему научно-технической информации (ГАСНТИ,), затрагивается в [Автоматизированная...I975J, [антопольский и др.197б7, [Антопольский I983J.

При определении принципов организации системы АОТ в рассматриваемой ИИС мы выбрали другой подход, основанный на использовании единого Ж, способного функционировать в разных состояниях. О перспективности такого подхода говорится, в частности, в [Рыбаков и др.1980]. Говоря о многофункциональной обработке текстов, уместно упомянуть ряд работ Б.Ю.Городецкого, где выдвигается іринцип множественности вариантов различных механизмов автоматизированной системы обработки текстов, и в частности информационного языка - см. [Городецкий I973,I976J.

Впервые идея многофункционального ИЯ была реализована в системе СИНТОЛ Г Cros et аі. І964І. Э.Ф.Скороходько в Гскороходько 19681 характеризует СИНТОЛ как "...семейство информационных языков, обладающих разной описательной силой. Языки, входящие в это семейство, являются совместимыми: каждый язык с большей описательной силой включает в себя целиком языки с меньшей описательной силой. Благодаря атому выражения различных совместимых языков имеют однотипную структуру, что позволяет легко переходить от одного языка к другому,, использовать во многих случаях единые алгоритмы и программы."

Принципы организации ИЯ с многоуровневой структурой получили дальнейшее развитие в работах по созданию языка RX-кодов | Информационно-поисковая... 1968 I и универсального ИЯ "ЭХО" .Леонтьева Н.Е.І97ГІ. В последней работе формулируется следующее требование к многофункциональному ИН - "...он должен располагать средствами, позволяющими передавать в принципе всю информацию, содержащуюся в тексте." Тем же автором в Леонтьева Н.Н. 1975 высказывается соображение о целесообразности начинать построение языка ИИС п...с создания полного семейства ИЯ, т.е. с определения структуры ИЯ высшего уровня." При этом предполагается, что однократный перевод текстов документов на ИЯ этого уровня позволит получить представление этих текстов на всех прочих уровнях сложности.

Одним из возможных путей перехода в интегральной:системе от высшего уровня представления текста на ИЯ к более простым является задание системы синтЖатических отношений многофункциональ- ого ЙЯ в виде иерархической структуры [Леонтьева ЇЇ.Н. I975J. озможность автоматической замены сложной синтаксической организа-ии на структуру; низшего уровня сложности предусматривается так-:е в системе СИНТОЛ.

В проводимом исследовании такого рода перестройка множества щнтагматических отношений ИЯ рассматривается в связи с изменени-т режимов работы системы АОТ ИИС в зависимости от решаемой зада-ш. По этой причине иерархический принцип был нами использован и іри организации словарной информации.

В общем виде эту проблему затрагивает М.В.Арапов в [Арапов 964[, где в качестве будущей возможной модификации своей, семантической модели тезауруса он предлагает рассматривать "тезаурус с яерархией семантических категорий". Работа |_Беляева I983J содержит предложение организовать лингвистическую информационную базу для АП как иерархическую систему блоков-модулей, на верхнем уровне которой расположены автоматические словари, содержащие минимально необходимую информацию, а на нижнем - семантические описания, связанные со словарями специальными отсылками.

Значительная роль словаря в системах АОТ различных типов обуславливает необходимость серьезного подхода к проблемам отбора, организации и записи словарной информации. Подробно эти вопросы рассмотрены в отдельных работах, посвященных АП с одного ЕЯ на другой, -[Donnas ...J, |Ъертель и др. І97ІІ, [Арсентьева, Шаляпина 1972], [ Lu-tkhardt I972J, [ Simmermann 1972], [во-куа и др. 197з], [Бектаев и др. 197з], [Шаляпина и др. І975І, [Беляева и др. 197б], [Чижаковский,Беляева І983І; в одной лексикографической работе, связанной с подготовкой машинного - II - словаря английского языка[Olne^,RamseyI972J , а также в некоторых исследованиях, связанных с_построением словаря^ ИЯI Rapp^ri ...1968 [Леонтьева Т.М. 1969Д970І,[Васильева и др. I972J , Г Леонтьева, Уры-сон 1973 ,[пащенко и др. 1977] , [Гинзбург I979J , [велоногов,Кузнецов 1983 , ІБелоногов и др.1983а .

Важная роль отводится словарю и в работах, связанных с такими видами АОТ, как формальный анализ структуры связного текста в рамках направления исследований, получившего название "лингвистика текста" Г см., например, [Гиндин I972JJ, а также смысловое сжатие текста при его автоматическом реферировании Гиндин I977,I978J ,[пащенко и др.І983І ,[Пиотровский и др.198з] .

Серьезное место лексикографические проблемы занимают также в разработках систем типа "вопрос -ответ". Многие из этих систем содержат семантические и логические компоненты, наличие которых предполагает использование словаря с большим количеством лингвистических и экстралингвиетических сведений. В качестве примеров можно отметить систему "запрос-ответ", использующую нетривиальный тезаурус [Ильин и др.І969,І97і] , SEMANTIC MEMORY М.Р. Куиллиана I Quillian I968J, [ Дрейфус І978І, а также его вторую систему - Teachable Language Comprebender » главным инструментом которой является семантический словарь (см. Нэ-ys І970І).

К проблемам, связанным с процедурой построения АС, тесным образом примыкает задача изменения уже готового варианта словаря в процессе совершенствования системы АОТ. Эта процедура в сочетании с другими процедурами, связанными с обеспечением эффективного использования словаря по его назначению, называется ведением словаря - см., например, описание машинных процедур изменения словаря для АЛ с одного ЕЯ на другой в [Арсентьева I97II и [Яхонтов I974J.

Ввиду высокой динамики изменения лексического состава ИЯ, при ведении словаря информационной системы на первое место выдвигается задача организации словарной информации таким образом, чтобы по возможности максимально упростить и одновременно унифицировать процедуру внесения в словарь ноеых лексических единиц, (ш) и информации к ним, а также процедуру изменения уже имеющейся там информации. Эта задача, рассмотренная применительно к АС КИС, также является объектом настоящего исследования.

В данной работе предполагается решить следующие шесть ос-, новных задач:

Определить состав и структуру: информации в словаре ЖС в соответствии с наиболее сложным видом АОТ, ориентированным на задачу фактографического поиска.

Разработать представление текста на Ш, ориентированное на решение всех, выделенных задач ИИС, а также представления, предназначенные для каждой из.задач в отдельности.

Разработать структуру интегрального представления основных типов словарной информации в АС с учетом следующих основных требований, предъявляемых к этому словарю: 1/обеспечение формального выделения из записи основных типов словарной информации более простых уровней ее представления в зависимости от решаемой информационной задачи; 2/построение компактной записи словарных: сведений; 3/максимальное упрощение и формализация процедуры построения и ведешя АС; 4/обеспечение структурной согласованности с массивом фактографических- сведений.

Описать словарные сведения, носящие достаточно регулярный характер, отдельно от АС в "грамматическом" слова- ре, содержащем 3 типа словарных статей: синтаксические, семантические и тезаурусные.

Составить методику построения АС.

Выделить основные объекты системы ведения АС и сформулировать принципы иж ведения.

Настоящее исследование проводилось в рамках работ по подготовке в ВИНИТИ АН СССР 3-ей очереди интегральной информационной! системы АССИСТЕНТ (2-ая> очередь этой системы была принята в промышленную эксплуатацию в 1900 r.J . В качестве экспериментального массива, на котором строился словарь, использовался корпус текстов объемом 5000 рефератов, отобранных из разделов "Автоматический перевод текстов" и "Информационный поиск" реферативного журнала "Информатика" за 1979-1983 гг. Практическим приложением работы явилось построение фрагмента АС (1200 словарных статей/ и "грамматического" словаря (99 словарных статей), а также разработка методики построения АС и основных принципов его ведения. На основе разработанного фрагмента АС в ВИНИТИ АН СССР был проведен машинный эксперимент, в ходе которого было осуществлено: Г/автоматический перевод на Ш текстов 100 рефератов; 2/перестрой ка работы системы А0Т всоответствии с предусмотренными в ней режимами ЛОТ и 3/построение представлений текстов применительно к задачам системы ('образцы машинных решений приведены в прил.б). Помимо этого, результаты исследований, изложенных в диссертации, были внедрены в состав нормативно-методического обеспечения Автоматизированной системы ведения информационных языков Государственной системы ЫТИ (ГАСНТИ), а также в систему УНИЛЕКС, создаваемую в лаборатории по применению вычислительных средств в гуманитарных науках- НИЩ МГУ. Все ссылки на внедрение результатов диссертации подтверждаются справкой и актами, приведенными в прил.Ю.

Научная новизна исследования.

Новым в проведенном лексикографическом исследовании является комплексное описание синтаксической, семантической и тезау-русной информации, содержащейся в автоматическом словаре. В диссертации описывается специальный .аппарат, позволяющий формальным образом перестраивать эту информацию в соответствии с решаемой задачей. Благодаря предложенному подходу структура записи тезаурусных сведений о лексической единице задается ее толкованием; в работе приводится формализованная процедура отбора этих сведений.

В рамках рассматриваемой в работе системы АОТ определяется структура представления текста на ИЯ, ориентированного на решение всех задач интегральной информационной системы, а также структуры представлений, предназначенных для каждой, из задач в отдельности. В диссертации приводятся процедуры выделения в представлениях текстов на ИЯ различных информативных фрагментов -от смыслового ядра, предназначенного для формирования рубрики предметного указателя, до целого графа текста, используемого в качестве поискового образа документа при документальном поиске. Особенностью этих процедур является сжатие текста при его автоматическом переводе на информационный язык (что предполагается обязательным в рамках практически любой информационной системы) при условии сохранения его смыслового единства.

Организация словарей в системах АЛ с одного естественного языка на другой и в некоторых системах искусственного интеллекта

В качестве основных черт, характерных-для автоматических слова-}й. современных систем АП, можно отметить: Г/ включение в словарные гатьи все большего количества разнообразных сведений в связи с ус-жнением процедур АОТ; 2/значительная формализация структуры сложных статей; 3/сближение формы записи сведений в словаре и грам-з/гике; 4/повышенный интерес к проблемам представления в словаре се-антической информации, который в отдельных случаях проявляется в азработке специального формального языка для записи смысла ЛЕ.

Рассмотрим наиболее существенные достижения в лексикографичес-ой практике с точки зрения реализации этих 4-х аспектов. При этом начале [в данном разделе) проанализируем словари систем АП с одногс Я на другой и некоторых систем искусственного интеллекта, а далее разделе I.2J в сопоставлении с этими АС опишем организацию наибо-ее сложных словарей, используемых в сфере информационного поиска. аметим, что в данном обзоре мы не касаемся АС, выполняющих функцию омошника переводчика (см.,например, ГМарчук и др.1979 П.

Все перечисленные выше характеристики присущи англо-русскому ногоаспектному словарю (APlAkC) системы англо-русского АП [КРАП. ), писанному в Шаляпина І975Д977І. Одна из основных особенностей. РМАС состоит в том, что он по своему назначению не является зкоспециализированным, а ориентирован на моделирование це-ого ряда информационных задач, и, в частности, задачи обратного (с русского языка на английский) .

Такая специфика словаря .системы АРАП определяет присут-:твие в нем большого числа различных сведений о слове. Словарная статья АРМАС содержит следующие разделы: I/ описание ібщего статуса ЛЕ, включающее поверхностное представление ітой единицы; 2/ морфологические характеристики ЛЕ; 3/ се-іантические характеристики ЛЕ, подразумевающие сведения о іе лексической производности, толкование, переводные эквиваленты ЛЕ и другие семантические сведения; 4/ синтаксичес-же характеристики ЛЕ, включающие, в частности, модель управления этой единицы; 5/ лексико-синтаксические сведения, [редставлягощие собой правила преобразований синтаксической :труктуры текста, определяемые присутствием в ней данной

Вопросам формализации представления словарных статей в РМАС в целях машинной реализации этого словаря посвящена забота ГАрсентьева, Шаляпина 19721 .

В основе организации словаря системы АРАП и ее грам-іатического обеспечения лежит важное положение, заключающе-!ся в том, что оба эти компонента системы содержат однотип-ие сведения, различающиеся только степенью их стандартнос--и, т.е. утверждается, что грамматика, по сути дела, являет-!Я обобщением словаря. Отсюда вытекает возможность строить рамматическое описание по той же схеме, что и словарные !татьи, и использовать при этом одни и те же формальные федства (см. I Шаляпина 1977 \).

И, наконец, говоря об АРМАС, следует отметить целый )яд публикаций. - Г Шаляпина 1975 ,,1978,19791 , содержащих детальное описание специального языка, предназначенного для представления в словаре такого типа семантических толкований лексических единиц.

В значительной степени с АРМАС схож семантический словарь системы французско-русского автоматического перевода ( ФРАП J (всего в этой системе используется 8 словарей, привлекаемых на разных уровнях анализа и синтеза текста) [Леонтьева,Ннкогосов 1977,1979 ), [Леонтьева Н.Н.І979], [Леонтьева Н.Н. и др.197э] . Существующие между этими двумя словарями различия определяются принятыми в каждой из систем АП промежуточными представлениями текста. В отличие от системы АРАЛ, где значительная часть смысловых сведений о ЛЕ содержится отдельно от АС в так называемой, семантической грамматике и описывается на уровне семантических элементов (элементарных единиц смысла), в системе ФРАП такого рода сведения включены в семантический словарь и задаются в основном на уровне лексических единиц. Помимо толкования ЛЕ в этом словаре предусмотрена богатая семантическая информация, включающая сведения о пресуппозиции, а также различные правила, используемые при смысловой коррекции представления текста, восстановлении в нем Смысловых опущений, а также при реализации отдельных логических выводов на основе словарных сведений о ЛЕ.

Общее описание процедур автоматической обработки текстов в интегральной ин формационной системе

Автоматический словарь в интегральной информационной истеме предназначен для осуществления различных видов ОТ. Основные типы задач, решаемых с помощью системы обра-отки текстов в ИИС, уже были охарактеризованы во введении, еречислим теперь эти задачи применительно к ИИС, структу-у словаря которой мы предполагаем рассмотреть в данном разделе. В этой системе к числу задач, реализация которых ребует участия АС, относятся: непосредственный" "фактографический поиск;

- документальный поиск вместе с его наиболее простой азновидностью - предметно-тематическим поиском (последний риентирован на запросы тематического характера, т.е. сфор-/лированные в весьма общем виде, часто в виде названий от-зльных научных областей или дисциплину ;

- автоматическое построение предметного указателя к зферативному журналу.

Система АОТ, включающая в свой состав словарь такого ша, ориентирована на работу в различных режимах, т.е. на шіение всех перечисленных задач вместе, а также второй и етьей вместе или же только третьей задачи. Подобная ситуа-я объясняется тем, что в описываемой ИИС отдельные масси-! информации не используются при фактографическом поиске ж привлекаются только при построении предметного указателя.

В то же время независимо от режима АОТ перевод текстов уществляется на один и тот же ИЯ, способный функционировать разных состояниях (или на разных уровнях) в зависимости от ожности стоящих перед системой задач.

Также., как и в любой системе АП с одного естественного на другой, АОТ в рассматриваемой ИИС включает 3 основ-х этапа - этап анализа, этап построения представления тек-а на ИЯ и этап преобразования представления текста на ИЯ.

Все эти этапы могут быть выделены при любом режиме АОТ в ИИС.

Рассмотрим теперь особенности ИЯ, используемого в данной стеме обработки текстов.

Информационный язык, используемый в системе АОТ ИИС. В рассматриваемой системе АОТ используется развитый информа-ионный язык дескрипторного типа (отдельные представители этого класса языков были рассмотрены в разделе 1.2).

Основными компонентами данного Ш являются описываемый в нас-оящей работе словарь и система синтагматических отношений этого зыка. Последняя представлена набором бинарных интерпретирован-ых отношений (см.прил.4,). Выбор лингвистического средства этого определили требования, предъявляемые к данной системе7 АОТ, и, частности, ее ориентация на задачу фактографического поиска, ребующую эксплицитного отражения в представлении текста на Ш мысловых отношений между его элементами.

В настоящем варианте системы АОТ используется 50 отношений,ш тбор которых производился в процессе записи в словарные статьи тдельных типов сведений (см.далее разделы П.4.2. и П.4.4.). Дос-аточность этого набора отношений для предусмотренного в нашей истеме анализа текстов была подтверждена в ходе ручного и машин-ого эксперимента по обработке текстов документов и запросов в АС (вручную было проанализировано 80 текстов, машинный экспери-ент был проведен на Г00 текстах).

Помимо перечисленных компонентов в ИЯ ИИС содержатся также раз-ячного рода правила, применяемые при переориентации смысловых от-ошений, перестройке графа текста и других операциях, связанных с остроением представления текста на Ш. Основные из этих правил эрмулируготся в разделе Ш.Г.

Автоматическая обработка текстов на основе ИЯ высшего уровня

В системе АОТ ИИС предусматривается 4 режима, в соответ-вии с которыми, как отмечалось в разделе ЇЇ.І, перевод текс-в осуществляется на один и тот же ИЯ, функционирующий, на зных уровнях.

Опишем теперь процедуры обработки текстов в каждом из кимов с точки зрения участия в них АС, представленного в зделе П.4. В связи с этим мы не будем затрагивать отдельные зтные этапы АОТ, не связанные непосредственно с лексикогра-ЇЄСКИМИ проблемами, а именно, анализ синтагм, включающих Ьры, сочинительные союзы и т.д.

Ш.І. Автоматическая обработка текстов на основе ИЯ высшего уровня.

Перевод текстов на ИЯ этого уровня соответствует АОТ іервом режиме, ориентированном на решение всех трех задач

Ш.І.І. Автоматический анализ текстов.

Автоматический анализ в первом режиме предполагает неза-зимуго обработку отдельных предложений текста, которая почает Сем. схему на стр.38):

I. Морфологический анализ всех словоформ предложения, осуществляемый в соответствии с алгоритмами, разработанными Г.Белоноговым; в процессе этого анализа привлекаются сло-арные сведения из разделов 0-1. и Д; в результате такой об-аботки каждая словоформа предложения заменяется на загла-ие соответствующей словарной статьи с указанием грамматичес-их характеристик исходной словоформы;

2. Синтактико-семантический анализ, который проводится учетом грамматической информации, полученной, в результате эрфологического анализа, а также словарных сведений из зон ,и Uu (в случае неоднозначности анализа могут также привле-аться сведения из зоны У.} . Результатом АОТ на этом этапе зляется выявление синтаксических связей внутри отдельного эедложения и их интерпретация в терминах смысловых синтаг-ітических отношений (в данном случае используется исходный ібор этих отношений -см. прил.4_) : На последнем этапе іализа производится также коррекция установленных отношений; ш, в частности, в соответствии с указаниями, содержащимися записи синтагматических отношений может происходить пере-шентация отдельных синтаксических связей. Необходимость такой операции диктуется принятым в нашей системе способом )едставления текста на Ш, где отношения отражают не поверх-ютные связи лексических единиц, а семантические зависимос между их переводными эквивалентами, объединяющими близкие ) смыслу ЛЕ. В этой связи с глаголом и образованными от не-) причастиями (все они переводятся на ИЯ одним дескрипторові) представлении на Ш устанавливаются одинаковоориентированe и одноименные отношения (указание о переориентации таких "ношений содержится в синтаксических статьях причастий) .

- 120 алогичная ситуация - с существительным и отыменным прилага-льным (оба переводятся на ИЯ одним дескриптором) . При этом я получения идентичного представления на ИЯ синтагм, образоиных с такими ЛЕ (например, э екигеностьпоиска и эффектив-gjiOHCK - ПОИСК качест ЭФФЕКТИВНОСТЬ) , приходится пере-иентировать отношение, устанавливаемое с зависимым сущест-тельным (в перечне синтагматических отношений отношения, длежащие переориентации, помечены символом "") , а енно, эффективности качес9 поиск заменяется на поиск— честно эс ективностг .

На этом процедура анализа заканчивается; полученные в зультате ее проведения бинарные синтагмы, места которых за-янены заглавиями словарных статей, а связи интерпретирова-в терглинах системы синтагматических отношений ИЯ, поступают вход блока построения представлений текстов на ИЯ.

Ш.І.2. Построение представлений текстов на ИЯ.

На этом этапе АОТ в нашей системе предусмотрены следую-з операции (см. схему на стр.40) :

1. Объединение всех установленных на этапе анализа отце ний в граф предложения;

2. Замена всех заглавий словарных статей, стоящих в гсах графа, на соответствующие переводные эквиваленты;

Следует отметить, что все алгоритмические процедуры, эмянутые в нашей работе, представлены здесь в виде словес-го описания. этом возможна перестройка графа предложения в зависимос-i от типов переводных эквивалентов (далее в примерах слово ш словосочетание, используемое для иллюстращш положений, щержащихся в конкретном пункте, подчеркивается двойной чертой) :

Методика построения автоматического словаря

В главах П и Ш настоящей работы были определены типы формации, содержащейся в АС ИИС, а также сформулированы инципы использования этой информации и ее перестройки в ответствии с задачами такой системы. Следующим важным момен-м, связанным с функционированием АС, является формулировка тодических принципов, на основе которых строится такой сло-рь, а также определение этапов его построения.

Многофункциональное назначение АС, содержащего большое словарной информации и имеющего довольно сложную руктуру, делает процесс построения этого словаря достаточно ятельным и трудоемким.

В этой связи предлагается следующее:

- организовать процедуру построения АС таким образом, обы еще до окончательного завершения словаря его можно по бы использовать для решения отдельных информационных цач;

- максимальным образом унифицировать и одновременно ростить процедуру построения АС.

Функционирование ИИС на начальных стадиях ее создания предполагает решения сразу всех информационных задач, перед системой. Эти задачи могут решаться по мере ввода в действие различных подсистем ИИС. связи с этим предполагается начать построение АС с накоп-ния в нем основных сведений, которые уже на этой стадии товности словаря могут быть использованы для решения наиболее простых информационных задач. Структура :оваря позволяет осуществлять такое поэтапное его построе-:е при условии выполнения всех требований, предъявляемых АС (см. раздел П.2) ; исключение составляет только тре-вание универсальности, которое непосредственно связано с пользованием этого словаря в ИИС . Так, например, выполнив требования гибкости структуры словаря позволяет в оцессе построения АС обращаться к любым его готовым фраг-нтам, не затрагивая при этом всей структуры в целом.

Предлагаемый подход к задаче построения АС связан так-с реализацией и другого требования к этому словарю, а имен-, требования согласованной организации АС и системы синтагма-ческих отношений. При условии выполнения этого требования . начальной стадии функционирования системы АОТ наряду с товым фрагментом АС могут использоваться и соответствующие ому состоянию словаря обобщенные синтагматические отноше-я. При этом последующее достраивание словаря и усложнение :стемы отношений (т.е. переход к использованию отношений, ,сположенных на нижнем уровне иерархии) будут происходить непосредственной взаимосвязи.

Кроме того, в процессе составления словарной статьи [едует учитывать еще 3 требования к АС, непосредственно (язанных с процедурой его построения, а именно: требования мпактности и формальности записи словарных сведений, а ,кже требование согласованности этих сведений между собой.

Важным фактором, обеспечивающим поэтапную процедуру пост-ІНИЯ АС, является наличие в нашей системе "грамматического" шаря, который, в частности, содержит синтаксические сведе-[, достаточные для реализации наиболее простых режимов ана-$а (третьего и четвертого) без обращения к соответствующей іе АС (см. раздел Ш.з) .

"Грамматический" словарь является также полезным инстру-ітом упрощения отдельных операций построения АС. Такая его ікция будет рассматриваться по мере описания процедуры за-;и в словарную статью разных типов сведений.

Дяя обеспечения последовательного ввода АС в ИИС проце- а построения словаря должна быть разбита на следующие шы: I/ начальный этап, предполагающий запись обязательной сикографической информации и 2/ завершающий этап формирова-[ словарных статей. Проиллюстрируем эту процедуру на приме-заполнения словарной статьи ЛЕ тезаурус. При необходимости шодятся также и другие примеры.

Похожие диссертации на Лингвистические проблемы организации и ведения автоматического словаря в интегральной информационной системе