Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Киселев Александр Николаевич

Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники)
<
Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники)
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Киселев Александр Николаевич. Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники) : ил РГБ ОД 61:85-10/1180

Содержание к диссертации

Введение

ГЛАВА I. ПРОБЛЕМА ГРАММАТИЧЕСКОЙ И ЛЕКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ В СОВЕТСКОМ ЯЗЫКОЗНАНИИ 17

1.1. Общие понятия омонимии и полисемии в традиционном языкознании 17

1.2. Понятия омонимии и полисемии в прикладной лингвистике. Их отличия от соответствующих понятий традиционного языкознания 22

1.3. Прикладные задачи, в которых требуется разрешение омографии 28

ГЛАВА 2. ОБЗОР СПОСОБОВ РАЗРЕШЕНИЯ ОМОГРАФИИ В НЕКОТОРЫХ СОВЕТСКИХ И ЗАРУБЕЗНЫХ' СИСТЕМАХ МП 32

2.1. Разрешение омографии в советских и зарубежных системах МП 32

2.2. Требования к построению этапа разрешения омографии в рамках модели машинного перевода по переводным соответствиям 41

ГЛАВА 3. ТЕОРИЯ КОНТЕКСТНОЙ ДЕТЕРМИНАЦИЙ 51

3.1. Общие положения теории 51

3.2. Контекстная детерминация лексических значений многозначных слов 53

3.3. Контекстная детерминация грамматических значений омографов . 57

ГЛАВА 4. РАЗРЕШЕНИЕ ОМОГРАФИИ МЕТОДОМ СХЕШОГО АНАЛИЗА ПО СТРУКТУРНЫМ ТИПАМ . 67

4.1. Выделение омографов. Деление их на классы 67

4.2. Разрешение омографии по окончаниям 75

4.3. Технология создания схем разрешения омографии по контексту 78

4.4. Общая структура алгоритма разрешения омографии 95

4.5. Использование детерминант в структурных типах 103

4.6. Эффективность разрешения омографии методом схемного анализа по структурным типам 106

СПИСОК ЛИТЕРАТУРЫ 117

СПИСОК СОКРАЩЕНИЙ . 133

Приложение I. Фрагмент текста до работы этапа омографии 134

Приложение 2. Фрагмент текста после работы этапа омографии 136

Приложение 3. Трассировки для всех омографов фрагмента текста 138

Приложение 4. Трассировка, разрешение омографии и перевод для слова окъу 142

Приложение 5. Распечатка текста до работы этапа омографии 144

Приложение 6. Распечатка текста после работы этапа омографии 157

Приложение 7. Фрагменты двух предложений, в которых была

ошибочно решена омография двух слов 170

Приложение 8. Трассировки и структурные типы, по которым шло ошибочное разрешение омографии 172

Приложение 9. Трассировки и структурные типы разрешения омографии после коррекции 174

Приложение 10. Результат работы алгоритма в виде постраничной распечатки 176

Приложение II. Структурные типы в обобщенном виде по классам омографии 181

Общие понятия омонимии и полисемии в традиционном языкознании

Общеизвестно, что язык функционирует в реальной действительности не как абстрактная субстанция, связанная лишь со смыслами, а как субстанция, связанная помимо смыслов еще и с внешней оболочкой. В свою очередь, слова, как наиболее ярко выраженные носители смыслов, в результате общественного применения языка также оказываются связанными с определенными элементами внешней оболочки. Поэтому естественным было бы такое положение, при котором каждой единице смысла соответствовал бы отдельный и строго определенный элемент внешней оболочки. В реальной же действительности этого не происходит. Как писал В.В.Виноградов, "ни один язык не был бы в состоянии выражать каждую конкретную идею самостоятельным словом или конкретным элементом, конкретность опыта беспредельна, ресурсы же самого богатого языка строго ограничены" /47, с.14/. Поэтому элементы внешней оболочки как бы раздвигаются и вмещают новые разновидности и оттенки смысла. Таким образом, язык оказывается в состоянии "разносить бесчисленное множество значений по тем или иным рубрикам основных понятий, используя иные конкретные или шлуконкретные идеи в качестве посредствующих функциональных связей" /47, с.14/. Отсюда обычное сосуществование в границах одного слова весьма разнообразных лексико-семантических вариантов, не разрушающих его тождества /115/.

От только что описанного положения, представляющего общее правило, общий закон функционирования и развития языковых единиц принципиально, по существу отличаются лишь те случаи, когда некоторая "единица внешней оболочки" оказывается как бы "удвоенной" (утроенной и т.д.) тем, что она связывается с "единицами смысла" внутренне настолько различными, что связь их, каждого в отдельности, с одной и той же единицей внешней оболочки выступает уже как возникшая в результате, как пишет О.С.Ахманова /27/, какого-то особого стечения обстоятельств, носит случайный характер. Такие случаи выступают уже как внутренне не связанные с общими закономерностями существования и развития языка, однако их не следует, по словам А.И.Смирницко-го /116, с.II/, рассматривать как некоторое "патологическое явление". В одном случае это явление могло быть вызвано фонетическими процессами, например, в известном слове "лук", в других случаях морфологическими процессами. Следует отметить, что при семантическом анализе слова вообще, и в особенности при различении омонимии и полисемии, важную роль играет семантическая система данного языка. "Всякий раз, когда новое значение включается в лексическую систему языка, - пишет В.В.Виноградов, - оно вступает в связь и во взаимодействие с другими элементами структуры языка. Только на фоне всей системы языка определяются границы слова" /47, с.14/. Однако семантическая система языка не есть нечто самодовлеющее, то есть, она не может мыслиться вне ее соотношения с действительностью. Как писал К.Маркс, "название какой-либо вещи не имеет ничего общего с ее природой" /I, с.ИЗ/. В.И.Ленин в "Философских тетрадях" также писал, что "...имя случайность и самую суть вещи не выражает" /3, с.250/. Следовательно, человек имеет дело не с создаваемой языком "картиной мира", а с отражением в сознании самой действительности. Как писал В.И.Ленин, "наш "опыт" и наше познание все более приспособляются к объективному пространству и времени, все правильнее и глубже их отражая" /

Ясно, что тождество слова может не разрушаться и при наличии у него значительно расходящихся лексико-семантических и лексико-фразеологических вариантов, хотя, например, Л.В.Щерба /135/ считал, что многозначности нет, и что если есть разные значения, то это значит, что имеют место разные слова. Однако большинство известных советских языковедов, таких как Р.А.Бу-дагов /39/, В.В.Виноградов /45/, Л.А.Булаховский /40/, В.И.Аба-ев /10/, О.С.Ахманова /27/, А,А,РеформатсниЙ /НО/, А.Й.Смир-ницкий /114/ считали, что многозначность в языке есть и давали принципиальную основу для разграничения полисемии и омонимии: полисемия - тождество слова при наличии у него двух или более отчетливо различных значений, омонимия - внешнее совпадение по звуковой оболочке двух или более различных слов. Таким образом, советское языкознание дает общетеоретическую основу для исследования конкретных фактов отдельных языков и обеспечивает необходимые предпосылки для решения соответствующих лексикографических вопросов, что и определяет повышение.научно-лингвистического уровня наших толковых и переводных словарей. С другой стороны, в ряде работ /26, 45, 48, 75, 123, 128, 155/ отмечается, что конкретные способы разграничения этих двух категорий - полисемии и омонимии - еще далеко не достаточно разработаны, в результате чего имеет место непоследовательность лексикографической трактовки, а иногда и разнобой в словарях. Высказывалось соображение, что только через обращение к достаточно обширному материалу можно будет наметить пути решения этого вопроса.

Разрешение омографии в советских и зарубежных системах МП

Разрешение омографии является составной частью автоматического синтаксического анализа. Большое внимание этой проблеме стали уделять, как отмечалось, уже в ранних алгоритмах машинного перевода.

Так, в алгоритме англо-русского автоматического перевода, разработанном Т.Н.Молошной в Математическом институте им. В.А.Стеклова Ж СССР /93/, имелась схема разрешения омографии. Разрешение омографии состояло в том, что определенная программа выбирала те или иные индексы, которые заранее приписывались словам. Классы омографии строились не на основе традиционной классификации слов по частям речи, а на основе специальной классификации. Процедура разрешения омографии состояла из двух этапов:

1. Разрешение омографии по окончаниям;

2. Разрешение омографии по окружению.

На втором этапе в качестве окружения использовались грамматические конфигурации. Под конфигурацией понималось сочетание двух или трех грамматически связанных слов определенных синтаксических классов. Были выделены возможные в английском языке конфигурации, и для каждой из них была подобрана соответствующая русская конфигурация. Синтаксический анализ заключался в последовательном свертывании конфигураций, обнаруженных в обрабатываемом предложении. Свертывание представляло собой замену конфигурации ее главным членом. Так, конфигурация "прилагательное + существительное" заменялась существительным и т.п. Это делалось для того, чтобы второстепенные члены не мешали обнаружению связей между главными членами конфигураций. Последовательное свертывание конфигураций должно было приводить к окончательной конфигурации "существительное + глагол" (подлежащее и сказуемое). Порядок преобразований был фиксирован и задавался заранее. В результате проведения такого анализа каждое английское предложение оказывалось представленным в единицах грамматики непосредственно составляющих. Имелись также частные правила разрешения омографии для цепочек омографов. Часть омографии разрешалась на основе статистики, например, омограф "THAT % Отличительной чертой этого алгоритма являлось то, что разрешение омографии в нем выделялось в самостоятельный этап. Также делалась первая попытка решить сложную проблему цепочек омографов при помощи частных правил анализа некоторых цепочек.

При фулькрумном анализе, который представлен работами П.Гарвина /51, 141/, омография разрешалась в процессе анализа в разных блоках. Так, снятие омонимии слов "чем" и "как" происходило на этапе предварительной досинтаксической обработки, омонимия родительного падежа (линии, числа) снималась в блоке выявления именных групп, но только там, где это позволяла сделать предшествующая именная группа. В блоке заключительной обработки происходило снятие омонимии тире; если тире оказывалось сказуемым, то оно снова поступало в блок обработки сказуемых. Далее снималась омонимия к этому моменту еще не подчиненных частиц "и" и "то" и т.п. В последнем варианте ФУлЪКРУМ 2 для разрешения омонимии были разработаны дополнительные принципы, обеспечивающие обращение к информации за пределами одного предложения.

В системе французско-русского перевода ФР-І /73/ имелся специальный этап разрешения омографии. На этом этапе для каждого слова, имевшего несколько словарных информации, делался полный анализ, который приводил к разрешению омографии. Таких слов насчитывалось 106. Правила снятия омонимии были основаны на анализе окончания слова или его контекста. К этапу снятия омонимии относились также следующие операции: отыскание для каждого прилагательного того существительного, которое оно определяет, выяснение для каждой формулы, к какой части речи она относится, выяснение для глаголов, которые могут быть как переходными, так и непереходными, какой именно случай имеет место.

При предсказуемостном анализе /74/ разрешение омографии не выделялось в самостоятельный этап, а осуществлялось по ходу анализа. Каждое слово входной фразы отыскивалось в словаре, и в результате ему приписывались все необходимые синтаксические коды (альтернативные классы слов, к которым оно принадлежит). Затем, на основе таблицы предсказаний, которая задает функцию грамматического соответствия, строились путем систематического перебора все варианты анализа фразы, вызванные омонимией, то есть вхождением данной словоформы в более чем один синтаксический класс слов. Количество вариантов структур, наряду с другими причинами, было обусловлено количеством омографов в предложении.

Общие положения теории

В монографии Марчука Ю.Н. "Проблемы машинного перевода" /80/ были определены основные положения концепции приближенных вычислений для достижения целей прикладного моделирования, которые включают:

1) разработку рабочей теории (модели), точно соответствующей данной задаче;

2) введение "поправочных коэффициентов", которые учитывали бы факты, отклоняемые чистой теорией;

3) определение допустимой и необходимой точности вычислений величины допустимой ошибки и цены, которую придется платить за требуемую точность вычислений;

4) описание метода приближенных вычислений.

Данная концепция приближенных вычислений является основой для построения семантической составляющей модели МПС. Семантическая составляющая должна строиться постепенно на основе некоторого исходного минимального семантического представления путем учета конкретных текстовых проявлений семантических параметров относительно конкретных видов неоднозначности. Каждый раз при учете все более сложных случаев неоднозначности по мере необходимости набор семантических признаков будет пополняться. Важно, чтобы новые семантические признаки не входили в противоречие со старыми и работали не в ущерб массовости разрешения конкретной неоднозначности.

Существуют различные методы обнаружения характерных особенностей элементов языковой системы. Эти методы в совокупности образуют специальную методическую теорию - теорию контекстной детерминации.

Теория контекстной детерминации основана на двух постулатах:

1) контекст воспринимается не только как некоторая последовательность символов, каждому из которых приписана определенная словарная информация, но и как иерархически организованная совокупность уровней информации. На основании изучения взаимоотношения единиц различных уровней Э.Бенвенист сформулировал свои известные определения: "Форма языковой единицы определяется как способность этой языковой единицы разлагаться на конститутивные элементы низшего уровня. Значение языковой единицы определяется как способность этой единицы быть составной частью единицы высшего уровня" /36, с.136-137/. Отсюда следует, что значение языковой единицы можно описать через множество единиц более высокого уровня, в которые может входить данная единица, или, по другому, - через множество допустимых для нее контекстов;

2) дифференцированный подход к контекстной зависимости каждой единицы, выделение единиц, значения которых полностью зависят от контекста, и выделение единиц, не зависящих от контекста.

Что касается грамматики, то в ней нецелесообразно рассматривать зависимость от контекста для каждой единицы, хотя для некоторых единиц это приходится делать. Суть грамматических правил заключается в том, что они описывают какое-либо явление для целого класса слов. Таким образом, неоднородность в зависимости от контекста должна оцениваться дифференцированно не только для каждой единицы, но и для выделяемых при решении той или иной неоднозначности классов слов. Это является принципиальным положением настоящей работы.

Выделение омографов. Деление их на классы

Одной из основных проблем при МП является отбор лексики, так как результаты работы всей системы во многом зависят от того, насколько полно словарь системы покрывает тексты выбранной тематики.

Все это в полной мере относится и к омографам, так как от полноты выделения омографов зависит качество перевода текстов, синтаксический разбор предложения, в то время как обычные двуязычные терминологические словари не дают такого полного описания омографов. В них, как правило, приводится только какое-либо одно грамматическое значение того или иного слова-омографа, что не всегда достаточно точно отражает реальное положение дел. С целью получения МП достаточно высокого качества в ВЦП, в разрабатываемых системах, в частности,в системе АМПАР, была принята установка на то, что для каждого слова (в том числе и омографа) в системе должны быть учтены по возможности все его основные функции в системе языка и все связи, которые могут его" характеризовать на различных уровнях лингвистического описания - морфологическом, синтаксическом, лексическом, семантическом. Источником такой информации могут служить конкордансы и семантические частотные словари.

При выделении омографов в настоящем исследовании использовался семантический частотный словарь, составленный на материале текстов английских статей по электронике и вычислительной технике и их русских переводов из фондов ВЦП и друтих источников, общим объемом около 300000 словоупотреблений для каждого языка /86, 125, 126/.

Сначала тексты проходили значительную ручную обработку и затем вводились в ЭВМ . После обработки текстов с помощью ЭВМ, помимо всего прочего, был получен указанный выше семантический частотный словарь словоформ английского языка.

Похожие диссертации на Исследование и алгоритмическое разрешение омографии при машинном переводе методом схемного анализа по структурным типам (на материале текстов английского языка по использованию вычислительной техники)