Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ и оценка эффективности современных систем машинного перевода Хроменков Павел Николаевич

Анализ и оценка эффективности современных систем машинного перевода
<
Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода Анализ и оценка эффективности современных систем машинного перевода
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хроменков Павел Николаевич. Анализ и оценка эффективности современных систем машинного перевода : диссертация ... кандидата филологических наук : 10.02.21.- Москва, 2000.- 265 с.: ил. РГБ ОД, 61 00-10/748-9

Содержание к диссертации

Введение

Глава 1 Современное состояние разработки систем машинного перевода

1.1 Роль и место СМП среди других лингвистических процессоров 18

1.2 Типология современных систем МП 21

1.3 Системы прямого перевода 23

1.4 Трансферные СМП 29

1.5 СМП семантического типа 33

1.6 Выводы к главе 36

Глава 2 Современная методология оценки эффективности систем машинного перевода 40

2.1 Современные методы оценки СМП 40

2.2 Типология ошибок при работе МП 52

2.3 Выводы к главе 84

Глава 3 Оценка эффективности основных действующих систем машинного перевода 85

3.1 Краткая характеристика систем МП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt ТІ Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe 86

3.2 Оценка эффективности современных СМП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt ТІ Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe 114

3.3 Выводы к главе 122

Заключение 124

Библиография 127

Приложение 145

Введение к работе

Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. На работе и дома мы пользуемся современными средствами связи; компьютер превратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в обыденной жизни. Бурное развитие новых информационных технологий свидетельствует о всевозрастающей роли вьрїислитєльнои техники в мировом информационном пространстве, о постепенной дигитализа-ции все новых и новых отраслей нашей жизни. С каждым годом увеличивается число пользователей Интернета — Всемирной паутины, которая претендует на роль единого информационного пространства в планетарном масштабе. Несмотря на противоречивость нашего мира, наличие вооруженных конфликтов и разногласий между странами, Сеть становится "виртуальной реальностью" особого типа, позволяющей осуществлять такую интеграцию между народами, которая в реальной жизни остается все еще несбыточной мечтой. Сеть Интернет - это мир без границ, где в течение нескольких секунд можно оказаться на другой части земного шара. Единственной преградой, которая незримо присутствует во всей Сети, является языковой барьер. Эта проблема, общая как для реального, так и для "виртуального" мира сети Интернет, до настоящего момента так и не нашла своего кардинального решения. Попытки внедрения универсального языка типа Эсперанто или какого-либо другого языка не привели к их массовому использованию, и единственным способом преодоления языкового несоответствия является перевод, известный еще с древнейших времен, когда этим делом занимались толмачи.

Но нынешний век, где информация изменяется 24 часа в сутки и применяются электронные средства связи, диктует свои условия. В такой ситуации

классический подход к осуществлению перевода не всегда оправдывает себя, т.к. требует больших капиталовложений и временных затрат. По сравнению с прошлыми веками объем информации, предназначенной для перевода, значительно увеличился. В некоторых случаях более целесообразным представляется использование машинного или автоматического перевода и систем машинного перевода (СМП). Развитие таких систем позволит оперативно осуществлять перевод информации и обрабатывать большие массивы документов в предельно сжатые сроки, т.е. удовлетворять основному требованию сегодняшней жизни: оперативной обработке огромных массивов информации при минимальных затратах.

Выбор данной темы исследования обусловлен в первую очередь ее новизной, недостаточной степенью исследованности и актуальностью рассматриваемых задач. Проблема эффективности машинного перевода является одним из ключевых факторов, определяющих перспективность развития данной области науки. В настоящее время не существует единой системы оценки эффективности работы существующих СМП. В данной работе предпринимается попытка проведения сравнительного анализа эффективности современных коммерческих СМП. В исследовании участвовали системы, осуществляющие перевод с русского языка на английский и обратно, и системы перевода с английского языка на немецкий и обратно. Для определения степени влияния языковой интерференции на качество перевода в эксперимент были включены англонемецкая и немецко-английская языковые пары.

Целью настоящей работы является сопоставительное исследование эффективности современных СМП. В основу качественного показателя результатов перевода и эффективности систем были положены не только лингвистические, но и экстралингвистические критерии оценки СМП.

Для достижения поставленной цели потребовалось разрешение следующих задач:

выявление современных СМП, нашедших свое промышленное и коммерческое применение и являющихся уже не исследовательскими прототипами, а реально действующими системами, обладающими свойствами готового продукта;

типологическое описание современных СМП и выявление доминирующего типа СМП;

выделение основных критериев оценки эффективности машинного перевода (МП);

проведение сравнительного исследования результатов переводов, выполненных современными СМП;

анализ и типология ошибок при работе с СМП;

апробация методов оценки на действующих системах МП и оценка их эффективности.

Теоретический аспект данной работы заключается в лингвистической разработке методов оценки. Системы рассматриваются, изучаются и оцениваются по принципу "черного ящика", который подразумевает отсутствие полной информации об алгоритмах работы системы, и на входном этапе мы априорно не знаем, с какой системой работаем. В результате исследования лингвистической компоненты систем МП создается теоретическое обоснование для определения типа системы и ее лингвистического обеспечения. Теоретическая значимость данного исследования заключается в возможности определения, дальнейшего моделирования и совершенствования лингвистической составляющей не только в СМП, но и в целом в системах искусственного интеллекта (ИИ), неотъемлемой частью которых собственно и является МП. В рамках исследования предлагается расширить типологию переводных соответствий, предложенную Марчуком Ю.Н. (Марчук, 1983).

Практические исследования направлены на подтверждение правильности выработанных критериев и методов оценки СМП, возможности их использования в качестве тестового массива не только для рассматриваемых в данной работе СМП, но и в целом для оценки эффективности существующих СМП, которые работают с указанными языковыми парами. Практическая ценность данной работы заключается в том, что потенциальный пользователь СМП при выборе программы машинного перевода может воспользоваться приводимыми в данной работе тестами для проведения первичной оценки СМП. На основе результатов такого теста можно будет принять окончательное решение о целесообразности применения СМП в тех или иных отраслях промышленности и получить начальное представление о качестве машинного перевода и имеющихся на сегодняшний день недостатках в этой области. Такие предварительные исследования, основанные на материалах, приводимых в данной работе, позволят сэкономить капиталовложения, избежать последующих финансовых потерь и разочарований вследствие завышенных требований к СМП.

Материалом исследования послужили более 300 текстов на русском, английском и немецком языках. Источником языкового материала послужила сеть Интернет, наиболее динамично реагирующая на языковые преобразования современности.

Методами исследования послужили принцип "черного ящика", метод тестовых групп конечных пользователей, типологическое, лингвистическое и экстралингвистическое сопоставительное описание.

На защиту выносятся следующие положения: 1. Доминирующим типом современных СМП являются СМП трансферного типа, получившие достаточно широкое промышленное и коммерческое распространение. Таким образом, системы трансферного типа представляют собой единственный класс СМП, который может быть подвержен сравнитель-

но-сопоставительному исследованию с целью выявления эффективности современных систем МП.

  1. Функционирование, развитие и совершенствование систем машинного перевода в настоящее время происходит в сети Интернет, которая является источником материалов не только для тестирования систем, но и служит рабочим пространством для такого рода систем в планетарном масштабе. Дальнейшая эксплуатация и разработка новейших СМП будет осуществляться посредством Интернета.

  2. При типологическом исследовании ошибок при работе систем МП следует придерживаться комплексного подхода, базирующегося на учете этапов функционирования системы. Следует выделять ошибки автоматического анализа и синтеза, которые в свою очередь подразделяются на более конкретные подклассы, отражающие работу алгоритмического аппарата системы.

  3. Подавляющее большинство современных СМП основано на принципе переводных соответствий. В результате типологического исследования модели переводных соответствий возникла необходимость создания расширенной классификации переводных соответствий. Предложенная типология переводных соответствий на основе лингвистического обеспечения СМП позволяет более широко рассматривать проблему ошибок при работе систем МП и может быть использована при создании новых систем, основанных на применении принципа параллельных текстов.

  1. Практическая классификация современных СМП, основанная на учете экстралингвистических факторов и качества переводов, выполненных данными системами, позволяет составить впечатление об эффективности и функциональных возможностях каждой системы. Указанная градация СМП представляет практическую ценность при выборе конкретной системы МП.

Результаты работы обсуждались на научной конференции "Коммуникативные стратегии на пороге XXI века" (Москва, МГУ, январь 1999 года), на конференции "Теория и практика речевых исследований (АРСО-99)" (Москва, МГУ, сентябрь 1999 года) и были представлены в виде тезисов на Десятую сессию Российского акустического общества (Москва, Акустический институт им. акад. Н.Н. Андреева, май 2000 года). Основное содержание диссертационного исследования отражено в 5 публикациях.

Типология современных систем МП

Современные СМП, согласно классификации, предложенной А.Д. Баку-ловым, Н.Н. Леонтьевой (Бакулов и др., 1990), Э.И. Королевым и другими исследователями, подразделяются на следующие типы (Королев 1991, Капанадзе, 1989, ИИ-90, 1990, Кулагина, 1990, Batori, 1986, Hutchins, 1986, Hutchins, 1988, Meli, 1989, MT-Summit, 1987, Schmitz 1998, Trujillo, 1999): — СМП прямого типа; — трансферные СМП; — СМП семантического типа. Подавляющее большинство современных коммерческих СМП относится к системам трансферного типа, которые будут рассмотрены более подробно в специальном разделе. Кроме этого мы полагаем, что, учитывая степень современного теоретического обоснования СМП, совершенно уместно говорить об одном доминирующем типе СМП, а именно о системах трансферного типа и их модификациях (системы, основанные на использовании примеров и параллельных текстов, Example-Based Machine Translation (ЕВМТ) и т.д.). Все коммерческие программы МП в той или иной степени относятся к системам, использующим трансфер.

Системы прямого типа в настоящее время практически не используются, став достоянием истории развития СМП. Системы, основанные на использовании баз знаний и языка-посредника, на сегодняшний день все же являются системами будущего, находясь на этапе лабораторных исследований и являясь, по сути, экспериментальными системами. В связи с недостаточно отлаженными механизмами работы и сложной системой настройки об их серьезном промышленном и коммерческом применении пока не может быть и речи.

Следует также проводить классификацию СМП по степени их разработанности. В соответствии с делением, предложенным Н.Н. Леонтьевой, З.М. Шаляпиной (Леонтьева и др., 1990) и Э.И. Королевым (Королев, 1991), мы подразделяем СМП на следующие типы: — исследовательские прототипы (изложен принцип действия системы безотносительно к условиям ее функционирования); — экспериментальные системы (системы, прошедшие проверку на экспериментальных тестовых массивах); — промышленные системы, работающие с реальными текстами, имеющие определенные помехоустойчивые, качественные и скоростные характеристики и прошедшие тестовые испытания; — коммерческие системы — системы, обладающие всеми свойствами промышленных систем, предназначенные для коммерческой продажи и представляющие собой законченный самодостаточный продукт, имеющий свойства товара. Подавляющее большинство рассматриваемых в данном исследовании систем МП относится к коммерческим системам. Для проведения сравнительного анализа качества перевода были также привлечены и некоторые экспериментальные системы (Спринт-5).

После окончания Второй мировой войны ученые, окрыленные успехами в области дешифровки военных сообщений, решили применить данные принципы для осуществления машинного перевода. В 1949 году появляется меморандум Уивера (Hutchins, 1986), в котором описываются перспективы МП, и высказывается утверждение о принципиальной возможности такого перевода. В Ї952 году при поддержке фонда Рокфеллера в Массачусетском технологическом институте (MIT) с 17 по 20 июня прошла первая конференция, посвященная проблемам машинного перевода. Ее организатором был Бар-Хиллел. Конференция завершилась успешно, и на ней было решено продолжить исследования в области создания специализированных словарей для МП и алгоритмов обработки отдельных слов. Результатом этой конференции стало создание в Джорджтаунском университете исследовательской группы под руководством Леона Достерта, которая занялась подготовкой первого эксперимента по машинному переводу. Финансирование этого проекта осуществлялось корпорацией IBM, а сам перевод выполнялся на машине IBM 701. Первая публичная демонстрация МП состоялась 7 января 1954 года в Нью-Йорке, в здании вычислительного центра IBM и получила впоследствии название Джорджтаун-ского эксперимента. Это был первый пример пословного перевода, который явился своего рода прототипом систем прямого типа, появившихся несколько позже. Для перевода с русского языка на английский было использовано 49 тщательно отобранных предложений из области химии, словарь системы включал в себя всего 250 слов, для анализа использовалось 6 грамматических правил. Каждому русскому слову в переводе было дано по несколько английских эквивалентов. Несмотря на малый объем текста и ограниченность перевода — это был первый пример действительно реального МП, положивший начало созданию систем прямого типа (Нелюбин, 1991, Нелюбин и др., 1999, Hutchins, 1986).

Исследования в области МП в СССР начались вскоре после проведения Джорджтаунского эксперимента в начале 1954 года. В это время начали работу три основные группы; две в Москве и одна в Ленинграде. Одна группа бьша создана в Москве, в Институте точной механики и вычислительной техники АН СССР, другая группа появилась в Математическом институте имени В.А. Стеклова АН СССР. Третья московская группа была сформирована в Лаборатории электромоделирования Всесоюзного института научной и технической информации. Ленинградская группа получила название Экспериментальной лаборатории машинного перевода Ленинградского университета. Вскоре после этого был создан целый ряд групп, занимавшихся исследованием МП; появилась группа в Первом Московском Государственном педагогическом институте иностранных языков, еще одна группа была создана в Институте языкознания АН СССР в Москве. Работы в данной области начались также в Горьком, Харькове, Киеве, Петрозаводске, Тбилиси и Ереване. Наблюдалось стремительное увеличение числа исследователей МП; так, если в 1954 году ученых, занимавшихся экспериментами в области англо-русского и французско-русского переводов, можно было пересчитать по пальцам, то в 1959 году их насчитывалось уже больше сотни. Конференцию, посвященную проблемам МП и проходившую в мае 1958 года в Москве, посетили 340 представителей из 79 различных организаций (Нелюбин, 1991, Harper, 1961). В 1955 году в Институте точной механики и вычислительной техники АН СССР проходит первый эксперимент по осуществлению МП в СССР. В рамках эксперимента на компьютере БЭСМ Академии наук СССР был осуществлен перевод с английского языка на русский текстов по прикладной математике. Объем словаря составлял уже 2300 слов (ИИ-90, 202, Нелюбин, 1991, Нелюбин и др. 1999а).

СМП семантического типа

В 80-х годах появились СМП, основанные на знаниях (КВМТ). Основным отличием данных систем от других программ машинного перевода является наличие компоненты, включающей экстралингвистические знания (ИИ-90, 1990, Королев, 1991, Goodman et al., 1991, Hutchins, 1986, Levin et al., 1992, Ni-renburg et al., 1992, Onyshkevich et al., 1995, Rosetta, 1994, Viegas et al., 1999, Wilks, 1975).

К этому классу относятся системы семантического типа, использующие модель "смысл - текстм, разработанную А.К. Жолковским, И.А. Мельчуком (Жолковский и др., 1967, Мельчук , 1974, 1995). Результатом исследования в области венгро-русской СМП стало понятие интерлингвы или языка-посредника, сформулированное Мельчуком и разработанное другими учеными (Dorr, 1993, 1994, 1997, Maxwell et al., 1988, Schubert, 1988). Проблемы, возникшие с порядком слов в венгерском языке, привели к отказу от пословного метода перевода и предпочтению изучения обычных синтагматических структур (таких как посессивность и адъективная перегласовка). Подобные исследования большого количества языковых пар должны были бы привести к созданию целой серии синтаксических форм, присущих в некоторой степени всем языкам, но наиболее подходящим для одного какого-то языка. Из этого ряда межъязыковых структур выбирались бы те структуры, которые соответствовали языкам входных и выходных текстов. Подобный анализ лексических сходств и различий должен был выявить целый ряд межъязыковых синтаксических единиц (например, передающих сравнение, отрицание, "больше чем нормальный" размер). С этой точки зрения язык-посредник можно представить в качестве суммы всех соответствий рассматриваемых языков, адаптированный для использования в многоязычных системах. Последующее развитие Мельчуком своих идей вылилось в создание его модели "смысл-О Текст". К сожалению, на данный момент нет ни одной действующей СМП семантического типа, которую можно было бы отнести к промышленным или коммерческим системам. Существует целое множество исследовательских прототипов и моделей: — ASCOF - система французско-немецкого перевода (Саарбрюкен, ФРГ); — ATLAS II - коммерческая система японско-английского перевода компании Фудзицу; — DLT - многоязычная система перевода Бюро разработки систем (Утрехт, Голландия); — CONTRAST - система японско-английского перевода Электротехнической лаборатории (Токио); — HICATS/JE - коммерческая система японско-английского перевода компании Хитачи; — КВМТ-89 - система перевода с японского языка на английский и обратно Университета Карнеги Меллона (Питтсбург, США); — LUTE - система перевода с английского языка на японский и обратно компании Ниппон Телеграф и Телефон; — PIVOT - коммерческая система перевода с английского языка на японский и обратно компании Ниппон Электрик; — PLAIN - система перевода с немецкого языка на английский Гейдельберг-ского университета (ФРГ); — ROSETTA - система перевода с голландского языка на английский и обратно Утрехтского университета и фирмы Филипс (Эйндховен, Голландия); — SEMSYN - система перевода с немецкого языка на японский и обратно университетов Саарбрюкена и Киото; — TRANSLATOR - система перевода с японского языка на английский и обратно Колгейтского университета (США) (Боброва, 1990, ИИ-90, 1990, Капанадзе, 1989, Королев, 1991, Кулагина, 1990, Hutchins 1986, Lawson, 1991, Levitt, 1993, Maxwell et al, 1988, Piggot, 1989, Tucker et al., 1984).

В университетах Билкент (Турция) и Карнеги Меллон (США) ведутся исследовательские работы по созданию СМП, основанной на использовании баз знаний, для перевода с турецкого языка на английский. В системе используется язык-посредник. Прототипом данной СМП стала система, основанная на знаниях KANT (Hakkani et al, 1983, 1998, Levitt, 1993, Nyberg et al, 1992, 1994). К сожалению, и эта система по-прежнему является прототипом и трудно судить о качестве и результатах ее перевода.

Таким образом, говорить о серьезном применении СМП семантического типа несколько преждевременно. Данное направление, возможно, получит свое широкое распространение лишь после прорыва в области создания систем ИИ, когда станут возможными формализация и представление в системе экстралингвистических знаний.

Типология ошибок при работе МП

Проблемы оценки качества перевода неизменно присутствуют как в традиционном, так и в машинном переводе. Несмотря на многообразие рассмотренных ранее теоретических и практических подходов к решению данной проблемы, их объединяет одна общая тенденция: какой бы ни была методика оценки качества переводов, она так или иначе исследует, классифицирует и пытается устранить ошибки, допущенные в процессе перевода.

В данном разделе мы рассмотрим и классифицируем ошибки, возникающие при использовании СМП. Из всего многообразия методов оценки перевода нам представляется целесообразным использовать принцип "черного ящика", так как практически все рассматриваемые системы являются коммерческими и специфика их внутренней организации и функционирования является закрытой для широкого пользователя, представляя собой коммерческую тайну. Для типологии ошибок при МП исследованию будет подвергаться выходной текст, в рамках которого осуществляется поиск и классификация допущенных системой ошибок. Теоретическим обоснованием данной типологии служит модель переводных соответствий, предложенная Марчуком Ю.Н. (Марчук, 1983). Помимо непосредственно лингвистических факторов, нам представляется целесообразным рассмотреть и экстралингвистические критерии СМП, включающие в себя стоимость, пользовательский интерфейс, простоту работы с системой и возможность ее обновления.

Более детально экстралингвистические факторы будут рассмотрены в главе 3 в процессе оценки эффективности конкретных систем МП. Если рассматривать проблему теоретического описания СМП в более широком аспекте, то необходимо выделить два основных подхода к созданию систем МП: дедуктивный и индуктивный. Дедуктивный подход получил свое развитие в 80-х годах нынешнего столетия. Суть данной концепции заключается в идее создания универсального языка, воплотившего в себе основные характеристики всех языков мира. На таком универсальном понятии интерлингвы базируются системы семантического типа. Как уже отмечалось ранее, такие системы до настоящего времени не нашли своего практического применения. Господствующий в современных системах индуктивный подход предусматривает создание практических моделей для осуществления МП. Примером такой модели служит концепция переводных соответствий, разработанная Марчуком Ю.Н. и послужившая теоретической основой для типологического анализа ошибок при работе МП.

Теоретические положения о существовании регулярных соответствий при переводе были высказаны еще классиками "традиционного" перевода (Апресян, 1966, Рецкер, 1950, Комиссаров, 1973). Аналогичная трактовка данной проблемы также отмечалась у Федорова А.В. (Федоров, 1983). Предложенное Рецкером Я.И. деление соответствий на эквиваленты, аналоги и адекватные соответствия, перекликающиеся с типологией В.Н. Комиссарова, согласно которой соответствия подразделяются на постоянные, вариантные и окказициональные, нашло свое отражение в модели переводных соответствий, разработанной Марчуком Ю.Н. Данную модель можно представить в двух основных состояниях: генерации и трансляции. Этап генерации необходим во время разработки систем МП и систематизации элементов описания. Мы не будем подробно останавливаться на состоянии генерации, поскольку используемый в данной работе принцип "черного ящика" не позволяет рассматривать этап генерации в принципе, а само состояние генерации подробно описано у автора (Марчук, 1983, 56). Учитывая специфику данной работы, следует отметить, что основным объектом исследования будет являться состояние трансляции и его соотнесенность в рамках модели переводных соответствий с современными СМП. Этап трансляции представляет собой непосредственное осуществление перевода на основе языкового материала.

К состоянию трансляции, в качестве ее вторичного признака, будут относиться элементы пополнения словарей и инструментарий для частичной предметной корректировки алгоритмов рассматриваемых систем. Модель переводных соответствий состоит из двух компонентов: предметного и динамического. Следует сразу отметить, что динамический компонент не будет рассматриваться в рамках данной работы ввиду невозможности исследования лингвистического обеспечения и алгоритмов рассматриваемых систем. Подавляющее большинство исследуемых программ является коммерческим продуктом, программная и лингвистическая компоненты которого защищены законом об авторских правах и носят закрытый характер. Предметный компонент состоит из двух элементов: предметного и переводного. В состав предметного элемента входят лексика, грамматика и семантика. Перечисленные составляющие во взаимодействии образуют текст. Переводной компонент состоит из типов переводных соответствий, с учетом которых будет строиться типология ошибок при работе МП. Как уже отмечалось, нами будут рассмотрены 3 основных типа переводных соответствий: эквивалентные, вариантные и трансформационные. Приведем определение переводного соответствия, предложенное Ю.Н. Марчуком.

"Переводным соответствием (актуализацией единицы перевода) будем называть пару, образованную отрезком входного текста и отрезком выходного текста, между которыми существует отношение коммуникативной эквивалентности" (Марчук, 1983,61). Из данного определения следует, что перевод явля 55 ется основополагающим фактором для выявления определения и классификации переводных соответствий. Эквивалентные соответствия на уровне слов могут выступать в процессе перевода в следующих основных комбинациях: Слово - слово; Слово - словосочетание; Словосочетание - слово; Словосочетание - словосочетание. Для вариантных соответствий на уровне слов и словосочетаний используются комбинации, типичные для эквивалентных соответствий. Если рассматривать соответствия на уровне текста, то необходимо отметить их вариативность в подавляющем большинстве случаев.

Оценка эффективности современных СМП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt ТІ Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe

Системы машинного перевода, рассматриваемые в нашем исследовании, будут тестироваться по принципу "черного ящика" в соответствии с типологией ошибок, изложенной во второй главе. Каждая система оценивается по пятибалльной шкале: 5 — отличный перевод (смысл понятен, требует минимального постредактирования) 4 - хороший перевод (общий смысл понятен, требуется постредактирование) 3 - удовлетворительный перевод (общий смысл в большинстве случаев понятен, но требуется постредактирование с обращением к оригиналу) 2 - неудовлетворительный перевод (общий смысл без обращения к оригиналу понять сложно, необходим большой объем постредактирования) 1 - неприемлемый перевод (смысл понять невозможно, объем постредактирования сопоставим с выполнением перевода еще раз) Рассматриваемые нами системы мы предлагаем разбить на две основные группы: 1. Системы, поддерживающие русский язык (PROMT 98, СПРИНТ-5, Сократ, SYSTRAN); 2. Системы, осуществляющие перевод с английского языка на немецкий и обратно (SYSTRAN, Langenscheidt, Personal Translator, Power Translator).

Как показывает проведенное нами исследование, в каждой из групп выявляется лучшая программа. Тестирование и оценка систем осуществляется на основе более 300 политематических текстов.

Оценка понятности и адекватности перевода исходному тексту осуществлялась не только самими исследователями, к этому анализу привлекались также специалисты контрольных групп, в состав которых входили студенты лингвистического факультета Московского педагогического университета (МПУ). Помимо лингвистических факторов, которые легли в основу оценочной шкалы для рассматриваемых СМП, анализировались также и экстралингвистические факторы, учет которых играет немаловажную роль при практическом выборе системы. В результате исследования были получены следующие результаты, свидетельствующие об эффективности рассматриваемых систем: 1. Группа СМП, поддерживающая русский язык: Англо-русское направление перевода 1. СМП PROMT 98: перевод подавляющего большинства текстов удовлетворительный (3 - в скобках проставляется балл по предложенной ранее оценочной шкале), встречаются тексты, которые могли бы быть отнесены к разряду хороших переводов (4). Постредактирование требуется во всех случаях. Занимает первое место среди систем, осуществляющих перевод с английского языка на русский. В процессе перевода требуется пополнение пользовательского словаря. В некоторых случаях сложно понять выходной текст без обращения к оригиналу, и он не всегда ему адекватен. По сервисным возможностям и количеству специализированных словарей данная СМП является бесспорным лидером. PROMT 98 считается самой дорогой программой среди СМП российских разработчиков. С примерами переводов, выполненных СМП PROMT 98 и другими системами, можно ознакомиться в Приложении. 2. СПРИНТ-5 характеризуется удовлетворительным переводом текстов (3). Выходные тексты требуют обязательного постредактирования. Система занимает второе место среди российских СМП по качеству перевода. Такая позиция в некоторой степени нестабильна в связи с тем, что данная программа находится в процессе отладки и не является коммерческой системой. СМП СПРИНТ-5 требует дальнейшей отладки и изменения некоторых алгоритмов перевода. Сервисные функции системы и ее цена исследованию не подвергались, так как на настоящий момент данная СМП не является конкурентоспособной по указанным показателям. 3. Сократ 2.0: рассматриваемая СМП осуществляет перевод удовлетворительного качества (3), требующий значительного постредактирования. Некоторые отрезки выходного текста невозможно понять без обращения к оригиналу. Требуется пополнение словарей и расширение их номенклатуры, которая уступает рассмотренным выше системам. Сервисные функции системы крайне ограничены. Данная СМП занимает третье место среди остальных программ МП по качеству перевода и сервисным функциям. Соотношение цена/качество является сбалансированным.

Русско-английское направление перевода 1. PROMT 98: система показала хорошее качество перевода (4) с необходимым постредактированием. Количество незнакомых слов было незначительным. Рассматриваемая СМП занимает первое место среди систем МП с русского языка на английский. Сочетание сервисных функций и количества словарей можно считать оптимальным. Соотношение цена/качество является несколько непропорциональным с явным завышением в сторону стоимости системы. 2. SYSTRAN PRO 2.0: система выполняет переводы хорошего качества (4), требующие дальнейшего постредактирования. Требуется некоторое пополнение словарей системы. По качеству перевода и сервисным функциям СМП SYSTRAN PRO 2.0 занимает второе место. Учитывая, что русский язык не является основным языковым направлением, разрабатываемым в системе SYSTRAN, такие результаты тестирования свидетельствуют о высоком уровне всей системы. По сервисным характеристикам СМП SYSTRAN PRO 2.0 уступает СМП PROMT 98, однако количество специализированных словарей достаточно велико. Соотношение цена/качество полностью соответствует предоставляемым программой переводам и по этому показателю СМП SYSTRAN PRO 2.0 опережает СМП PROMT 98, предлагая качественные переводы при более низких капиталовложениях. Основным достоинством системы является то, что все специализированные словари (а их насчитывается 22) поставляются в комплекте с программой и входят в ее базовую стоимость. 3. Сократ 2.0 показала удовлетворительное качество перевода (3), требующего значительного постредактирования. В протестированных текстах были обнаружены грубые ошибки анализа и синтеза, которые свидетельствуют о несовершенстве или ошибках в алгоритмах системы. Появление таких ошибок в различных версиях системы свидетельствует об их закономерности. Система нуждается в некоторой доработке и устранении выявленных ошибок. Сервисные функции практически полностью отсутствуют. Соотношение цена/качество является реальным.

Похожие диссертации на Анализ и оценка эффективности современных систем машинного перевода