Модель генерации текстоориентированного лексического минимума Савина Ольга Юрьевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Савина Ольга Юрьевна. Модель генерации текстоориентированного лексического минимума: диссертация ... кандидата Филологических наук: 10.02.21 / Савина Ольга Юрьевна;[Место защиты: ФГАОУ ВО Тюменский государственный университет], 2017.- 197 с.

Содержание к диссертации

Введение

ГЛАВА 1. Моделирование компонентов автоматизированного рабочего места 15

1.1 Автоматизированное рабочее место как средство оптимизации деятельности лингвиста 15

1.2 Моделирование деятельности лингвиста 20

1.3 Анализ программ автоматизации операций по обработке текстов 24

Выводы по главе 1 31

Глава 2. Специфика текстоориентированного лексического минимума 33

2.1 Свойства и структура лексического минимума 33

2.1.1 Текст как лингводидактическая категория 33

2.1.2 Виды лексических минимумов 36

2.1.3 Определение единицы лексического минимума 41

2.1.4 Систематизация принципов отбора лексических единиц 44

2.2 Источники информации о лексических единицах 52

2.2.1 Типы лингвистических информационных ресурсов 52

2.2.2 Немецкоязычные лингвистические информационные ресурсы 59

2.2.3 Лексикографические параметры описания лексических единиц 66

Выводы по главе 2 72

ГЛАВА 3. Моделирование процесса генерации текстоориентированного лексического минимума 76

3.1 Структурно-функциональная модель процесса генерации лексического минимума 76

3.2 Алгоритм процесса генерации лексического минимума 80

3.3 Функции пользовательского интерфейса прототипа программы 82

3.4 Характеристики прототипа программы 89

3.5 Проверка качества прототипа программы 91

3.6 Бета-тестирование прототипа программы 97

3.7 Потенциальные возможности и ограничения разработанного алгоритма 103

3.8 Оценка эффективности разработанного алгоритма 111

Выводы по главе 3 118

Заключение 120

Список сокращений 123

Список терминов 124

Список литературы 127

Моделирование деятельности лингвиста
Текст как лингводидактическая категория
Немецкоязычные лингвистические информационные ресурсы
Функции пользовательского интерфейса прототипа программы

Моделирование деятельности лингвиста

Современный уровень развития информационной компетенции специалиста подразумевает способность использовать широкий диапазон информационно коммуникационных технологий. Для формирования информационной компетенции лингвиста необходима особым образом организованная компьютерная среда, включающая как аппаратные, так и программные средства для работы с разными типами информации и с текстом во всех формах его существования. В совокупности современный лингвист (исследователь, но и преподаватель) должен владеть множеством компьютерных и интернет приложений, позволяющих эффективно решать стоящие перед ним профессиональные задачи.

В некоторых исследованиях подобная комбинация программ и приложений называется «рабочим сетевым пространством», под которым понимается пространство в сети Интернет, формируемое и используемое специалистом для реализации своих профессиональных и педагогических целей (Виландеберк А.А., Буевич О.В. Описание модели архитектуры рабочего сетевого пространства учителя-словесника / А.А. Виландеберк, О.В. Буевич // Наука, образование и инновации : сборник статей Международной научно-практической конференции (25 июня 2016 г., г. Томск). В 4 ч. Ч. 1. Уфа : ОМЕГА САЙНС, 2016. С. 64-65). Авторы исследуют рабочее сетевое пространство учителя-словесника и приходят к выводу, что оно включает следующие «компоненты профессиональной деятельности: 1) организация учебной деятельности; 2) взаимодействие с обучающимися; 3) взаимодействие с родителями или опекунами обучающихся; 4) взаимодействие с коллегами; 5) взаимодействие с администрацией; 6) повышение квалификации; 7) научно-методическая деятельность».

Именно в области научно-методической деятельности перед специалистом по языку стоят разнообразные задачи: анализ текстов на естественном языке (и звучащей речи); поддержание вопросно-ответного взаимодействия человека и компьютера; создание словарей разных видов, глоссариев, конкордансов; извлечение знаний из источников различной природы (в т.ч. из словарей, лексиконов, корпусов, баз данных и т.д.); извлечение терминологии; реферирование текстов; поиск энциклопедической информации; машинный перевод; анализ авторского стиля и многое другое (Беляева Л.Н. Автоматизированная лексикография: гуманитарные технологии / Л.Н. Беляева : Российский гос. пед. ун-т им. А. И. Герцена. Санкт-Петербург : Изд-во РГПУ им. А. И. Герцена, 2010. С. 78).

В комплексе средств, необходимых для решения подобных задач, проф. Л.Н. Беляева выделяет материально-техническую составляющую – «специальные программные средства для работы с аудио- и видеорядом, звучащей и письменной речью, специализированные лингвистические программные средства» – и информационно-методическую составляющую – «системы поиска и обработки информации, электронные учебники, учебно-методические комплексы, электронные образовательные ресурсы и базы данных» (Беляева Л.Н. Прикладная лингвистика и современная образовательная среда: проблемы и перспективы // Прикладная лингвистика в науке и образовании : сб. тр. VII Междунар. науч. конф. : Санкт-Петербург, 10-12 апр. 2014 г. СПб., 2014. С. 175).

Такая комбинация аппаратных и программных средств, предназначенная для решения специализированных задач, согласно ГОСТу называется «автоматизированным рабочим местом» (далее АРМ) и представляет собой «программно-технический комплекс, предназначенный для автоматизации деятельности определенного вида» (ГОСТ 34.003-90 Информационная технология. Комплексы стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения. М. : Стандартинформ. 2009. С. 4). При этом в ГОСТе отмечается, что у отдельных специальностей существуют свои АРМ. Автоматизированное рабочее место специалиста в области языкознания должно, по мнению Л.Н. Беляевой, представлять собой «специальный комплекс лингвистических, лингвометодических и программных средств, поддерживающих работу студента, методиста или исследователя» (Беляева Л.Н. Проблема извлечения знаний и современные технологии // Язык в парадигмах гуманитарного знания: XXI век. Сборник научных статей. Под общ. ред. д-ра филол. наук В.Е. Чернявской и д-ра филол. наук С.Т. Золяна. СПб. : Изд-во СПбГУЭФ. Изд-во «Лингва». 2009. С. 135). Это значит, оно должно обеспечивать решение задач разного характера – и учебного, и методического, и исследовательского. Автор выделяет в таком комплексе три блока: «программы поддержки работы всей системы в целом (в традиционной терминологии – системы управления базами данных), программы извлечения знаний (хранящихся в АРМ или извлекаемых из системы Интернет) и программы работы со знаниями» (Беляева Л.Н. Автоматизированные рабочие места в образовательной среде вуза: структура и функции // Известия РГПУ им. А.И. Герцена. 2015. № 177. С. 77). В целом создаваемые компоненты автоматизированного рабочего места должны «моделировать лингвистическое поведение человека» и представлять собой «композицию простых блоков-модулей», что позволит создавать их разнообразные комбинации в зависимости от потребности пользователей (Там же). Проф. Н.Н. Леонтьева подчеркивает, что возможна еще более узкая специализация автоматизированного рабочего места в области языкознания – АРМ лингвиста, редактора, переводчика, когнитолога (Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы : учеб. пособие для студ. лингв. фак. вузов. М. : Издательский центр «Академия», 2006. С. 258). Подобное АРМ нуждается в разработке специальных методов автоматизированного решения профессиональных задач, а также в разработке удобных и качественных инструментальных средств.

Текст как лингводидактическая категория

Стандартная структура словарной статьи: лемма; грамматическая информация (род, форма родительного падежа, форма множественного числа, часть речи); произношение; омографы; семантическая информация; стилистическая информация; этимологическая справка; синонимическая группа (с указанием гиперонимов); статистический профиль лексической единицы в виде облака тегов; аутентичные примеры употребления из основного корпуса; аутентичные примеры употребления из корпуса газеты «Die Zeit».

Параллельно с DWDS в настоящее время развивается еще и Швейцарский текстовый корпус (Schweizer Text Korpus) с 20 миллионами словоупотреблений (немецкоязычные тексты швейцарских авторов 20 века) (URL: http://www.dwds.ch). К числу динамических лингвистических ресурсов относится также база данных Поисковая лексическая система «Wortschatz» (Deutscher Wortschatz Portal) (URL: http://wortschatz.uni-leipzig.de) университета Лейпцига, Германия, – комплексный информационный ресурс, создаваемый с 1995 г. в университете Лейпцига. Он предлагает поиск словоформ, информацию о части речи, области употребления, частотности употребления в современном немецком языке, семантических связях, синонимах, антонимах, композитах и коллокациях. Позволяет искать левые и правые коллокации. Объем словаря – 100 тысяч лемм.

Большим достоинством данной базы данных является массив примеров употребления каждого слова в современной немецкоязычной литературе и прессе и так называемые «слова дня», т.е. самые употребительные значимые слова в день запроса информации (Duffner, R., Nf, A. Digitale Textdatenbanken im Vergleich. 2006. S. 7-23. URL: http://www.linguistik-online.de). Стандартная структура статьи лексической системы Wortschatz: лемма; абсолютное количество словоупотреблений, зафиксированное системой; класс частотности; семантическая информация; область тезауруса; морфологическая структура; грамматическая информация (часть речи, род, все формы грамматической парадигмы (у существительных), переходность, рефлексивность); парадигматические отношения (синонимы, сравнения, референции); ссылки на связанные слова (синонимы, словосочетания и т.д.); гипонимы; принадлежность к ономасиологической группе (по Dornseiff, F. Der deutsche Wortschatz nach Sachgruppen. 2004. 937 S.); аутентичные примеры употребления из корпуса газетных текстов; типичная совместная встречаемость; левое окружение (по убыванию частотности); правое окружение (по убыванию частотности); граф, отражающий контекстуальные связи.

К специфическим грамматическим ресурсам можно отнести

Грамматическую сетевую базу данных Canoo.net (Deutsche Wrterbcher und Grammatik Canoo.net) (URL: http://www.canoo.net) университета Базеля, Швейцария. Она содержит три миллиона словоформ и всю необходимую грамматическую и семантическую информацию, а также нормы современной немецкой орфографии.

Стандартная структура статьи базы данных Canoo.net: лемма; грамматическая информация (часть речи, род, вспомогательный глагол); семантика (синонимы, гиперонимы, гипонимы, примеры употребления); правописание; грамматическая парадигма (с указанием грамматических особенностей); словообразование: морфемный анализ (с указанием словообразовательной модели), производные слова.

В силу технических сложностей в области звуковых лингвистических ресурсов существует пока еще не очень большой выбор источников лингвистической информации. Один из немногих – база данных Архив устного немецкого языка (Archiv fr gesprochenes Deutsch) (URL: http://agd.ids-mannheim.de) – крупнейший в мире речевой корпус на немецком языке. Часть этого архива доступна в сети через Банк данных устного немецкого языка (Datenbank gesprochenes Deutsch) (URL: http://dsav-wiss.ids-mannheim.de). Общий объем архива составляет 540 видеозаписей и около 15 тысяч аудиозаписей общим объемом 5 тысяч часов (интервью, монологов, рассказов, бесед, дискуссий и т.д.), а также 6700 транскрипций к ним (Fiehler, R., Wagener, P. Die Datenbank Gesprochenes Deutsch (DGD). 2005 S. 136-147. URL: http://www.gespraechsforschung-ozs.de/heft2005/px-fiehler.pdf/). Архив состоит из нескольких тематических подкорпусов, например, «Язык города Маннхайма» 1985 г. (600 часов), «Немецкий язык эмигрантов в Израиле» 1989 г., «Берлин после объединения Германии» 1992 г. и др.

Поиск в транскриптах позволяет найти не просто словоупотребления, но и комбинации слов, а самое главное – тут же послушать их в формате .wma или .mp3.

Многоязычный онлайн-словарь PONS свободно доступен пользователям с 2001 года. На старте проекта словник составлял по 120 тысяч лемм на пяти языках в паре с немецким (английский, французский, итальянский, польский и испанский). С тех пор словарь постоянно расширялся и на сегодняшний день предлагает пользователям более 10 миллионов слов и словосочетаний на множестве языков (с октября 2008 года добавился еще и русский язык). Большинство лемм можно услышать в аудиозаписи. Многие понятия проиллюстрированы визуально.

Немецкоязычные лингвистические информационные ресурсы

При этом качество – это совокупность характеристик объекта, имеющая отношение к его способности удовлетворять установленные и предполагаемые требования потребителя (Синицын С.В., Налютин Н.Ю. Указ. соч. С. 144 ; Зубкова Т.М. Технология разработки программного обеспечения : Учебное пособие. Оренбург, 2004. С. 12).

А.И. Башмаков отмечает необходимость создания дружественного интерфейса, понимая под дружественностью «совокупность характеристик интерфейса, обеспечивающих его простое освоение и эффективное применение вне зависимости от степени подготовленности пользователей» (Башмаков А.И., Башмаков И.А. Разработка компьютерных учебников и обучающих систем. М. : Информационно-издательский дом «Филинъ». 2003. С. 271).

Учет указанных требований к качеству разрабатываемых программ позволяет создавать продукты, удовлетворяющие требованиям пользователей.

В целях контроля качества прототипа программы, построенного на основе предлагаемой модели, была проведена его верификация. Верификация – это процесс определения, выполняют ли программные средства и их компоненты требования, наложенные на них в последовательных этапах жизненного цикла разрабатываемой программы (Синицын С.В., Налютин Н.Ю. Верификация программного обеспечения. Курс лекций. М. : МИФИ. 2006. С. 20 ; Кулямин В.В. Методы верификации программного обеспечения. Москва : Институт системного программирования РАН, 2008. С. 7).

Цель верификации – проверить внутреннюю непротиворечивость и полноту реализации требований к программному обеспечению, т.е. соответствие испытываемых программ исходным требованиям, подтвердить то, что программа реализована без непредусмотренных функций. При экстремальном программировании (тесное взаимодействие заказчика и программиста), имевшем место в рамках данного исследования, процесс верификации активен в течение практически всего жизненного цикла системы и работает параллельно с процессом разработки. Процесс верификации включает: инспекцию проектной документации, разработку тест-требований и планов тестирования в виде тестовых сценариев, анализ результатов тестирования, формирование и анализ отчетов о проблемах.

В процессе верификации были выявлены и исправлены дефекты и ошибки, допущенные во время разработки программы. Важно отметить, что процесс верификации не гарантирует полного отсутствия в системе дефектов, которые потенциально могут привести к сбоям или отказам. При проверке качества программного продукта речь может идти только об определенном уровне отсутствия этих дефектов (Синицын С.В., Налютин Н.Ю. Указ. соч. С. 139).

Процесс тестирования является составной частью процесса верификации. Верификация программного обеспечения – более общее понятие, чем тестирование (Там же. С. 20). «Тестирование – это управляемое выполнение программы с целью обнаружения несоответствий ее поведения и требований.» (Там же. С. 19).

Я. Нильсен различает полное тестирование, когда тестируются завершенные продукты, и промежуточное тестирование, проводимое в ходе проектирования как часть процесса разработки программного продукта (Сергеев С.Ф. Методы тестирования и оптимизации интерфейсов информационных систем. Учебное пособие. Санкт-Петербург. ИТМО. 2013. С. 24). Таким образом, основные области системы были протестированы неоднократно – во время разработки (т.н. интеграционное и системное тестирование) и во время приёмо-сдаточных испытаний. В частности, в рамках интеграционного и системного тестирования, а также во время приёмо-сдаточных испытаний проводились: функциональное тестирование, тестирование производительности и конфигурации, тестирование надёжности и восстановления после сбоев.

Тестирование удобства использования пользовательского интерфейса проводилось в рамках интеграционного и системного тестирования (после формулирования требований к системе и разработки прототипа интерфейса и после разработки низкоуровневых требований и детализированного прототипа пользовательского интерфейса), также на заключительном этапе – в рамках т.н. бета-тестирования, или юзабилити-тестирования.

Тестированию не подвергались отдельные формулировки в документации пользователя и описании продукта, так как они не оказывают значительного влияния на реализацию основных функций программы. Такое исключение допустимо согласно ГОСТу (ГОСТ Р ИСО / МЭК 12119-2000 Информационная технология. Пакеты программ. Требования к качеству и тестирование. М. : ГОСТСТАНДАРТ РОССИИ. 2001. С. 9).

Последовательность и содержание отдельных этапов верификации программы представлены на схеме верификации (Рисунок 7, с. 95).

Интеграционное тестирование (иначе – тестирование архитектуры системы) нацелено на проверку корректности взаимодействия между отдельными компонентами системы (Синицын С.В., Налютин Н.Ю. Верификация программного обеспечения. Курс лекций. М. : МИФИ. 2006. С. 113). Интеграционное тестирование было проведено в виде нисходящего тестирования с постоянной интеграцией. Нисходящее тестирование предполагает, что процесс интеграционного тестирования движется следом за разработкой (Там же. С. 115). Сначала тестированию подвергаются самые верхние уровни системы (в нашем исследовании – модуль импорта текста и модуль формирования списка лемм). Затем постепенно с более высокоуровневыми модулями интегрируются более низкоуровневые (в нашем случае – модуль сбора информации из баз данных и модуль представления полученной информации и экспорта). Тестирование с постоянной интеграцией подразумевает, что каждый новый модуль системы сразу же интегрируется со всей остальной системой. Поэтому тестирование каждого модуля проверяет как его внутреннюю функциональность, так и его взаимодействие с остальными модулями системы (Там же. С. 117).

Функции пользовательского интерфейса прототипа программы

В настоящей диссертационной работе разработана модель генерации текстоориентированного лексического минимума, реализованная в виде прототипа инструментальной программы, предназначенной для использования в качестве компонента автоматизированного рабочего места лингвиста.

Понятие автоматизированного рабочего места специалиста определено госстандартом, в котором отмечается необходимость формирования АРМ для отдельных специальностей. Разработке компонентов АРМ служит метод моделирования, который позволяет создать модель проблемной области и разработать на ее основе алгоритм, способный автоматизировать этапы деятельности специалиста. Алгоритм, в свою очередь, может быть реализован в виде программы.

Анализ существующих программ по автоматизации операций по обработке текстов показал, что арсенал компьютерных инструментов для лингвистов постоянно пополняется. Однако многие насущные задачи по-прежнему могут быть решены только в режиме ручного неэффективного труда. Таким образом, подтвердилась потребность в разработке специализированной инструментальной программы.

При описании проблемной области был проведен анализ основных понятий учебной лексикографии и корпусной лингвистики. После проведенного анализа стало очевидно, что степень изученности понятия текст, в т.ч. с лингводидактической точки зрения довольно высока. Кроме того, не вызывают дискуссий понятия лексического минимума, его единицы и принципов его формирования. Вместе с тем недостаточно учитываются потребности отдельных целевых групп, например, в виде текстоориентированного лексического минимума, который ориентирован, с одной стороны, на лексическое наполнение конкретного текста (т.е. обладает вариативностью), а с другой стороны, на потребности конкретной группы обучающихся (т.е. имеет антропоцентрический характер).

Изучение лингвистических информационных ресурсов подтвердило возможность использовать богатые источники аутентичной лингвистической информации. На базе проанализированных немецкоязычных информационных ресурсов была разработана типизированная структура лексического минимума.

На основе проведенной подготовительной работы была сформулирована гипотеза о необходимости разработки специального инструментального средства, предназначенного для автоматизированной генерации текстоориентированного лексического минимума в целях выполнения рутинных задач лингвиста и повышения эффективности его труда. Подобный инструмент должен войти в состав автоматизированного рабочего места лингвиста.

На основе полученных теоретических данных и данных анализа рутинных операций была разработана структурно-функциональная модель генерации текстоориентированного лексического минимума с использованием пяти сетевых лингвистических ресурсов (для немецкого языка): онлайн-словаря Duden; толкового интернет-словаря современного немецкого языка DWDS; поисковой лексической системы Wortschatz; грамматической сетевой базы данных Canoo.net и онлайн-словаря PONS. Данная модель позволяет интегрировать разноуровневые лексикографические параметры лексических единиц.

На основе модели был разработан алгоритм, позволяющий автоматизировать поисковые запросы и упорядочение искомых лексикографических параметров, обеспечивая, таким образом, генерацию текстоориентированного лексического минимума.

Разработанный алгоритм положен в основу прототипа инструментальной программы. Качество разработанного алгоритма проверялось в ходе комплексной верификации программы, включающей и тестирование на пользователях. Проведенная верификация показала работоспособность разработанной программы и успешную реализацию основных запрограммированных функций. Программа успешно генерирует текстоориентированный лексический минимум. Кроме того, она может использоваться для сбора лексикографических параметров, необходимых для проведения лингвистических исследований сравнительного характера.

Эффективность предлагаемой модели проверялась по трудоемкости поисковых запросов (количество действий пользователя), выполняемых при поиске вручную и при автоматизированном поиске. Полученные результаты подтвердили, что трудоемкость поисковых запросов снижается при использовании разработанного инструмента. Определяющим фактором повышения эффективности является количество искомых лексикографических параметров.

Итогом данного диссертационного исследования можно считать, во-первых, разработанную модель генерации текстоориентированного лексического минимума, а во-вторых, создание полноценного функционального прототипа инструментальной программы.

Теоретические результаты диссертационного исследования вносят определенный вклад в дискуссию о лексическом минимуме (в ч. определение текстоориентированного лексического минимума). Отдельные положения работы могут применяться в области лингводидактики и компьютерной лингводидактики, компьютерной лексикографии, в соответствующих курсах в программе бакалавриата и магистратуры по прикладной лингвистике. Предлагаемую модель можно использовать для интеграции лингвистической информации из многих других сетевых лингвистических ресурсов. Кроме того, на базе разработанной модели возможно создание подобных инструментов для других языков, способных пополнить арсенал автоматизированного рабочего места лингвиста.