Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Корпусные методы в лексикографии: опыт создания модели Словарного корпуса Саженин, Игорь Игоревич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Саженин, Игорь Игоревич. Корпусные методы в лексикографии: опыт создания модели Словарного корпуса : диссертация ... кандидата филологических наук : 10.02.01 / Саженин Игорь Игоревич; [Место защиты: Новосиб. гос. пед. ун-т].- Новосибирск, 2013.- 193 с.: ил. РГБ ОД, 61 14-10/347

Содержание к диссертации

Введение

Глава 1 Электронные словари: проблема определения понятия и характеристика существующих продуктов 12

1.1 Электронный словарь, автоматический словарь, автоматизированный словарь: соотношения понятий 12

1.2. Электронный учебник vs традиционный учебник: механизмы определения 23

1.3. Критерии описания электронных лексикографических ресурсов 30

1.4 Обзор электронных лексикографических ресурсов 59

Выводы 78

Глава 2 Языковые корпусы как инструмент исследовательского процесса 84

2.1. Понятие корпуса и корпусной лингвистики 84

2.2. Обзор корпусов. Характеристика русскоязычных корпусов 89

2.3. Возможности использования корпусов в исследовательском и учебном процессах 92

Выводы 97

Глава 3. Словарный корпус: технология создания и возможности использования 99

3.1. Технология создания Словарного корпуса 99

3.2. Определение объема и содержания массива данных 105

3.3. Определение параметров поисковой системы 117

3.4. Содержательно-целевой фактор определения параметров поисковой системы 121

3.4. Дидактический фактор определения параметров поисковой системы 147

3.5. От технологии к модели 154

Выводы 169

Заключение 172

Список использованной литературы 179

Введение к работе

Актуальность работы обусловлена необходимостью исследования тенденций развития современной практической компьютерной лексикографии не только в области технических решений, но и в области теории создания электронных лексикографических ресурсов на принципах, учитывающих как особенности содержательного словарного материала, так и достижения современной корпусной русистики. Еще в начале восьмидесятых годов прошлого века в нашей стране велись работы в области специализированной компьютерной лексикографии. Однако, по словам В. М. Андрющенко, информатизация русистики как направление оказалось нежизнеспособным (В. М. Андрющенко 1986). Возможно, по этой причине до сих пор для компьютерной лексикографии не сформирован собственный предмет изучения, а лексикографическая теория отстает от компьютерной лексикографической практики.

Технический инструментарий, используемый при разработке электронных лексикографических ресурсов, изначально не ориентирован на обеспечение работы со словарным содержанием, а наиболее перспективные методы, разработанные в области, например, корпусной лингвистики, не столь активно применяются в практике создания электронных лексикографических ресурсов (В. П. Селегей 2005,
Я. Перванов 2010). Кроме того, существует множество электронных лексикографических ресурсов, отличающихся друг от друга содержанием, структурой, назначением, техническим инструментарием, которые часто именуются электронными словарями. При этом один такой продукт настолько отличается от другого по ряду критериев, что возникает сомнение в правомерности отнесения таких ресурсов к одной категории.

Основной проблемой при создании электронных лексикографических ресурсов является то, что машина не способна в полной мере работать с текстом на естественном языке для репрезентации пользователю информации, соответствующей возможному спектру его запросов (В. П. Селегей 2005, Я. Перванов 2010). Данная проблема была решена специалистами, разрабатывающими корпусы текстов посредством использования такого инструмента, как разметка.

Помимо анализа речевых произведений для исследователя является важным также такой вид работы, как дефиниционный анализ. Нередко исследователю приходится обрабатывать большое количество словарной информации в поисках ему необходимой. Каждый словарь в силу своей специфики содержит различные типы информации. Несмотря на обилие электронных лексикографических источников в Сети, не существует ресурса, отвечающего следующим требованиям: объемность содержательного материала, «филологически компетентная» поисковая система, позволяющая извлекать разные типы лингвистической информации из всего объема содержательного материала словаря.

Объектом исследования является лингвистический словарь как инструмент филологических исследований.

Предметом исследования является комплекс информации, содержащейся в русских лексикографических источниках, на основании которой возможно разработать интерактивный ресурс, снабженный специализированной поисковой системой, способной предоставлять пользователю информацию максимально соответствующую возможным его запросам.

Цель работы – разработка принципов и технологии создания корпуса, массивом данных которого являются лексикографические ресурсы, а также разработка модели такого корпуса. Названная цель связана с выполнением следующих задач:

  1. Проанализировать определения понятия электронный словарь, автоматизированный словарь, автоматический словарь и выявить признаки, приписываемые в научной литературе названным объектам.

  2. Сопоставить существующие в электронном виде лексикографические источники с целью выявления присущих им признаков, особенностей их устройства и подходов к их созданию.

  3. Выработать критерии описания существующих в электронной форме лексикографических источников

  4. Выявить проблемы, существующие в области создания и использования электронных лексикографических ресурсов.

  5. На основе анализа русскоязычных лексикографических источников, используемых в филологических исследованиях:

а) определить объем и содержание массива данных, то есть выявить, какие именно словари и в каком количестве должны быть использованы, чтобы ресурс мог отвечать условиям репрезентативности и «компетентности»;

б) разработать параметры ориентированной на потребности исследовательского процесса специализированной поисковой системы;

в) выявить особенности информации, содержащейся в словаре, которые позволят описать механизм анализа словарных статей для разработки параметров поисковой системы;

г) сформировать структуру базы данных заявленного ресурса.

Научная новизна определяется тем, что в процессе исследования нами были выделены критерии, позволяющие интегрально описать существующие на данный момент электронные лексикографические ресурсы, предпринята попытка систематизации подходов к определению понятий электронный словарь, автоматический словарь, автоматизированный словарь. Впервые были применены корпусные методы к формированию лексикографических баз данных с учетом особенностей содержания русскоязычных словарей разных типов, информационных потребностей исследователя-лингвиста и круга проблем современной отечественной лексикографии.

Теоретическая значимость заключается в том, что полученные результаты вносят вклад в разработку ряда теоретических проблем современной лингвистики и компьютерной лексикографии. Во-первых, разработаны теоретические принципы построения корпуса, массивом данных которого являются словари, во-вторых, разработана авторская типология электронных лексикографических ресурсов, которая расширяет понятийный аппарат компьютерной лексикографии и создает базу для дальнейшей разработки проблемных вопросов терминологии в данной области.

Практическая значимость заключается в том, что разработанная технология позволяет начать работу по созданию предлагаемого нами ресурса, что выражается практически в создании модели такого ресурса. Использование в дальнейшем выработанных принципов и алгоритма действий будет способствовать созданию полноценного информационного, «филологически компетентного» инструмента лингвистических исследований.

Материалом исследования послужили наиболее распространенные электронные лексикографические ресурсы: проект «Русские словари»; ABBYY Lingvo; DICT; Cambridge Online Dictionary; Shorter Oxford English Dictionary; Random House; Webster’s Dictiomary; Dizionario della lingua italiana Zingarelli, Образовательный портал Грамота. Ру; Большой словарь русского языка - коллекция электронных словарей, выпущенная компанией «Target-Multimedia» и др., а также языковые корпусы (ХАНКО; Национальный корпус русского языка; Брауновский корпус и др.) и традиционные (печатные) лингвистические словари (Ахманова О. С. Словарь омонимов русского языка. – М., 1976; Львов М. Р. Словарь антонимов русского языка. – М., 1985; Словарь синонимов русского языка. – Л., 1970 – 1971, Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка. – М., 1997; Словарь русского языка: в 4-х Т. / Гл. ред. А.П. Евгеньева. – М., 1981 – 1984; Словарь русских народных говоров / гл. ред. Ф. П. Филин; ред. Ф. П. Сороколетов; Ин-т русского языка, Словарный сектор АН СССР. – Ленинград, 1965. – Вып. 1; Фасмер М. Этимологический словарь русского языка. М., 1986-1987; Крысин Л. П. Толковый словарь иноязычных слов. – М., 2000 и др.).

Основными методами исследования являются метод анализа словарных дефиниций, метод лингвистического описания, контекстуальный анализ, аннотирование, метод компонентного анализа, метод моделирования.

Апробация результатов исследования

Материалы и результаты исследования обсуждались на заседаниях кафедры современного русского языка ФГБОУ ВПО «Новосибирский государственный педагогический университет», на Всероссийской конференции молодых учёных «Проблемы интерпретации в лингвистике и литературоведении». Секция «Языковая система. Словарь. Языковая компетенция», Новосибирск, 2011 год; Международной конференции «Информатизация образования», секция: «Электронные образовательные ресурсы в системном процессе информатизации», Елец, 2011 г.; Международной научно-практической конференции «Педагогика, лингвистика и информационные технологии», Елец, 2012 г., Международной научно-практической конференции «XIV филологические чтения: Активные процессы в языке: языковая личность – словарь – текст», Новосибирск, 2013 г.

Проблематика диссертации отражена в статьях, в том числе опубликованных в рецензируемых журналах, рекомендованных ВАК. Всего по теме диссертации опубликовано 6 работ.

На защиту выносятся следующие положения:

  1. Определения понятий электронный словарь, автоматизированный словарь, автоматический словарь не характеризуют определяемые объекты в полном объеме, поскольку спектр продуктов компьютерной лексикографии настолько широк и разнообразен, что существующие попытки ограничить область определения данных понятий рамками одной дефиниции не представляется нам возможным. Необходим системный подход в описании электронных лексикографических ресурсов, поскольку большинство из них позиционируются как электронные словари, но в действительности по ряду признаков являются копиями или версиями традиционных словарей, а не собственно электронными словарями.

  2. Инструментарий, позволяющий вести работу со словарным содержанием, не ориентирован на работу с собственно словарной информацией, что, с одной стороны, резко ограничивает спектр возможного взаимодействия пользователя со словарным содержанием, а с другой стороны, лишает компьютерную лексикографию собственного предмета изучения. Существующие решения в области компьютерной лексикографии, несмотря на свое разнообразие, не меняют принципов работы пользователя со словарным содержанием, и единицей поискового анализа по-прежнему остается заголовок словарной статьи, или слово как элемент текста словарной статьи.

  3. Применение корпусных методов при формировании электронных словарных баз данных, разметка словарных статей с учетом возможных запросов пользователя, а также с учетом типов информации, содержащейся в словаре, позволяет расширить возможности работы пользователя со словарным содержанием.

  4. Особенность включаемого в массив данных содержания накладывает определенные отпечатки на процесс аннотирования: разметке будут подвергаться не языковые единицы, как в случае с текстами языковых корпусов, а иные содержательные элементы (словарные статьи и заголовки словарных статей). Признаками, которые ложатся в основу параметров поисковой системы, обладают, как описываемые в словарных статьях лексические единицы и их значения, так и сами словарные статьи. Этот факт определят принципы аннотирования элементов массива данных и саму структуру базы данных такого корпуса.

  5. Каждому лексикографическому источнику может быть присущ собственный набор параметров поисковой системы, отражающий его уникальные особенности.

  6. Процесс анализа словарных статей как один из этапов создания словарного корпуса базируется на следующих положениях: словарь является инструментом исследования; словарь является объектом изучения; словарь является инструментом обучения; словарная информация как особый тип информации имеет специфические характеристики, обозначенные нами, как способ представления (словарная информация может быть эксплицирована в тексте словарной статьи посредством некоторого набора печатных символов; словарная информация может быть представлена имплицитно в тексте словарной статьи, но может быть выявлена посредством анализа; элемент словарной статьи может обладать характеристикой, не эксплицированной в тексте и не выявляемой в процессе анализа словарной статьи) и объект описания (словарь представляет информацию: о слове (формальные признаки), о значении слова (семантические, стилистические характеристики и др.), о словарной статье и ее элементах).

Структура работы

Электронный учебник vs традиционный учебник: механизмы определения

Причина, по которой мы приняли решение рассмотреть вопрос о соотношении понятий электронный учебник и традиционный учебник в параллели с понятиями электронный словарь и традиционный словарь, заключается в следующем: оба продукта (словарь и учебник) в своем инвариантном значении имеют ряд сходных характеристик. И тот и другой продукт являются хранилищем некоторой информации, которая имеет определенного адресата, цель, также предполагается некоторое взаимодействие адресата с содержащейся в данных продуктах информацией. Информация при этом в обязательном порядке структурирована таким образом, чтобы ресурс отвечал своему предназначению, и работа с ним была бы максимально эффективной. С переходом на машинные носители данные продукты обрели свойства, которых ранее не имели. И в первом и во втором случае встал вопрос о том, какими признаками должен обладать электронный ресурс, дабы качественно отличаться от традиционного, печатного, а также вопрос терминологического характера: что именовать собственно электронным учебником (словарем), что именовать электронной версией учебника (словаря) или еще каким-либо образом. В отношении средств учебного назначения на текущий момент в современной педагогической науке большинство вопросов имеют варианты решения. Рассмотрим последовательно комплекс мнений, бытующих в педагогической среде относительно понятия электронный учебник.

Существует достаточно большое количество определений данного понятия. Приведем некоторые из них. П. И. Сердюков характеризует электронный учебник как «определенным образом организованную систему учебных материалов, предназначенных для достижения комплекса целей, которая используется, как правило, в процессе изучения курса по дисциплине под управлением преподавателя» [Сердюков 1996: 112]. Заметим, что данное определение никоим образом не отражает признаков, присущих такому продукту, как непосредственно электронный учебник. Характеристика, предложенная Сердюковым, отражает лишь обще-структурные особенности и целеназначение данного продукта. Применить такое определение вполне правомочно и к традиционному учебнику. Иными словами, автор характеризует продукт с традиционных позиций, но, как было отмечено нами ранее, электронный продукт имеет ряд признаков, качественно отличающих его от традиционного. Следовательно, имеет смысл отразить наличие и сущность таких признаков в определении. Попытку обозначить качественно новые признаки, отличающие электронный учебник, мы находим в определениях А. А. Андреева: «Электронный учебник - компьютерная обучающая система, которая включает дидактические, методические и информационно-справочные материалы по учебной дисциплине, а также программное обеспечение, которое позволяет комплексно использовать их для самостоятельного получения знаний и контроля результатов учебных достижений» [Андреев 2006: 58]; и О. С. Сысоевой: «Электронный учебник - это учебный программно-методический комплекс, позволяющий самостоятельно выучить учебный курс или его разделы, и который, по своему учебному назначению, объединяет функции учебника, справочника, задачника и лабораторного практикума» [Сысоева 2005: 79]. Оба представленных определения имеют одну общую черту: с точки зрения авторов, электронный учебник способен сопровождать все этапы учебного процесса для самостоятельного обучения, в отличие от традиционного учебника, в котором отсутствуют функции контроля и независимой от педагога выработки умений. Возможным это стало только благодаря использованию определенных технических инструментов. С позиции наличия таких инструментов, их разнообразия и функциональности электронный учебник предлагает описывать А. В. Осин в статье «Электронные образовательные ресурсы нового поколения: открытые образовательные модульные мультимедиа системы». В частности, автор предлагает характеризовать электронный образовательный ресурс с двух позиций: «ЭОР (электронный образовательный ресурс), как и любой учебный материал, должен оцениваться совокупностью качеств. При этом важно разделить критерии оценки на традиционные и инновационные» [Осин 2007]. К традиционным автор относит: соответствие программе обучения (школьной, вузовской и др.), научная обоснованность представляемого материала (соответствие современным знаниям по предмету), соответствие единой методике («от простого к сложному», соблюдение последовательности представления материалов и т. д.), отсутствие фактографических ошибок, аморальных, неэтичных компонентов и т. п. [Осин 2007]. Но в данном разделе нас, прежде всего, интересуют критерии, которые автор именует инновационными. К таким критериям, по мнению автора, относятся: обеспечение всех компонентов образовательного процесса, интерактивность, которая обеспечивает резкое расширение сектора самостоятельной учебной работы за счет использования активно-деятельностных форм обучения, возможность удаленного (дистанционного), полноценного обучения [Осин 2007]. При этом основным техническим инструментом, характеризующим электронный образовательный ресурс, автор считает интерактив, и предлагает оценивать качество ресурса по степени его интерактивности, выделяя типы форм взаимодействия пользователя с контентом. Интересной, на наш взгляд, является попытка автора представить структуру электронного ресурса как двойственную: «с технической точки зрения ЭОР - это совокупность программ и данных, с точки зрения потребителя — это контент, т.е. совокупность содержательных элементов, представляющих объекты, процессы, абстракции, которые являются предметом изучения» [Осин 2007]. При этом под контентом автор подразумевает такой контент, в котором возможны операции с его элементами. Разнообразие возможных манипуляций характеризуется формами взаимодействия. Автор выделяет четыре подобных формы:

1. Условно-пассивные формы: чтение текста, в том числе с управлением его движения в окне представления («листание» страниц или скроллинг), просмотр деловой графики, прослушивание звука, речи, просмотр изображений.

2. Активные формы: навигация по элементам контента (операции в гипертексте, переходы по визуальным объектам), копирование элементов контента в буфер (чаще всего - для создания собственных оригинальных композиций), множественный выбор из элементов контента (символьных строк или изображений).

3. Деятельностные формы: удаление/ведение объекта в активное поле контента, перемещение объектов для установления их соотношений, иерархий, составление определенных композиций объектов, объединение объектов связями с целью организации определенной системы.

4. Исследовательские формы. Исследования ориентируются не на изучение предложенных событий, а на производство собственных событий. Пользователю не предлагается заданное множество действий, его манипуляции с представленными или сгенерированными в процессе взаимодействия с ЭОР объектами и процессами могут быть произвольными» [Осин 2007].

Прежде чем перейти к анализу представленной информации, мы бы хотели остановиться еще на одном моменте. В статье Л. Л. Босовой «Электронный учебник: вчера, сегодня, завтра» мы находим важное замечание автора о том, что печатный учебник, репрезентированный в электронной форме, не может рассматриваться в качестве электронного учебника: содержание электронного учебника не может быть сведено к печатному аналогу без потери дидактических свойств [Босова 2012:]. Иными словами, электронный документ, например, в текстовом или графическом формате (doc, rtf, pdi) - не является в строгом понимании электронным учебником. А являет собой версию печатного издания. Эта мысль по сходным причинам напрямую перекликается с мыслью Я. Перванова о необоснованности именования ряда электронных лексикографических ресурсов электронными словарями. Итак, на основе представленной информации сделаем некоторые обобщения, а затем спроецируем полученные сведения на предмет нашего анализа, то есть на электронные лексикографические ресурсы. В содержательно-методическом отношении электронное учебное издание имеет те же признаки, что и традиционное печатное: заданным образом структурированной материал, отвечающий требованиям научной обоснованности и своему целевому назначению, лишенный фактографических ошибок. В техническом же отношении электронное учебное издание отличает наличие такого инструмента, как интерактив, функция которого сводится к оптимизации работы пользователя с материалом для более эффективного достижения целей своего предназначения. Чем разнообразнее и функциональнее данный инструмент, чем большим количеством форм взаимодействия пользователя с содержательным материалом обладает такой ресурс, тем выше его дидактическая ценность. Создание такого ресурса по новым принципам, которые позволяют добиться необходимых качеств ресурса, является основополагающим критерием для отнесения такого ресурса к категории электронного учебника, поскольку принцип воспроизводства, содержания, принцип переноса в электронную форму содержания печатного ресурса не позволяет добиться необходимых результатов. Требуется иной подход. О принципе создания электронного словаря в противовес принципу воспроизводства словарного содержания в электронной форме мы говорили в предыдущем разделе, основываясь, на тезисах Перванова, высказанных им в статье «Языковой резонанс и компьютерная лексикография»

Обзор электронных лексикографических ресурсов

Итак, данный раздел мы решили посвятить исследованию обзорно-аналитического характера, целью которого является выявление подходов к созданию электронных лексикографических ресурсов, а также характеристика особенностей их устройства, которая, возможно, поможет нам поставить точку в вопросе определения понятия электронный словарь. Кроме того, мы попытаемся выявить сходства и различия, существующие между традиционными «бумажными» словарями и их цифровыми воплощениями или же аналогами, а так же обозначить признаки, присущие словарям в электронном формате, признаки, отличающие один продукт от другого. Помимо этого, целью такого обзора является определение тех решений, которые, на данный момент, позволило реализовать развитие информационных технологий в области компьютерной лексикографии. Далее будут представлены результаты проведенного нами обзора существующих в электронном (не «бумажном») формате лексикографических источников.

Поскольку областью наших научных интересов является, прежде всего, отечественная лексикография, то в список анализируемых словарей мы включали, одноязычные словари русского языка. Однако по ряду причин мы включили в обзор и несколько одноязычных словарей английского и итальянского языка. Сделано это было из следующих соображений: во-первых, нам было необходимо сравнить достижения в области отечественной и западной компьютерной лексикографии; во-вторых, мы предположили, что на определенном этапе западные компьютерные технологии по ряду обстоятельств ушли вперед, по сравнению с отечественными, а значит, и в области компьютерной лексикографии могли быть реализованы какие-либо новые решения; выявление наличия или отсутствия таких решений также вошло в круг наших задач.

Результаты обзора будут представлены, как и в предыдущем разделе, в виде таблиц, сопровождаемых краткой аннотацией. Каждый анализируемый лексикографический источник будет характеризоваться нами по разработанному в предыдущем разделе механизму: мы выработали критерии, позволяющие описать каждый ресурс с разных сторон. Вот эти критерии:

1. Морфологический — описывает ресурс с точки зрения его формы существования и назначения.

2. Содержательный - описывает ресурс с точки зрения особенностей включенного в него содержания.

3. Технический - описывает ресурс с точки зрения технического инструментария, которым он располагает.

По каждому критерию мы выявили ряд признаков, присущих тому или иному словарю.

Признаки с точки зрения формы существования: сетевой, Несетевой; словарь, оболочка.

Признаки с точки зрения содержания: интегрирующий, проприетарный.

Признаки с точки зрения технического инструментария: пословный поиск, поиск с учетом морфологии, полнотекстовый поиск, алфавитный поиск, морфологический анализ, фразовый поиск, прослушивание произношения, сканирование выделенного, возможность самостоятельного пополнения словарной базы.

В содержательном плане объектами нашего отбора стали, во-первых, одноязычные, лингвистические словари разных типов, существующие в «бумажном» виде, используемые в качестве инструмента в филологической науке. По этой причине в обзор не включены словари, не попадающие под означенное требование.

Механизм поиска объектов анализа был таков: в строку поисковой системы Яндекс и Google вводился запросы «электронный словарь», а так же «словарь онлайн», затем просматривались соответствующие страницы по результату запроса вплоть до 10 страницы поисковой системы, то есть анализировались ресурсы, пользующиеся наибольшим спросом и популярностью, которая, по нашему предположению, должна быть обусловлена техническими преимуществами, удобством навигации и полнотой содержательной базы конкретного ресурса. В случаях поиска словарей не русского языка (мы искали английские и итальянские лексикографические источники) мы вводили соответствующий запрос на соответствующем языке.

Стоит заметить, что в данные таблицы поместили информацию не о всех ресурсах, упоминания о которых в поисковых системах попались нам в процессе изысканий. Во-первых, не все продукты удалось проанализировать предметно, то есть поработать с ними, так как их не удалось по ряду причин приобрести. Во-вторых, мы приводим информацию о наиболее часто используемых ресурсах, так как многие из найденных нами позднее не имели качественных отличий от найденных ранее, а, следовательно, смысл в размещении информации о них в результирующих таблицах, с нашей точки зрения, отсутствовал, так как никакой новой информации, имеющей отношение к нашим целям и задачам, они не предоставляли.

Итак, подведем некоторые итоги. В соответствии с морфологическим критерием мы можем отметить следующую особенность: количество сетевых лексикографических ресурсов гораздо больше, чем не сетевых. По всей видимости, в основе такого положения дел лежат две причины: доступность сетевого ресурса выше, следовательно, выше аудитория такого продукта: вторая причина - относительно более простой способ создания. Еще одной особенностью является то, что на запрос «электронный словарь» поисковые системы не предложили такую категорию продукта, как оболочки. Все предложенные ресурсы позиционируются как собственно словари.

В соответствии с содержательным критерием отмечаем еще ряд особенностей:

1. Ряд продуктов включает в себя материалы двух и более словарей источников.

2. Источниками, в массе, являются печатные аналоги.

3. Архитектура всех двадцати продуктов такова, что предполагает работу с собственными базами данных. Это объясняется меньшими трудозатратами при создании подобных ресурсов.

В соответствии с техническим критерием мы можем наблюдать следующую картину:

1. В девятнадцати из двадцати ресурсов возможен поиск по заголовку словарной статьи - то есть как и в случае с печатным аналогом, пользователь ищет информацию о конкретной лексической единице.

2. Алфавитной структурой обладают лишь тринадцать ресурсов.

Очевидно, что при подходе, когда поисковой точкой отсчета является конкретная лексическая единица, некоторые разработчики отказываются от дублирующей такой подход структуры. Действительно, зачем нужен дополнительный элемент интерфейса, на создание которого уходит время, если есть возможность отыскать необходимую информацию посредством введения в поисковую строку соответствующего слова.

3. Таким мощным инструментом, как морфологический анализ, обладают девять ресурсов. Из них пять - сетевые и четыре - не сетевые. Из них только два включают словари русского языка. Остальные семь - словари английского и итальянского языков.

4. Возможностью создавать сложные запросы, ограничивая тем самым круг необходимой пользователю информации, обладают лишь два ресурса: «Shorter Oxford English Dictionary» и Интернет-проект «Русские словари». В остальных случаях возможность отбора словарной информации сводится, так или иначе, к поиску словарной статьи по конкретной лексической единице.

5. Полнотекстовым поиском снабжены лишь четыре ресурса. Стоит, однако, заметить, что само по себе наличие такого инструмента, как полнотекстовый поиск, не решает многих задач, поскольку, как верно отметил В. П. Селегей, машине приходится работать с текстом на естественном языке со всеми вытекающими особенностями, такими как: неснятая омонимия, повторы и невозможность отбора материала на основании информации, не эксплицированной в тексте печатными символами.

6. Словарные статьи снабжены аудио-файлами в четырех ресурсах, три из которых не являются сетевыми. Само по себе наличие возможности воспроизвести произношение говорит в первую очередь об ориентированности разработчика еще и на иностранного потребителя, который не является носителем языка. Три ресурса, являющиеся несетевыми, - словари английского языка. И только один - проект «Русские словари», отечественная разработка, ориентирован еще и на иностранного потребителя.

Возможности использования корпусов в исследовательском и учебном процессах

На данный момент в исследовании и преподавании языка посредством корпусных методов наметились определенные традиции. Так М. В. Копотев и А. Мустайоки приводят 12 примеров использования корпуса в различных сферах: от исследования и преподавания до решения задач судебно лингвистической экспертизы:

1. Использование корпусов в грамматических и лексикологических исследованиях стало уже обычным в современной исследовательской практике.

2. Частотные списки и списки ключевых слов активно создавались и использовались задолго до создания современных электронных корпусов. Эти исследования в большинстве случаев представляли частотные характеристики лексем (точнее, лемм).

3. Исследование коллокаций (то есть сочетаний лексем).

4. Исследование нормы / узуса.

5. Корпусные методы с самого возникновения активно использовались в социолингвистических исследованиях.

6. Создание и изучение корпусов устной речи. Так, в крупнейшие национальные корпуса (BNC, НКРЯ и др.) включены транскрипты записей устной речи.

7. Корпусная лингвистика с самого своего возникновения была тесно связана с преподаванием языка в иностранной аудитории.

8. Относительно новой областью является создание корпусов ученических текстов, которые позволяют классифицировать типы ошибок и учитывать их в процессе преподавания. Сведения такого рода учитываются в некоторых из указанных выше англоязычных учебных словарях.

9. Тесно связанной с различными педагогическими задачами, однако имеющей и собственно лингвистическое значение является создание многоязычных параллельных корпусов.

10. Наличие электронных текстов, принадлежащих одному автору, дает возможность расширить круг задач, традиционно решаемых стилистикой и авторской стилеметрией. 11. Еще одна задача, которая успешно решается с помощью корпусных методов, это установление плагиата и скрытого цитирования

12. Наконец, корпусные методы применяются для решения задач судебно-лингвистической экспертизы. [Копотев 2008].

В целом, для корпусных методов характерно:

1. смещение исследовательской стратегии с изучения нормы («как правильно») на изучение узуса («как говорят / пишут»);

2. автоматическое извлечение информации с помощью поисковых запросов, что может приводить к получению объемного и не всегда релевантного материала;

3. распространенность «формально-морфологического» подхода, при котором поиск примеров основывается на морфологической (или просто на буквенной) форме;

4. использование квантитативных методов, позволяющих учитывать частотные характеристики исследуемых единиц, и замена интроспективных оценок материала точными количественными данными об употреблении;

5. опора на автоматическое аннотирование, не лишенное, с точки зрения традиционной лингвистики, определенных неточностей и упрощений;

6. внимание к контексту в широком смысле (исследование коллокаций, ключевых слов, конструкций предполагает учет окружения исследуемой единицы).

Помимо приведенной характеристики сфер применения корпусных методов, можно выявить и ряд других. На сегодняшний день вышло немало работ, посвященных исследованию и преподаванию языка с помощью корпусных методов С. А. Анохина [2007], А. Мустайоки [2007], Л. М. Кольцова, Ж. В. Грачева [2007], Лора А. Янда [2007] и др. Все они, как правило, описывают конкретные способы применения корпусных методов в исследовании и преподавании языка. «Ресурсы национального корпуса русского языка открывают широкие возможности для изучения, прежде всего, лексикологии. Богатый материал и удобная поисковая система позволяют выявить контексты, в которых используется та или иная лексема, и определить, каково ее семантическое наполнение. Более того, при необходимости можно проследить, какова семантическая динамика слова: какие слова в литературе и публицистике разных эпох «выхолащивались», семантически упрощались, а какие, напротив, семантически усложнялись. Кроме того, ресурсы НКРЯ позволяют быстро выделить синонимы, антонимы, омонимы, фразеологизмы русского языка, использующиеся в разные временные периоды, и понять, как меняется синонимическая, антонимическая и омонимическая система русского языка» [Кольцова 2007: 37].

Возможность изучения категорий многозначности и омонимии на примерах, предлагаемых НКРЯ, наиболее очевидна. Достаточно ввести в запрос интересующее нас многозначное слово или слово, имеющее лексический омоним, и Корпус предложит значительное количество примеров употребления данного слова во всех его значениях. Это чрезвычайно облегчает работу преподавателя, например, по составлению упражнений, подобных следующим:

1. В каком предложении слово дуб употреблено в переносном метафорическом значении?

а) Прошла весна, уже давно похозяйничал в лесу ветер, помог он столетним дубам развернуть длинные клейкие листочки. (Валентина Осеева. Динка прощается с детством (1969));

б) А для оперы все это требуется переложить на стихи. Кто их сочинит? Я в этом деле совершенный дуб. И, насколько я знал, в нашем училище никто стихами не баловался. Но мне не хотелось откладывать весь этот замысел на после. Ладно, пока обойдемся без стихов. Я взялся за музыку. (Александр Рекемчук. Мальчики (1970));

в) Белые, черные, серые, перламутровые, эмалевые, желтые, тугие и западавшие кнопочки (раз нажмешь - звонит без конца) смотрели из деревянных, металлических кружков, квадратиков, овалов, розеток, лакированных, ржавых, мореных и крашенных под дуб и под орех. (Лев Кассиль. Кондуит и Швамбрания (1928-1931; 1955));

г) Тогда стала видна небольшая дверца из потемневшего дуба. (Алексей Толстой. Золотой ключик, или приключения Буратино (1936)).

2. Укажите предложение, в котором слово украшение употреблено в прямом (не в метонимическом) значении:

а) Майский жук оделся в костюм шоколадного цвета, жук-носорог — в коричневый, да ещё присадил себе в виде украшения на голову длинный рог. (Георгий Скребицкий. Счастливый жучок (1958));

б) Испанские моряки были бедными, у них не было дорогих украшений и богатой одежды. (Валентин Постников. Карандаш и Самоделкин в стране фараонов (1997));

в) Даже из стен домов и из мостовых, где были не изумруды, а просто куски хрусталя, все украшения были вынуты. (Александр Волков. Урфин Джюс и его деревянные солдаты (1963));

г) Она [пеночка-пересмешка] свила себе гнездышко на березовой ветке, убрала его лишайником и легкой березовой кожуркой и вплела для украшения кусочки разноцветной бумаги, что валялись в саду какой-то дачи. (Виталий Бианки. Лесные были и небылицы (1923-1958)). [Анохина 2007: 150 151]

«Особую роль способны сыграть ресурсы НКРЯ в лексикографии - при составлении словарей русского языка (толковых, синонимов, антонимов, омонимов и т.д.). Прежде всего, это связано не только с упрощением поиска языкового иллюстративного материала, но и с тем, что жанровое и стилистическое богатство текстов предоставляет возможность, как указывалось выше, выявить малейшие семантические сдвиги, произошедшие в слове. Таким образом, может быть определено, каков спектр новых сем (а порой и семем), репрезентируемый исследуемой лексемой». [Кольцова 2007: 38].

Таким образом, выделяются три наиболее крупных направления использования корпусов: филологические исследования, прикладные виды работ, учебный процесс. Но, прежде всего, сфера применения корпусных методов — это, исследование различных аспектов языкознания и преподавание языка. Богатство разметки и разнообразие параметров поисковой системы позволяют отбирать большое количество языкового и статистического материала, что позволяет проводить более точный анализ, экономя при этом время исследователя.

От технологии к модели

В процессе анализа структурных и содержательных особенностей словарных статей, описанных в предыдущем разделе лексикографических источников, мы сделали ряд наблюдений, касающихся особенностей предоставляемой ими информации. В основе анализа данных статей и словарей в целом лежал в большей степени принцип целеполагания, то есть мы исходили из того, для чего может понадобиться пользователю содержащаяся в недрах словаря информация. Однако данный принцип не позволяет подойти к процессу разработки параметров поисковой системы в полной мере. Точнее, остается неясным алгоритм действий по анализу словарных статей в процессе их аннотирования. Поскольку одна из заявленных нами целей звучит как разработка технологии создания корпуса, то наличие алгоритма конкретных действий обязательно.

Итак, разработчик поисковой системы в начале свой работы должен помимо цели иметь определенные инструкции, позволяющие вести работу по аннотированию более предметно. В основу реализации данного подхода и легли некоторые наши наблюдения. Дело в том, что в процессе анализа словарных статей мы сделали некоторые обобщения разного рода в отношении словарной информации, как специфического вида информации, которая свойственна именно словарям, и попытались описать данные обобщения посредством конкретных положений.

Первое такое положение можно сформулировать следующим образом: словарная информация может быть эксплицирована в тексте словарной статьи посредством некоторого набора печатных символов. К такому типу информации относятся, прежде всего, разного рода пометы. Например: MAC:

БЛАЖИТЬ, -жу, -жшиь; несов. Прост. Поступать своенравно, сумасбродно; дурить. [Фамусов:] Сказал бы я во-первых: не блажи, Именьем, брат, не управляй оплошно, А, главное, поди-тка, послужи. Грибоедов, Горе от ума. — Блажишь! — закричал супруг. — Глупости в голове много у дуры! Чехов, Живой товар.

Толковый словарь Крысина МУНДШТУК [нш], ука, м. [нем. Mundstuck Mundpom + Stuck часть, кусок]. 1. Часть курительной трубки или папиросы, которую берут в рот при курении, а также небольшая трубочка, в которую вставляют сигарету. Ср. кальян, наргиле, чубук. 2. муз. Часть духового музыкального инструмента, которую музыкант во время игры берет в рот или приставляет к губам; то оюе, что амбушюр. 3. Железные удила с подъемной распоркой в нёбе и с подбородником в виде цепочки для сдерживания лошадей. 4. тех. Часть различных аппаратов, приборов и устройств в виде наконечника, на который надевается другая часть аппарата, прибора или устройства. Мундштучный — относящийся к мундштуку-, мундштукам. \ \ Ср. муфта .ниппель, фитинг, фланеи. штуиер.

Принадлежность описываемых в представленных статьях лексических единиц к той или иной группе маркируется в тексте системой соответствующих помет: несов., прост., муз., нем.

В словаре же омонимов принадлежность того или иного омонима к соответствующему типу обозначено специальными символами:

її — омонимия основ;

Ь- омонимия аффиксов;

Ь—разная степень членимости

Ь - различие внутренней структуры, не имеющее открытого выражения в словарной форме;

Ь - омонимия разных частей речи

II — исконно разные слова

III - омонимия в результате распада полисемии.

Второе положение звучит так: словарная информация может быть представлена завуалировано в тексте словарной статьи, но может быть выявлена посредством анализа. Например:

ВУАЛЬ, и, ж. [фр. voile лат. velum завеса]. 1. Тонкая прозрачная ткань. Вуалевый — из вуали. \ \ Ср. газ .кисея, флёр, шифон. 2. Сетка, прикрепляемая к женской шляпе и закрывающая лицо. Вуалетка — небольшая короткая в. 3. кфт. Потемнение на неосвещенных участках проявленного кино- или фотоизображения. Вуальный — относящийся к вуали. Ср. муар МУНДШТУК [нш], ука, м. [нем. Mundstuck Mundpom + Stuck часть, кусок]. 1. Часть курительной трубки или папиросы, которую берут в рот при курении, а также небольшая трубочка, в которую вставляют сигарету. \ \ Ср. кальян, наргиле, чубук. 2. муз. Часть духового музыкального инструмента, которую музыкант во время игры берет в рот или приставляет к губам; то же, что амбушюр. 3. Железные удила с подъемной распоркой в нёбе и с подбородником в виде цепочки для сдерживания лошадей. 4. тех. Часть различных аппаратов, приборов и устройств в виде наконечника, на который надевается другая часть аппарата, прибора или устройства. Мундштучный - относящийся к мундштуку-, мундштукам. \ \ Ср. муфта .ниппель, фитинг, фланеи, штуцер.

ШЛЕЯ укр. шлея, шлия — то же, шлейка "ремень", блр. шлея, др.-русск. см. образ "ремень от хомута" (грам. 1388 г.; см. Срезн. III, 1597 [У Срезн.: On. Кор. Ник. мон. 1551 г.]), шлеи мн. "ремни", также в Домостр. Заб. 129, шлеиникъ "шорник" (Котошихин 92), чеш., слвц. sle мн. "помочи, подтяжки", полъск. szla, sla "гуж:", szelka "завязка, ремень", н.-луж. sla, мн. sle "воловья упряжь, ременная упряжь, подтяжки", полаб. salja "упряжь, ремень". \\ Первонач., вероятно, зап.-слав. ьТа, займете, из формы, близкой д.-в.-н. siloM. "ремень, шлея", ср.-в.-н. sile м., sil м., ср., ж. "веревка, ремень" (относительно близких форм см. Торп 438); см. Миккола, Beruhr. 177 и ел.; Брюкнер 550; Преобр., Труды I, 99 и ел. Другие предполагают, что менее правдоподобно, связь по чередованию гласных с сила (см.); ср. Маценауэр 327; Голуб — Конечный 372. Из слав, займете, лит. slajai мн. "шлея, конская упряжь", лтш. slejas — то же; см. М. — Э. 3, 925; Брюкнер, FW142; иначе, но едва ли верно, о лит. слове Лескин, Bildg. 315.

Как уже было нами отмечено ранее, информация о статусе языка заимствования, о пути заимствования (источник, посредник) применительно к Толковому словарю иноязычных слов Крысина или о принадлежности языковой единицы к тому или иному языковому объединению (семья, макросемья и т. п.), применительно к Этимологическому словарю Фасмера выявляется посредством анализа структуры и содержания соответствующей словарной статьи.

Третье положение мы сформулировали так: элемент словарной статьи может обладать характеристикой, не эксплицированной текстово и не выявляемой в процессе анализа словарной статьи.

Поясним на примере. Для этого обратимся к словарной статье Словаря русских народных говоров, том 13: Кволый, а я, о е, 1 Слабый, хилый Что он так квол? Рыльск , Судж. Курск.. 1819 Курск., Орл. Эх ты кволая ипдюшка никуда и ни к чему ты в жизни не годишься, хоть тебя забрось Ворон. Тул., Калуж., Дон. Южн., Сомлен.. Зап., Влад. Ленннгр. jl О раекі ния\ Пшенииа шибьо ивогая t. га еще (m е не выносит w\\n чегьо ей поддается) Прьлт. ( ов, Аквд 190». 2 Плаксивый, недотрога Южн., Зап., Даль 3 Вялый малоподвижный Рыльск, Судж: Курск., 1849 4Болезненный (о нарыве итп) Южн., Зап., Дачь 5 Непрочный, некрепкий, хрупкий Болх Орл., 1900 Осина — дерево heojwe Курск. Кеолая лодка Калуж. Тул.

- Ср Квелый

Информация о географии функционирования слова кволый отражена в тексте словарной статьи посредством географических помет (Курск., Орл., Южн., Смолен, и т.д). Однако данный диалектизм по своему типу является словарным диалектизмом, то есть словом, корень которого отсутствует в литературном языке. Но определить это можно, только обладая некоторыми познаниями в соответствующей области. То есть характеристика у лексемы есть, но в тексте словарной статьи специальным образом она не отражена.

Таким образом, данные три положения характеризуют такое свойство словарной информации, как способ ее представления, и анализ словарной статьи, как элемент разработки системы разметки имеет смысл проводить с учетом данного свойства и соответствующих положений, из него проистекающих.

Второе обобщение носит в большей степени структурный характер и касается информации описывающей определенный элемент словарной статьи. Так, большинство словарей способно представлять пользователю информацию о различных элементах словарной статьи.

1. Информацию о лексеме (план выражения) - постоянные формальные признаки (категориальные характеристики, частеречная принадлежность).

2. О значении слова (план содержания) — семантические характеристики, стилистические характеристики, сфера функционирования, принадлежность единицы к различным группам, классам объединениям по тем или иным основаниям.

3. О словарной статье (способ подачи информации) - способы толкования слова, типы лексических значений.

Иными словами, словарная информация имеет такое свойство, как объект информационного описания.

Похожие диссертации на Корпусные методы в лексикографии: опыт создания модели Словарного корпуса