Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели лингвистического анализа текстов таджикского языка : на материале газелей Хафиза Джаъфарова, Давлатхоним Файзалиевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Джаъфарова, Давлатхоним Файзалиевна. Модели лингвистического анализа текстов таджикского языка : на материале газелей Хафиза : диссертация ... кандидата филологических наук : 10.02.22 / Джаъфарова Давлатхоним Файзалиевна; [Место защиты: Тадж. нац. ун-т].- Душанбе, 2013.- 151 с.: ил. РГБ ОД, 61 14-10/296

Содержание к диссертации

Введение

Глава I. Применение методов математической лингвистики при составлении частотных словарей 10-58

1.1 Особенности множества лингвистических элементов 10-12

1.2. Математическая лингвистика 12-17

1.3. Компьютерная лингвистика 17-18

1.4. Направления компьютерной лингвистики 18-34

1.5. Корпусная лингвистика 34-46

1.6. Поэтический корпус 46-58

1.6.1. Понятие о поэтическом корпусе 46-52

1.6.2. Поэтический корпус русского языка 52-53

1.6.3. Основные параметры поэтического корпуса таджикского языка 53-58

Глава II. Технология составления частотных словарей 59-88

2.1. Постановка задачи 59-60

2.2. Используемые технологии 60-61

2.3. Описание программного комплекса 61-78

2.3.1. Модель элементов программного комплекса 62-73

2.3.2. Реализация программного комплекса 73-78

2.4. Дополнительные элементы программного комплекса 78-88

2.4.1. Формализация метрических размеров 78-79

2.4.2. Закономерность образования стихотворных размеров 79-85

2.4.3. Алгоритм определения размера 85-88

Глава III. Реализация алгоритма для решения лингвистических задач на основе статистического анализа 89-133

3.1. Основные задачи и возможные способы их решения 89-90

3.2. Разработка и проектирование базы данных 90-93

3.3. Интерфейс программного комплекса 93-95

3.4. Составление частотного словаря газелей Хафиза 96-116

3.5. Первичная статистическая обработка 116-127

3.5.1. Длина словоформы 116-123

3.5.2. Распределение словоформ 123-127

3.6. Исследование качественных признаков 127-133

Заключение 134-139

Библиография 140-151

Введение к работе

Актуальность темы. Развитие любой отрасли науки наряду с фундаментальными ее понятиями, структурой внутреннего динамизма и другими факторами находится в прямой зависимости от применения в ней средств и методов ряда смежных прикладных отраслей. В настоящее время использование в языкознании, литературоведении и других направлениях современной филологической науки аппарата математики, и в первую очередь статистических методов и средств, бурно развивающихся компьютерных и коммуникационных технологий, стало уже традиционным и обычным явлением.

Вместе с тем, с другой стороны, огромное наследие таджикско-персидской классической литературы до сих пор недостаточно изучено с позиции статистического анализа. Имеющиеся отдельные исследования явно не достаточны для охвата хотя бы определенной части всего объема этого огромного наследия, а использование статистических методов дает наилучшие результаты в стилистике, которая может избавиться от субъективных оценок при помощи подсчета и строгой систематизации материала. Значительную часть исследовательского процесса в этом направлении составляет работа по обработке текстового материала.

На современном этапе бурно развивается такая отрасль в прикладной лингвистике, как компьютерная лингвистика. Достижения в области компьютерной лингвистики находят все большее применение для анализа материалов поэтических текстов. Очевидно, что компьютерная программа ещё долго не будет способна делать полноценный анализ поэтического текста, и тем более, компьютер, в отличие от человека, никогда не сможет понять художественную ценность произведения. Однако в настоящее время сложился определённый минимум, из которого можно получить некоторые сведения о стихах.

Лексикография, будучи прикладной дисциплиной в области языкознания, изучает в основном методы создания (составления) словарей. Обычно под словарем понимается определенным образом организованное собрание слов, как правило, с приписанными им комментариями, в которых в стандартной для данного словаря форме описываются особенности их структуры и/или функционирования.

В связи с этим возникает естественная необходимость в создании прикладных лингвистических моделей и способов упрощения обработки текстового материала, для установления присутствующих в нем статистических закономерностей, а также для усовершенствования технологии составления словарей.

Для решения поставленной задачи нами разработан лингвистический алгоритм, обрабатывающий тексты на таджикском языке и лингвистические модели, реализованные в программном продукте, для составления частотных словарей с учетом следующих требований:

приложение должно быть интерактивным;

содержать функциональные точки, позволяющие выполнить процедуру редактирования (до, в процессе и после выполнения возложенных на приложение функций);

базироваться на доступной для конечных пользователей платформе.

Разработанный лингвистический алгоритм позволил провести статистическое исследование произведения Хафиза Ширази и изучение закономерностей лингвистических элементов и стилистических особенностей на основе автоматизированного составления частотного словаря сборника его газелей.

Теоретическими основами для решения поставленных в работе задач явились работы в области формальной и контенсивной типологии, математической и компьютерной лингвистики.

Степень разработанности проблемы.

В настоящее время имеется очень мало частотных словарей произведений классиков таджикско-персидской литературы. Имеющиеся единичные частотные словари, известные автору [8],[16], составлены традиционным способом и представлены, в основном, в виде конкорданса.

Диссертанту не известна ни одна работа по комплексному статистическому анализу произведений классиков таджикско-персидской литературы. Вместе с тем имеются некоторые работы по установлению статистических закономерностей отдельных параметров изучаемого материала, и выполненных, в основном традиционным способом (см., например, [5], [8]).

Вопросы классической поэтики, прежде всего касающиеся метрической системы аруз, изучены в работах: [2], [5], [6], [9], [10], [11], [13].

Автором диссертации изучены отдельные работы, в которых поэтические материалы исследуются с помощью компьютерной технологии [1], [4], [7]. Однако по проблемам автоматизации анализа таджикской поэзии исследования не проводились.

Цель работы. Цель исследования – создать прикладные лингвистические модели и лингвистический алгоритм для составления частотных словарей и применения их в процессе решения конкретных лингвистических задач.

Достижение поставленной цели осуществляется путем решения следующих задач:

  1. Анализ и систематизация существующих научных знаний в области формальной и контенсивной типологии, математической и компьютерной лингвистики.

  2. Исследование стилистических закономерностей поэтических материалов, в частности, исследование закономерностей образования стихотворных размеров.

  3. Разработка и обоснование моделей с использованием стандартных систем обозначений программного комплекса.

  4. Разработка, обоснование и тестирование прикладных лингвистических моделей и алгоритмов для составления частотных словарей и их реализация в виде проблемно-ориентированного программного обеспечения.

  5. Проведение прикладных лингвистических экспериментов с целью тестирования и верификации разработанных моделей и алгоритмов и разработка предложений по их практическому использованию и дальнейшему совершенствованию.

Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы формальной и контенсивной типологии, методы математической и компьютерной лингвистики, а также базовые знания в области языкознания, литературоведения и метрических закономерностей таджикско-персидского стиха.

Теоретические результаты получены методом дедуктивных рассуждений. Достоверность также подтверждается численным экспериментом.

Научная новизна работы обусловлена:

  1. Применением методов квантитативной и компьютерной лингвистики в создании проектирования лингвистических моделей и алгоритмов при анализе текстов таджикского языка;

  2. Разработкой технологии составления частотных словарей в таджикской лексикографии;

  3. Применением нового подхода к лингвистическому исследованию для статистического анализа текстовой информации с целью определения стилистических закономерностей;

  4. Проведением комплексного статистического анализа множества словоформ исследуемого поэтического материала, позволившего получить перечни и статистические распределения для различных морфологических лингвистических элементов применительно к текстам на таджикском языке.

Практическая значимость работы состоит в возможности широкого внедрения созданных лингвистических моделей и алгоритмов для составления частотных словарей в лингвистических исследованиях, а также в качестве одного из элементов системы разработок в области компьютерной лингвистики.

Полученные результаты используются в учебном процессе Российско-Таджикского (славянского) университета и Таджикского технологического университета при разработке курсов лекций и программ по дисциплинам «Компьютерная лингвистика», «Технологии проектирования информационных систем», а также в научно-исследовательских процессах Института языка и литературы им. Рудаки Академии наук Республики Таджикистан.

Теоретическая ценность работы состоит в том, что разработанный подход к моделированию лингвистических моделей и алгоритмов и их реализация в области лингвистических исследований может эффективно применяться при решении широкого круга задач по изучению таджикско-персидского литературного наследия.

Источники исследования. Объектом данного исследования послужили следующие работы: [5], [6], [11], [12], [14], [17].

Апробация работы. Диссертационное исследование обсуждено на совместном заседании отделов таджикской классической литературы и таджикского языка Института языка и литературы, востоковедения и письменного наследия им. Рудаки Академии наук Республики Таджикистана (24.01.2012, протокол № 94) и на расширенном заседании кафедры «История языка и типологии» Таджикского национального университета (01.07.2013, протокол № 27) и рекомендовано к защите.

Основное содержание работы отражено в научных статьях, опубликованных в различных научных сборниках. По материалам исследования диссертант выступала на научно–теоретических семинарах, международных конференциях, в том числе на Международной конференции «Таджикско-персидский язык и информационные технологии» (28-29-мая 2008г.).

Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и списка использованной литературы. Библиография насчитывает 161 источник. Объем работы 151 страниц, в основной части текста имеются 24 рисунка и 18 таблиц.

Математическая лингвистика

Отрасль науки, которая занимается математической экспликацией, использованием аппарата математики для исследования лингвистических объектов и вообще методов математического моделирования в языкознании и литературоведении называется математической лингвистикой. Математическая лингвистика - математическая дисциплина, разрабатывающая формальный аппарат для описания строения естественных и некоторых искусственных языков. Возникла в 50-х годах XX века в связи с назревшей в языкознании потребностью уточнения его основных понятий. В математической лингвистике используются по преимуществу идеи и методы алгебры, теории алгоритмов и теории автоматов. Хотя математическая лингвистика не является частью лингвистики, тем не менее, она развивается в тесном взаимодействии с ней. Математическую лингвистику называют иногда лингвистические исследования, в которых применяется какой-либо математический аппарат.

Математическое описание языка основано на представлении о языке как механизме, функционирование которого проявляется в речевой деятельности его носителей; её результатом являются «правильные тексты» — последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучение способов математического описания правильных текстов (в первую очередь предложений) составляет содержание одного из разделов математической лингвистики - теории способов описания синтаксической структуры. Для описания строения (синтаксической структуры) предложения можно либо выделить в нём «составляющие» — группы слов, функционирующие как цельные синтаксические единицы, либо указать для каждого слова те слова, которые от него непосредственно зависят (если такие есть). Другой раздел математической лингвистики, занимающий в ней центральное место, - теория формальных грамматик, возникшая главным образом благодаря работам Н. Хомского [146]. Она изучает способы описания закономерностей, которые характеризуют уже не отдельный текст, а всю совокупность правильных текстов того или иного языка. Эти закономерности описываются путём построения «формальной грамматики» — абстрактного «механизма», позволяющего с помощью единообразной процедуры получать правильные тексты данного языка вместе с описаниями их структуры. Наиболее широко используемый тип формальной грамматики — так называемая порождающая грамматика, или грамматика Хомского. Формальные грамматики используются для описания не только естественных, но и искусственных языков, в особенности языков программирования.

Математическая лингвистика изучает также аналитические модели языка, в которых на основе тех или иных данных о речи, считающихся известными (например, множества правильных предложений), производятся формальные построения, дающие некоторые сведения о структуре языка. Приложение методов математической лингвистики к конкретным языкам относится к области лингвистики.

Лингвистические объекты обладают как количественными, так и качественными свойствами. Количественные свойства (например, длина словоформы в буквах или фонемах, слогах, морфемах либо количество словоупотреблений в предложении и т. п.) постоянно используются в качестве тех признаков, по которым лингвистические объекты выступают в качестве единиц статистической совокупности.

Однако статистика текста оперирует не только количественными, но и качественными признаками. Например, в ходе статистико-морфологического исследования словоупотребления текста группируются по признаку их принадлежности к той или иной части речи. При статистико-синтаксическом исследовании таким качественным признаком является функционирование каждого словоупотребления в роли определенного члена предложения. Часто бывает удобно использовать лишь два качественных признака, точнее признак А и его отсутствие — не А (А). В этом случае говорят об альтернативном качественном признаке. В качестве альтернативного признака можно рассматривать отнесение данного словоупотребления к существительным или не существительным (соответственно к глаголу или не глаголу, подлежащему или не подлежащему и т. п.).

Отдельные лингвистические статистические совокупности могут образовывать вместе более крупную совокупность — совокупность совокупностей. Одновременно каждая совокупность может состоять из частных совокупностей, которые, в свою очередь, могут рассматриваться как единицы совокупности.

Если статистическая совокупность объединяет все однородные лингвистические объекты, обладающие данным качественным или количественным признаком (признаками), то такую совокупность называют генеральной лингвистической совокупностью. Генеральная совокупность может содержать как конечное, так и бесконечное количество единиц. Если генеральная совокупность бесконечна или очень велика, то исследованию подвергается некоторая обозримая ее часть, называемая выборочной лингвистической совокупностью (выборкой). Например, если признаком объекта является длина словоформы в произведениях Хафиза (газели, маснави, рубай, китъа и т.д.), то отдельные произведения (например, избранные газели) или сборник газелей являются выборками, извлеченными из генеральной совокупности. Если же исследуется распределение длин словоформ в таджикской классической поэзии, то генеральной совокупностью служит сумма всех поэтических произведений классической литературы. Заметим, что если хронологические границы существования таджикского литературного языка не фиксированы, то число словоупотреблений (однородных объектов) здесь бесконечно. Произведения Хафиза в этом случае выступают в виде конечной выборочной лингвистической совокупности внутри бесконечной генеральной совокупности языковых объектов. Статистическое исследование классиков таджикской литературы проводилось очень мало. Хотя при исследовании классической поэзии кроме атрибуции, которая является, несомненно, одной из важнейших задач стилистики, требуется установить также и другие параметры поэтического наследия, такие как жанр, размер, тематика, рифма, арабизм и т.п. Интересно, например, установить, отвечают ли тексты конкретного автора некоторым статистическим закономерностям.

Рассмотрим, например, зависимость между частотой словоформы, которую она имеет в тексте длиной в N словоупотреблений, и ее номером в частотном словаре, составленном на основе данного текста. Эта зависимость выражается формулой (называемой обычно законом Эсту—Ципфа— Мандельброта), которая имеет следующий вид:

В этой зависимости F,- - частота словоформы и і - номер ее в частотном словаре выступают в качестве переменных величин, а величины ./V - длина исследованного текста, к - коэффициент относительной частоты наиболее частого слова, р - поправочный коэффициент частых и v — коэффициент лексического богатства текста выступают в качестве параметров, сохраняющих постоянное числовое значение лишь для текста определенной длины, определенного стиля и тематики.

Зависимость Эсту—Ципфа—Мандельброта представляет собой весьма грубое приближение к истинной статистической структуре текста. Она более или менее удовлетворительно выполняется лишь для двух-трех тысяч наиболее частых словоформ. Для описания статистически редких словоформ приходится оперировать другими зависимостями, в которых величины к и v выступают уже в качестве переменных, а р может рассматриваться в качестве некоторого параметра.

Хотя статистическое исследование поэтического материала во многом аналогично исследованию прозы, тем не менее, имеются отличительные осо бенности, которые определяются свойством поэзии. Этими особенностями, например, являются размерность, строчная разделяемость, рифма, стихотворный слог и т.д. Вообще говоря, стиховедение требует выполнения огромного объема рутинных операций. Вероятно, именно поэтому в литературоведческой среде оно считается трудной областью, хотя работа именно в этой сфере приносит очень весомые и, главное, хорошо обоснованные результаты. Эти операции хорошо формализуются, что, кажется, должно было бы привести к созданию программного инструментария для их выполнения. Однако до сегодняшнего дня нет программ, которые могли бы использоваться как «рабочее место стиховеда».

Отметим, что компьютерный анализ текстов разных поэтических стилей и жанров становится в настоящее время одной из необходимых составляющих лингвистических изысканий. В частности, компьютерное исследование лексической организации поэтических текстов активно используется в работах по коммуникативной стилистике художественного текста Н.С.Болотнова, И.И.Бабенко и др. [78], посвященных изучению "закономерностей отбора и организации лексических элементов всех произведений одного автора"- Н.С.Болотнова [27, с.141].

Компьютерный анализ лексической организации поэтических текстов позволяет не только создать частотный словарь лирики автора, выделить ключевые концепты его мировидения [21, с.14-16], но и определить специфику вербальной репрезентации в творчестве художника той или иной универсалии его мышления на основе моделирования межтекстового ассоциативно-смыслового поля (АСГТ) концепта.

Основные параметры поэтического корпуса таджикского языка

Охарактеризуем основные параметры специальной разметки поэтических текстов, которые дополняют основную разметку текста - прежде всего, метаразметку. Напомним, что метаразметка (сокращение от «метатекстовая разметка»), как видно уже из её названия, относится ко всему тексту, и при задании поиска по ней ищутся целые тексты, из которых формируется под-корпус. Соответственно, большинство разбираемых ниже помет приписывается поэтическому тексту в целом. По ходу изложения приводится также ряд помет, приписываемых тем или иным фрагментам текста.

Присутствие данной метаразметки позволяет программными средствами восстановить акцентную схему каждой входящей в рассматриваемый поэтический текст словоформы с определенной точностью. Интерфейс поиска, в целом, одинаков для поэтического и основного корпусов. Однако в поэтическом корпусе существует дополнительный набор метатекстовых атрибутов, позволяющих осуществлять поиск по характерным параметрам поэтического текста. Основные параметры, которые принципиальны для формирования поэтического корпуса:

Автор и сопутствующие параметры

Название произведения

Дата написания произведения

Жанр

Собственно стиховая разметка

Метр

Автор и сопутствующие параметры. Указание автора текста в поэтическом корпусе обладает рядом особенностей по сравнению с основным корпусом. Прежде всего, это связано с традицией обозначения автора стихотворного произведения в случае сомнительной атрибуции. (Такая проблема, безусловно, является актуальной для большинство материалов таджикской классической литературы). В принципе, логически возможны несколько вариантов, каждый из которых должен быть реализован в Корпусе.

Произведения с сомнительным авторством; произведения с коллективным авторством, когда лишь часть соавторов известна по именам; в случае, когда оригинальное произведение народное, автор считается обобщенным; в случае, когда автор скрывается за инициалами и расшифровка их либо неиз вестна, либо они являются постоянным творческим псевдонимом поэта; наконец, в случае полной анонимности указывается, что автор неизвестен.

Название произведения. Для поэтического текста всегда, кроме авторского названия (если оно есть), указывается первая строка (incipit) если произведение не имеет общего названия, как в случае сборника газелей. Если произведение является частью более крупного текстового единства (цикла, авторской книги стихов), определяются параметры цикл или книга соответственно, например отдельные поэмы «Шахнаме» А. Фирдоуси. Для циклов стихотворных произведений фиксируется порядок произведения в цикле (в общем случае); для авторских книг стихов указывается год издания.

Дата написания произведения. Если возниают сложности в точном определении точной даты, то можно ограничиться годом или более большим интервалом времени (десятилетие). В случае известных произведений дата определяется в формате гг.мм.дд (месяц и день факультативны). Встроен-ность поэтического корпуса в основном не позволяет учитывать более тонкие случаи датировок текстов, принятые в академических изданиях (напр., «1914, 1934 », где первая дата - авторская дата первой редакции произведения, а вторая - год издания окончательной редакции; или сомнительные датировки), - все подобные случаи недифференцированно считаются неточными датировками и в таком виде фигурируют в Корпусе. В этом случае, как и во многих других, Корпус не претендует на то, чтобы заменять научные издания текстов, к которым исследователь по необходимости должен обращаться — он лишь помогает быстро ориентироваться в большом массиве разнородных текстов для поиска нужной информации.

Жанр. Естественным образом, поэтический корпус имеет свою систему жанров, отличающуюся от системы жанров художественной прозы. Основные жанры, выделяемые в Корпусе: стихотворение, поэма, касыда, газель, рубай, китьа и т.д. Стихотворение, далее, может иметь большое число дополнительных жанровых помет: двустишия, новый стих (по форму), баллада, басня, надпись, ода, пародия, песня. Из нестандартных «поджанров» стихотворных текстов отмечаются «отрывок» (в случае незаконченного стихотворения или соответствующего авторского указания), «цикл» (если произведение является частью цикла). Чтобы избежать многочисленных проблем, связанных с размытостью жанровых критериев, приписывание жанра тому или иному произведению осуществляется, главным образом, на основе авторской экспликации его жанровой.

Метр (размер стиха). В Корпусе принимается, что тексты, относящиеся к разным системам стихосложения, имеют разные меры стихотворных строк. Независимо от характера мер стиха в Корпусе различаются следующие возможные случаи в зависимости от жанра произведения, например жанр мас-нави имеет постоянную меру для каждой строки, а для других жанров каждая единица определятся своим размером (рубай, китьа, газель, касыда и т.д.).

Традиционно метрической основой стихотворной размерности персоя-зычной поэзии является аруз. Хотя аруз, основоположником которого является Халил ибн Ахмад, заимствован из арабской поэзии, классики таджикско-персидской литературы постепенно стали вносить свои коррективы с учетом требований и особенностей персидского языка. Вместе с тем для письменности использовалась все та же арабская графика. Поэтому почти во всех руководствах и трактатах по арузу придерживаются правил образования размерности, предложенных Халилом ибн Ахмадом.

Только в последнее время (XX в.) к этому положению начали относиться критически. Такие ученые, как Т.Зехни, Б. Сирус, П.Н. Хонлари и др. [65, 120, 161] стали утверждать, что образование размерности в таджикско -персидской поэзии получается путем создания в соответствии с определенными правилами последовательностей коротких и длинных слогов. И в качестве основной единицы определения размера служит только слог. Рассматриваются следующие виды слогов: открытый слог с коротким гласным1 (короткий слог); закрытый слог с коротким гласным (длинный слог); открытый слог с длинным гласным (длинный слог) и закрытый слог с длинным гласным (полуторный слог). Также рассматриваются случаи, когда закрытый слог заканчивается двумя согласными, которые в основном считаются полуторными.

Для образования стихотворных размеров используются базовые элемен ты - рукны2. Изначально путем различной комбинации единиц слогов, назы ваемых «сабаб», «ватад», «фосила», и их разновидностей, [65, 120] опреде ляются 7 базовых рукнов: «Ма-фо-і-лун» (V ), «Мус-таф-ъи-лун» ( V —), «Фо-и-ло-тун» (—V ), «Ма-фо-і-лу» (V V), «Фа-и-лун» (V ), «Мус-тафъи-лун» ( V —), «Фои-ло-тун» (—V ). Два последних эле мента отличаются от второго и третьего лишь конструктивно в соответствии с правилами сопряжения корневого слова «Фаъл», а по звучанию, мелодич ности и последовательности сочетания коротких и длинных слогов они иден тичны. Поэтому для анализа в качестве базовых элементов мы используем только первые пять рукнов и будем придерживаться традиционных обозна чений.

2. Зихоф. Зихофом называется порождение новых рукнов в результате внесения определенных изменений в рукны базового множества. В классическом стиле это образование получается в результате добавления, удаления или изменения одного или нескольких букв (слогов) в базовых элементах. И в связи с этим сформулированы правила образования зихофов. Хотя в литературных источниках приводятся 45 зихофов, получаемых в результате применения различных правил, большинство исследователей придерживаются мнения, что это не окончательный вывод. Обычно классики таджикско-персидской литературы путем выбора размера поэтического материала, а также звучности букв умели создавать ассоциативный образ описываемой в стихотворении темы и его эмоциональный оттенок. Этот навык выбора некоторыми авторами доведен до абсолютного совершенства. Поэтому рассмотрение размера стиха является, с нашей точки зрения, важной характеристикой атрибуции материала.

Отдельно описывается графическое членение стихотворения (с помощью пробельных строк и других приемов). Этот параметр, становится особенно важным при обращении к свободному стиху (насри мусаччаъ) и является основным способом членения текста на отрезки более крупные, чем строки.

Кроме того, корпус так же можно включить параметр «рифма». Если стихотворение нерифмованное, параметр «рифма» (в данном контексте эквивалентный понятию «схема рифмовки») принимает значение 0. Если рифмовка регулярная, то указывается ее тип и схема, где рифмующиеся строки обозначаются буквами кириллицы по порядку с начала алфавита. При этом разным рифмам соответствуют разные буквы алфавита, напр., ааба ааббвв абвб и т.д.

Корпус использует стандартную номенклатуру схем рифмовки: моно ритм (одна рифма на всё стихотворение). Или рифма с радифом.

Закономерность образования стихотворных размеров

В процессе исследования закономерностей образования стихотворных размеров с использованием аппарата математики и компьютерной техники были учтены следующие моменты [137]:

1. В арабской графике некоторые согласные буквы не пишутся (мутах-харик). Для правильного их озвучивания используются специальные значки, так звук «а» обозначается надстрочным знаком Г ) и называется «фатха», звук «и» обозначается подстрочным знаком ( __) и называется «касра», звук «у» обозначается надстрочным знаком ( О ) и называется «замма». Они являются короткими гласными. Имеются также длинные звуки «и» и «у». Они пишутся (сокин) и могут находиться в любом месте слова. Поэтому, чтобы отличить от соответствующих коротких звуков, обозначим их буквами латинского алфавита «і» и «и».

2. Рассматриваются слоги трех видов: короткий, длинный и полуторный. Традиционно для их обозначения используются знаки "V", "—" и " " соответственно5, с тем исключением, что если полуторный слог находится не в конце стихотворной строки, то для его обозначения используется комбинация двух знаков: "V—". С целью более корректного анализа мы ввели единые обозначения, в наших терминах это "О", "1" и "2" соответственно. Хотя в процессе проектирования интерфейса программы будем придерживаться системы традиционных обозначений.

Закономерности образования стихотворных размеров как было ранее указано, используются базовые элементы - рукны, и новые рукны образуются в результате внесения определенных изменений в рукны базового множества, называемые зихофом. Не вдаваясь в подробности классических правил порождения зихофов, которые основаны на закономерности словообразования арабского языка, и учитывая, что размер стиха - это некоторым образом сформированная последовательность коротких и длинных слогов, для его формализованного описания воспользуемся средствами продукционных систем [92] и определим следующее.

Глобальной базой данных D будем называть множество всех рукнов (базовые и всевозможные их зихофы) и их комбинации, сгруппированные по некоторым определенным признакам. Обозначим через R множество базовых рукнов, т.е. R={Ri, R2, R3, R4, Rs} такие, что Rj = SiS2s3s4 для/=1,2,3,4 и Rs=s,s2s3; ss= ; /=1,2,3,4.

Очевидно, начальное состояние D совпадает с множеством if. Далее задав условия применения к элементам множества D, определим следующие правила:

Pj(Rj,l) - удаление первого (/ = 0) или последнего (У = 1) слога элемента RJ;

P2(Rj,l,h) - добавление длинного (А = 1) или короткого (А = 0) слога в начале рукна (/ = 0) или в конце (/ = 1);

P3(Rj,i,k) - замена і-го слога в рукне Rj в зависимости от значения к, при чем к=

0, короткий,

1, длинный

2, полуторный

Эти правила, при выполнении условия применяемости к элементам базы D, порождают новое состояние базы, и после конечного числа применений правил образуется множество всех возможных допустимых элементов. Именно эти элементы и становятся основой для образования размера путем их группировки предусмотренными комбинациями. В приложении приводятся все описанные в источниках зихофы, полученные нами в результате применения этих правил в различных допустимых сочетаниях (Таблицы 2.1-2.5).

Естественно, при группировке рассматриваются только те элементы множества D, которые порождены от одного элемента Rj базового множества R. Полученную таким способом совокупность всех групп элементов базового множества R будем называть терминальным состоянием базы D.

Теоретически, хотя количество групп терминального состояния базы D конечно, получается, тем не менее, достаточно большое число. Для его определения предположим, что элемент Rj базового множества R имеет п} зихо-фов. Размер стиха задается в двустишии (байт), и при этом рассматриваются восьми - (мусамман), шести - (мусаддас), четырех - (мураббаъ) и двухэле ментные группы. Встречаются также случаи, когда структура одной строки байта отличается от структуры другой строки. Вместе с тем, эти отличия встречаются в допустимых пределах, не нарушая мелодичности стихотворения. Такие случаи нами пока не рассматриваются, и мы будем исходить из предположения, что обе строки байта имеют одинаковую структуру. Поэтому ограничимся структурой одной строки и будем группировать по одному, двум, трем и четырем элементам.

Однако на практике из этого количества применялась лишь небольшая часть. Это, во-первых, связано с тем, что некоторые комбинации не имеют ни какой звучности или очень плохо озвучиваются. Во-вторых, из-за объективной невозможности использования этих групп для образования размера, поскольку отдельные порождаемые, в результате применения правил, элементы состоят всего лишь из одного слога или входят в структуру других элементов. Более того, по мнению П.Н. Хонлари [161], закономерность образования размера в персидской поэзии зависит не только от составных частей словоформы языка, но во многом также и от его фонетических особенностей.

Исследование качественных признаков

В системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры - выделения в них смысловых единиц и установления связей между ними. При этом структура текстов может интерпретироваться по-разному и описываться на различных формализованных языках. Конкретные цели и результаты анализа тоже могут быть разными. Основной структурной единицей текста традиционно считается предложение. Предложения выступают в тексте не изолированно друг от друга, а в тесной смысловой связи. В основе этой связи лежат мыслительные образы тех конкретных или абстрактных объектов (ситуаций, явлений), которые человек имеет в виду, когда он порождает текст. Образы этих объектов имеют определенную структуру. Кроме того, они дополнительно структурируются человеком при их описании на естественном языке. Соответственно этому структурируется и текст.

Синтаксическая структура текстов обычно описывается в терминах классов слов и их отношений. При этом в качестве классов слов могут выступать части речи (существительное, прилагательное, глагол, наречие и др.), сопровождаемые грамматической информацией, характеризующей конкретные формы слов (например, род, число, падеж, лицо и др.). В качестве отношений - отношения непосредственной доминации с той или иной степенью их дифференциации.

Анализ синтаксической структуры предложения необходимо выполнить на основе информации о словах, полученной на этапе морфологического анализа. При этом каждой словоформе текста приписывается соответствующий символ грамматического класса и набор грамматических признаков. Это части речи, образования частей речи, «офтоб» - существительное, а «офтоби» - прилагательное, или глагол «хуфтан» имеет основу - существительное «хоб» и др.

Поэтому на первом этапе анализа, необходимость статистической обработки качественных признаков текста становится очевидной. Качественными признаками группировки вариант являются такие признаки, которые не содержат ни количественной оценки вариант, ни возможности их ранжирования. Примером может служить группировка словоформ по семантическим или грамматическим классам, или расположение фонем, исходя из иерархии дифференциальных признаков. В этих случаях, группировка вариант, отобранных по качественному признаку, заключается в их классификации по градации этого признака.

Исследование материала осуществлено на основе определения статистических закономерностей следующих качественных признаков: 1. Группировка словоформ по грамматическим признакам10. Иными словами словоформы сгруппированы по принадлежности частям речи: существительное, глагол, местоимение, прилагательное, наречие, числительное, предлоги, измененное, обращение и восклицание;

2. Группировка словоформ по языковым и другим признакам. Языковыми признаками являются: таджикское слово, арабское, греческое и тюркское. Другими признаками являются: религиозное, географическое, астрономическое и имя человека.

В соответствии с перечисленными качественными лингвистическими признаками нами получены следующие распределения (таблица 3.8).

На рис 3.9 приведена иллюстрация распределения словоформ по частям речи. Как из рисунка и из таблицы 3.8, становится очевидным, что большую часть текста составляют существительное, а глагол встречается более в два раза, чем существительное. Это вполне объяснимо на основе анализа структуры таджикского языка. Хотя и язык поэзии определенным образом отличается от языка прозы, тем не менее, такая закономерность сохраняется. Встречаемость других частей речи, за исключением предлога, значительно уменьшается. Например, местоимение и прилагательное встречаются более в два раза, чем глагол, а наречие чем эти части речи.

Что касается встречаемости предлога, то это число объясняется тем, что таджикский язык является аналитическим языком, и конструирование предложения осуществляется с помощью предлогов без изменения слова путем внутренней флексии. Поэтому в этом распределении 17228 единиц или 25% составляют предлоги.

Все это позволяет сделать вывод, что если не учитывать распределение предлогов, то данные достаточно равномерно распределены и при необходимости их можно хорошо аппроксимировать с помощью некоторой функцией вида у = а -х , где аи - коэффициенты.(рис.3.10.)

В наших исследованиях не были учтены отдельные газели, которые изложены полностью на арабском языке. В собрание газелей Хафиза [151] таких газелей. Также не были учтены отдельные строки на арабском языке.

Число таких строк составляет 97 общим объемом 689 слов. Таким образом, если произвести расчеты с учетом этих слов, то изменения будут не столь значительными. Число арабизмов будет 15953 (22,95%) напротив приведенного в таблице 3.6. 15264 (22,14%), а общий объем будет 70304 напротив 69615. Полученные данные находятся в пределах арабских слов и словоупотреблений в некоторых исторических и религиозных текстах Х- XII в. Хафиз Ширази жил в XIV в. Результаты говорят об относительной стабильности арабских заимствований в таджикско-персидской литературе, причем как в прозе, так и в поэзии. Однако мы это явление рассматриваем как отельный параметр атрибуции. На рис.3.11 и рис.3.12 приведены иллюстрации этих распределений.

Похожие диссертации на Модели лингвистического анализа текстов таджикского языка : на материале газелей Хафиза