Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Воронина, Ирина Евгеньевна

Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов
<
Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Воронина, Ирина Евгеньевна. Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов : диссертация ... доктора технических наук : 05.13.17 / Воронина Ирина Евгеньевна; [Место защиты: Воронеж. гос. ун-т].- Воронеж, 2013.- 375 с.: ил. РГБ ОД, 71 15-5/102

Содержание к диссертации

Введение

ГЛАВА 1 13

Актуальность моделирования лингвистической среды в условиях создания единого информационного пространства 13

1.1 Процессы социокультурного развития и лингвистическая среда 13

1.2. Язык как сложная подсистема социокультурной системы 35

1.3. Анализ методов формализации естественного языка и возможностей их использования в задачах моделирования информационной среды информационных ресурсов 50

1.4. Роль информационных технологий в исследованиях лингвистической среды 70

1.5. Управление процессом социокультурного развития в информационном обществе на основе моделирования и алгоритмизации обработки лингвистической среды 84

1.6. Методология моделирования лингвистической среды. Цель и задачи исследования 98

ГЛАВА 2 107

Формирование моделей для реализации качественного оценивания сочетаемости лингвистических объектов 107

2.1. Формализация качественного оценивания 107

2.1 Интуитивно-оптимизационное оценивание 113

2.3.Оценивание на основе вычислительного эксперимента 116

Выводы второй главы 128

ГЛАВА 3 130

Моделирование словообразовательных процессов 130

3.1. Процедура формирования модели словообразования 130

3.2. Алгоритмизация диагностического процесса в задачах словообразования 142

3.4. Алгоритмическое обеспечение синтеза в задачах словообразования 144

3.4. Моделирование с использованием этимологической транскрипции 153

3.5. Разработка языковых фильтров 159

Выводы третьей главы 166

ГЛАВА 4 169

Разработка программных средств моделирования лингвистических объектов и их применение в исследовательской практике 169

4.1. Программная реализация подсистемы моделирования словообразовательных процессов 169

4.2. Компьютерное моделирование словообразовательных сетей 178

4.3. Программные средства моделирования лингвистической среды 200

4.4 Когнитивные проблемы моделирования лингвистической среды... 209

Выводы четвертой главы 224

ГЛАВА 5 231

Использование методологии моделирования лингвистических объектов в задачах обучения 231

5.1. Особенности развития образовательных технологий в условиях информационного общества 231

5.2. Интеграция средств моделирования и обучения 232

5.3 Управление в образовательной подсистеме 237

5.4. Особенности использования инструментальных средств моделирования слова для русского и других языков 245

Выводы пятой главы 249

ГЛАВА 6 252

Реализация процессов моделирования и управления правовой составляющей социокультурной системы 252

6.3. Проблемы построения онтологии отрасли 252

6.2. Выделение ключевых понятий 260

6.3. Выделение отношений между понятиями 265 6.4. Проблема нечеткости ключевых понятий и ее формализованное

представление 267

6.5 Формализованное представление нечеткости 275

6.6. Реализация управления на основе квалификации преступлений 282

Выводы шестой главы 293

Заключение 296

Литература

Введение к работе

Актуальность проблемы. В условиях информационного общества требуется взаимодействие разных пользователей, государственной службы и социальной сферы с виртуальными ресурсами. Стоимостные и качественные характеристики такого взаимодействия существенным образом зависят от адекватности лингвистической среды, общение в которой происходит на естественном языке (лингвистическая среда - вид коммуникативного социокультурного пространства, в котором реализуется общение). На принятие решений в современном обществе сильнейшее влияние могут оказывать информационные воздействия, реализуемые средствами массовой информации, особенности современного законодательства, уровень образования, доступность мировых информационных ресурсов. В то же время невозможно отрицать стремительный рост объемов самой информации, причем налицо преобладание неструктурированных данных и высокая динамика распространения неструктурированной информации. Кроме того, информация доступна на многих языках. Понимая под лингвистическим обеспечением информационных процессов совокупность языковых средств общения и технологий их реализации, можно с уверенностью утверждать, что будущее за развитием естественно-языковых технологий со всеми вытекающими проблемами формализации естественного языка.

Формализация естественного языка является нетривиальной задачей и обладает всеми особенностями слабоструктурированных проблем. Исследованием этой проблемы занимались как отечественные, так и зарубежные ученые, среди которых Н.Хомский, Т. Виноград, А.С. Нариньяни, Бодуэн де Куртене, А.С. Гердт, А.Г. Белоногов, В.В. Налимов, Д.А. Поспелов, Н.Н. Перцова, Р.Г.Пиотровский, Р. С. Гиляревский, Ю.И. Шемакин, А.И Кузнецова, Г.П.Мельников, А.А. Кретов. Прикладные научные исследования в области формализации естественного языка характеризуются тем, что обычные способы сбора и обработки информации не обеспечивают необходимой быстроты, полноты и качества ее переработки. Отсутствие диагностического инструментария, позволяющего количественно оценить степень приближения получаемых результатов к реальности, также не способствует повышению эффективности и качества исследований. Рассматривая в качестве системы-объекта естественный язык, необходимо проанализировать подходы, проблемы и достижения на пути построения теоретической системы и представить развитие методологии исследовательского процесса, разработав математическое, алгоритмическое и программное обеспечение его поддержки.

Создание удобного и эргономичного пользовательского интерфейса, реализация эффективного поиска в телекоммуникационных сетях, совершенствование далеко не идеальных систем машинного перевода, обработка неструктурированной информации, развитие образовательных возможностей за счет не только пополнения электронного контента, а путем создания автоматизированных обучающих систем, опирающихся на анализ и принятие решения, - все это требует фундаментальных исследований в области естественного языка.

Степень формализации естественного языка, необходимая для создания программ, не обеспечивается традиционными лингвистическими знаниями.

Объемные базы данных, содержащие электронные словари и морфологические таблицы, в сочетании с методами работы с ними не решили проблему естественно-языкового общения с ЭВМ. Для синтеза и анализа текстов необходимо наличие знаний и правил, которые пока не сформулированы. Попытка от чисто лингвистических моделей перейти к созданию математической модели естественного языка для использования в компьютерных программах не привела к желаемому результату, натолкнувшись на ограничения, характеризующие формальную модель. Поэтому необходимо искать разумное соединение математических и лингвистических моделей для исследования проблем формализации и выявления знаний и правил, пригодных для компьютерной реализации. Компьютерные методы могут помогать обеспечивать верификацию выявленных знаний и правил.

Актуальность темы диссертационного исследования определяется
необходимостью развития теоретических основ и аппарата исследования
лингвистической среды как вида коммуникативного социокультурного
пространства, в котором реализуется общение, для обеспечения процессов
государственного управления и информационного обслуживания населения на
основе комплекса математических средств формализации лингвистических
объектов, а также методов интеллектуального анализа данных,

ориентированных на принятие управленческих решений в социокультурной среде.

Объектом исследования являются лингвистические процессы в информационном обществе.

Предмет исследования: методология формализации и исследования лингвистических объектов на основе моделирования лингвистической среды.

Цель и задачи исследования. Целью диссертации является развитие методологии исследования, включающей комплекс модельных и алгоритмических решений, а также программный инструментарий формализации лингвистической среды информационных ресурсов и генерации процедур для обработки лингвистической информации.

Для достижения поставленной цели необходимо решить следующие задачи:

проанализировать влияние лингвистической среды на развитие информационных процессов современного общества и разработать подходы к моделированию лингвистического обеспечения информационных ресурсов;

разработать методологию проведения лингвистических исследований на основе единообразного подхода к последовательному полному или частичному решению проблем формализации предметной области, в том числе структуризации знаний;

разработать процедуры формирования параметров лингвистических объектов в задачах моделирования языковых систем;

разработать алгоритмы моделирования и принятия решений в задачах анализа и синтеза лингвистических объектов с использованием модели качественного оценивания, ориентированной на учет индивидуальности исследователя в ситуации, когда невозможно реализовать выбор на базе точных расчетов;

осуществить программную реализацию алгоритмов анализа и синтеза для построения средств автоматизации исследования; разработать процедуры интеграции алгоритмической, обучающей и исследовательско-диагностирующей функций на единой методологической основе в рамках задач словообразования;

проанализировать возможности лингвистической среды как средства развития информационных процессов социокультурной системы, для этого провести исследования с использованием разработанных моделей и методов влияния лингвистической среды на информационную, когнитивную, правовую и образовательную составляющие социокультурной системы.

Методы исследования. В работе использованы методы теории нечетких множеств, теории информации, теории вероятностей и математической статистики, математического моделирования, детерминационного анализа, системного анализа; в качестве методологической основы использован метод лингвистического эксперимента.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

методология моделирования лингвистической среды, позволяющая реализовать единый подход к проведению исследований по выявлению и формализации правил формирования лингвистических объектов, основанная на гипотезе о сочетаемости языковых единиц соответствующего уровня иерархии;

процедуры формирования параметров моделирования языковой системы, обеспечивающие интеграцию качественного оценивания сочетаний структурных единиц лингвистических объектов на основе расчета взвешенной интенсивности правил и возможности настройки весовых коэффициентов;

модель словообразовательной системы, пригодная для компьютерной реализации, отличающаяся универсальностью по отношению к этапам моделирования и выбору метода обработки лингвистических средств, характеризующаяся возможностью своего пополнения по мере накопления и анализа информации;

алгоритмические средства выделения ключевых слов, отличающиеся возможностью анализировать лингвистическую среду и выявлять тематически маркированную лексику посредством статистического взвешивания слов по функциональным параметрам и построения семантического пространства с использованием алгоритма Гинзбурга для пользователей информационных ресурсов;

эволюционная модель анализа и синтеза процесса словообразования в едином ключе с разработанной методологией моделирования, отличающаяся способом последовательной фильтрации в виде расширяющейся системы правил, реализующих запреты на определенные сочетания структурных составляющих лингвистических объектов;

энтропийная оценка адекватности словообразовательной модели реальному лингвистическому объекту, позволяющая осуществить поэтапную диагностику процесса словообразования в лингвистической модели;

процедура формирования онтологии на основе моделирования лингвистической среды, обеспечивающая поддержку новых возможностей в автоматизации управления социокультурным развитием и реализацию подходов

к решению задач в области организации эффективного поиска пользователями социальной сферы в Интернет и создания справочно-правовых систем;

процедуры интеграции разработанных моделей и алгоритмов с информационной, когнитивной, образовательной и правовой составляющими социокультурной системы.

Практическая значимость и реализация результатов работы.

В результате диссертационного исследования разработаны математическое, программное и алгоритмическое обеспечение комплекса программных средств моделирования и алгоритмизации лингвистических исследований, в том числе и программный инструментарий для поддержки обучения различных групп пользователей, использующий в качестве методологической основы метод лингвистического эксперимента.

Результаты работы внедрены и используются при проведении исследований в Научно-методическом центре компьютерной лингвистики ФГБОУ ВПО «ВГУ», в учебном процессе ФГБОУ ВПО «ВГУ», при разработке программного обеспечения в ЗАО НПП «РЕЛЭКС», при организации научно-исследовательской работы для обработки лингвистической информации и в учебном процессе кафедры информационных систем экономического факультета Санкт-Петербургского государственного университета, в учебном процессе ФГБОУ ВПО «Московский государственный технический университет им. Н.Э. Баумана».

В Государственном фонде алгоритмов и программ РФ зарегистрированы 5 программных продуктов и 7 - в Государственном информационном фонде неопубликованных документов ФГНУ «Центр информационных технологий и систем органов исполнительной власти».

Результаты исследования могут быть использованы при разработке лингвистического и программного обеспечения информационных систем и процессов нового поколения.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на 17 международных, 11 Всероссийских и 3 региональных конференциях, среди которых Всероссийской научно-методическая конференция «Компьютерные технологии в высшем образовании» (Санкт-Петербург, 1994), Межвузовская науч.-метод, конференция «Фундаментальные и специальные дисциплины в системе университетской образовательно-профессиональной подготовки филологов и журналистов» (Ростов, 1994), 2-я Международная конференция по квантитативной лингвистике «Qualico-94» (Москва, 1994), Международная конференция «Лингвистика на исходе 20 века» (Москва, 1995), Всероссийская научная конференция «Русский язык: прошлое, настоящее, будущее» (Саратов, Сыктывкар, 1996), Всероссийское совещание-семинар «Математическое обеспечение информационных технологий в технике, образовании и медицине» (Воронеж, 1997), Всероссийская научно-практическая конференция «Новые информационные технологии в образовании» (Воронеж, 1997), Всероссийское совещание-семинар «Высокие технологии в региональной информатике» (Воронеж, 1998), Всероссийская научно-практическая конференция «Черноземье-98» (Воронеж: ВОИПКРО, ВГПУ, 1998), Всероссийская конференция «Интеллектуальные информационные системы», (Воронеж, 1999),

Международная научная конференция «Проблемы и перспективы интеграции высшей школы России в мировую систему образования и науки» (Воронеж, 2001), Международный конгресс исследователей русского языка «Русский язык: исторические судьбы и современность» (Москва, МГУ, 2001), Международная конференции «Диалог 2003» (Москва, 2003), Международной научно-методической конференция «Информатика: проблемы, методология, технологии» (Воронеж 2006-2013), Воронежская межвузовская науч.-практ. конференция «Формирование и самоформирование профессиональной ментальности студентов в педагогическом процессе вуза» (Воронеж, 2009), Международная конференция «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж, 2009), Международная научная конференция «Проблемы компьютерной лингвистики» (Воронеж, 2007, 2009, 2011), Всероссийская научно-техническая конференция «Перспективные исследования и разработки в области информационных технологий и связи» (Воронежский межрегиональный форум инфокоммуникационных технологий 2012).

Публикации. По теме диссертации опубликовано 67 работ, 18 из которых в изданиях, рекомендованных ВАК, две монографии.

Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, пяти приложений, списка литературы из 375 наименований и 72 юридических источников. Основная часть работы изложена на 298 страницах, содержит 59 рисунков и 21 таблицу.

Соответствие паспорту специальности. Область исследования и полученные результаты соответствуют п.п. 1,2,4,5,6,12 паспорта специальности 05.13.17 - Теоретические основы информатики.

Язык как сложная подсистема социокультурной системы

Все зафиксированные знания об окружающем мире содержатся в текстах и извлекаются из текстов. Язык - средство создания текста, средство превращения информации в текст и извлечения информации из текста.

Текст, с одной стороны, является высшим уровнем языка, с другой стороны, представляет собой одну из форм культуры, созданной с помощью языка. [146]. Ю.М. Лотман [188] полагает, что культура в целом может рассматриваться как сложноорганизованный текст. В то же время языковая картина мира выводится из текста (дискурса, коммуникативного поведения), а текст выступает как цель и средство исследования культуры, как способ проникнуть в ее сущность [40]. В сфере социальной коммуникации осуществляется трансляция опыта. Оперируя текстами по нормам коммуникации, присущим определенной культуре, субъект присваивает («распредмечивает») этот опыт, внедряет его в собственное сознание. Тем самым он понимает текст. Понимать таким образом - это всегда означает с кем-то коммутировать. Культура есть совокупность текстов, пребывающих в непрерывном диалоге [289, с. 89-104]. В то же время, культура может рассматриваться как совокупность всех языков (знаковых систем), выработанных человечеством и всегда существует в материальной форме (языки), которая идеально воплощает в себе сущность человека и социума [224, с. 101].

При своем создании текст является принадлежностью индивида. Чтобы текст вошел в культуру, его должен освоить социум. Основным способом такого коллективного присвоения служит многократная интерпретация текста. Так как большая часть информации социума хранится в текстах, то можно считать их универсальным средством существования культуры.

Текст и культура имеют ряд общих признаков и черт [40], таких, например как ситуативность, одновременная и дискретность, и континуальность. потребность в интерпретации, одновременное присутствие субъективного и объективного, консервативного и новаторского.

Согласно Ю.М. Лотману [187], текст первичен по отношению к языку. Лотман показал, что, эволюционируя и вбирая в свою структуру различные языки культуры, переструктурированный текст приобретает «память» и способность генерировать новые смыслы. Мы сталкиваемся с ситуацией, когда текст дается раньше, чем язык, и последний «вычитывается» из текста, что является необходимым условием его понимания. Текст как явление культуры воспроизводим (посредством многократного пересказа и варьирования, либо строгого повторения и тиражирования). Концептуальные взаимосвязи язык - текст - культура -социум - управление представлены на рис. 1.2. Явно прослеживаемые цепочки: социум - язык - текст; текст - язык - информация - социум; социум - культура - текст - язык - информация - управление -социум. Культура - часть социума, порождается социумом. Культурная информация концентрируется в текстах. Из текстов с помощью языка извлекается информация, возвращается в социум, а из социума - в культуру.

Согласно [143], в основе жизнедеятельности социальных систем лежит принцип необходимости собственной безопасности, связанный с потребностями системы и ее элементов в выживании и прогрессивном развитии. Его содержанием является сознательная деятельность людей, направленная на снижение дезорганизующего влияния внешней и внутренней среды. Подсистема культуры обеспечивает функцию интеграции (поддержание гармонического, бесконфликтного отношения между элементами системы), объединяя в себе духовную жизнь, правовые институты и обычаи. Модель безопасности в сфере культуры составляют модели защиты духовных, исторических ценностей, науки, техники и государственного языка. Государственное регулирование языка разбивается на две части: языковую политику и языковое строительство [17]. Языковую политику формируют политические цели соответствующих политических институтов. Языковое строительство является частью языковой политики и является комплексом конкретных мероприятий на общегосударственном и региональном уровне. К таким мероприятиям, в частности, относится разработка национальных программ обучения языку на всех уровнях образовательной системы, создание нормативных словарей и грамматик, формирование и фиксация норм литературного языка, разработка и введение алфавитов, нормирование языка средств массовой информации и т.д.

Известно, что одним из основных условий развития человека как личности является общение с другими людьми в процессе трудовой, информационной и коммуникативной деятельности. Появление новых средств общения связано с тем, что на каком-то этапе общественного развития старые способы перестают удовлетворять потребностям общественного сознания [3].

Историческое развитие культуры характеризуется последовательным расширением возможностей связи между людьми [218]. Сегодня - это гигантские возможности систем массовой коммуникации, основанных на полиграфии, радио, телевидении, компьютерах, телекоммуникационных сетях и т.д. По мнению А.Н. Баранова [17, с. 333], ключевые слова, характеризующие новейшие области практической жизни человечества, -это термины «компьютерные технологии», «коммуникации», «общество». Примером объединения этих концептов является Интернет как проявление новой информационной среды. С эксплуатацией и развитием Интернета связаны гипертекстовые технологии. Однако, без привлечения фундаментальных знаний о языковой системе невозможна успешная разработка программ-оболочек гипертекста, а также создание удобного эргономичного пользовательского интерфейса.

Интуитивно-оптимизационное оценивание

Появление языка знаменовало собой не только появление более совершенного способа общения между людьми. Оно одновременно способствовало появлению качественно новой формы мышления, абстрактного словесного (вербального) мышления.

Знаковый характер человеческого языка составляет одну из его универсальных черт и основных особенностей. Под знаковым аспектом естественного языка понимают, в первую очередь, соотнесенность языковых элементов (морфем, слов, словосочетаний, предложений и др.) в той или иной форме и степени опосредованности с внеязыковым рядом явлений, предметов и ситуаций объективной действительности.

К знаковой функции языковых единиц относят их свойство обобщенно выражать результаты познавательной деятельности человека, закреплять и хранить итоги его общественно-исторического опыта.

Под знаковый аспект языка подводят, наконец, способность языковых элементов, в силу закрепившихся за ними значений, нести определенную информацию, выполнять различные коммуникативные и экспрессивные функции в процессе общения. Следовательно, термин «знаковый», как и синонимичный с ним термин «семиотический», -многозначен, в него вкладывается разное содержание и, применительно к естественному языку, он может быть отнесен к четырем разным функциям языковых элементов: функции обозначения (репрезентативной), обобщающей (гносеологической), коммуникативной и прагматической. Непосредственная связь языка с мышлением, с механизмом и логикой познания, уникальное свойство человеческого языка служить универсальной системой обозначения всего многообразия объективного мира - все это сделало знаковый аспект языка предметом изучения разных наук (философии, семиотики, логики, психологии, языкознания и др.), в силу общности объекта не всегда четко между собой разграниченных [223].

Язык - семиотическая система с иерархической структурой. Эта система нуждается в изучении и формализации, что и делает разработку, реализацию и унификацию подходов и методов ее познания крайне актуальной. Под унификацией понимается применение для изучения каждого уровня одной и той же совокупности методов.

Язык неотделим от человеческого общества и является консолидирующим фактором для социума.

Язык мыслится как важнейший инструмент осуществления рационального поведения человека, в связи с чем устройство языка в известной степени предопределено устройством сознания, и в то же время моделирование сознания в известной степени может осуществляться с использованием языковых свидетельств [209].

Язык и общество неразрывно связаны и представляют собой единое целое. Язык - это явление общественное. Общество без языкового общения немыслимо и оказалось бы недееспособным. Языковая деятельность человека есть неотъемлемая форма выражения его сущности, предпосылка и часть человека как общественного существа.

В человеческой жизни вряд ли есть что-нибудь такое, что не имело бы отношения к языку. Поэтому использование языка имеет универсальный характер. Между носителями языка и социально-экономическими, историческими и культурными условиями жизни существует взаимная зависимость в том смысле, что хотя язык и формируется его носителями, эти процессы всегда обусловлены конкретной социально-экономической, исторической и культурной ситуациями [319].

Общение (коммуникация) - сложное явление, включающее в себя множество различных компонентов. Общение есть момент, сторона любого человеческого действия, способ организации человеческой деятельности и отношений. В реальных ситуациях человеческой жизнедеятельности общение выступает в самых различных модификациях: сообщение, воздействие, понимание, достижение общности, внушение, убеждение, принуждение, языковой барьер, коммуникабельность и пр. Основное предназначение коммуникативных процессов - обеспечение взаимного обмена человеческой информацией в целях организации деятельности и отношений в обществе [2].

Но по мере развития общества все более значимую роль играют электронные способы социальной коммуникации, что привело к появлению новых способов фиксации и распространения знаний, доступных огромному числу пользователей. Язык человека является системой кодов, достаточной для того, чтобы передать, обозначить любую информацию даже вне всякого практического действия [189]. Уровень обеспечения коммуникации будет прямо зависеть от степени приближения языка общения к естественному.

Связи и отношения между людьми - коммуникация в самом широком смысле - во многом поддерживаются или вообще делаются возможными с помощью такого инструмента и средства как язык.

Язык может рассматриваться как результат и в то же время как составная часть совокупного общественного развития, которое в определенной степени отражает этот язык, стимулирует в нем изменения. Новые потребности общения требуют новых форм языкового выражения, тогда как формы, утратившие адекватность (архаизмы), в конце концов удаляются из языка [128]. В контексте вышесказанного можно говорить о степени обновляемости языка.

Алгоритмическое обеспечение синтеза в задачах словообразования

Интернет - универсальная платформа для сращивания различных видов контента, инструмент получения информации. С помощью Интернет государство и бизнес через виртуальную среду могут решать и выполнять большой ряд социальных задач на новом качественном уровне, например, оказывать государственные и негосударственные массовые и индивидуальные услуги; повышать эффективность государственного и негосударственного управления; проводить опросы, выборы, референдумы и реализовывать иные механизмы осуществления публичного волеизъявления граждан и их избирательных прав; осуществлять общественный контроль деятельности органов государственной власти и публичных должностных лиц; обеспечивать государственную, общественную и информационную безопасность. Кроме того, может быть установлен единообразный порядок обмена электронными документами и признания их юридической силы на всех уровнях государственного управления и при их взаимодействии с хозяйствующими субъектами, гражданами и населением. Общественные и некоммерческие организации, иные субъекты, в том числе и физические лица могут вести деятельность по строительству социальных сетей и оказанию массовых и адресных услуг гражданами и населению посредством виртуальной среды на возмездной или безвозмездной основе.

Пример высокой социальной эффективности использования ИТ -организация на их основе процессов массового обслуживания населения в финансовых учреждениях, на предприятиях торговли, транспорта, медучреждениях. Это создает более высокое качество жизни за счет экономии социального времени на реализацию массовых социальных процессов.

Согласно докладу «Новая информационно-коммуникационная среда. Состояние, проблемы, вызовы. Попытка осмысления», подготовленному на основе мнений, высказанных широким кругом экспертов, представляющих основных игроков на медийно-коммуникационном поле, при поддержке руководства Министерства связи и массовых коммуникаций, в новой информационно-коммуникационной среде неизбежно возникает своего рода параллельное общество, которое воспроизводит в виртуальной среде все то, что было создано в среде реальной - торговлю, средства массовой информации, те или иные сообщества. В перспективе, по мере пропадания эффекта новизны, оба общества сольются и прекратят себя противопоставлять друг другу. Указанное параллельное общество не будет противопоставлять себя реальному. Эксперты выражают уверенность в том, что постиндустриальное общество потребления трансформируется в информационно-сетевое. Эксперты высказываются о возможности развития какой-либо системы мультиязычной коммуникации. И хотя нет намеков на развитие какого-либо общего для всего мира языка, есть основания предполагать, что машинный перевод сильно упростит общение.

В системном проекте на создание и эксплуатацию инфраструктуры электронного правительства отмечено, что процедуры, которые могут быть обработаны в автоматическом режиме без участия государственного служащего, выполняются в автоматическом режиме с немедленным предоставлением результатов или переходом к следующей процедуре предоставления услуги. Те процедуры в рамках предоставления государственных услуг, которые могут быть выполнены без привлечения оператора (государственного служащего), должны выполняться в автоматическом режиме. Следует разработать перечень рутинных процедур, которые при разработке информационных систем, используемых при предоставлении государственных услуг, должны осуществляться в автоматическом режиме. Сюда можно отнести такие процедуры как регистрация заявки получателя услуги, проверка заполнения форм, контроль за полнотой состава представленных документов и др. Следует учесть в перечне наиболее распространенные процедуры, а также уровень развития информационных технологий, которые могут быть использованы при автоматизации рутинных процедур (в т.ч. технологий распознавания графических изображений и технологий лингвистического анализа).

Среда электронного взаимодействия должна обеспечить эффективное совместное функционирование органов власти, органов местного самоуправления, хозяйствующих субъектов (бизнеса) и населения. Результатом декомпозиции государственных функций межведомственного взаимодействия могут стать перечни государственных публичных услуг, государственных административных услуг, процессов, функций, процедур[254]

Услуга направлена удовлетворение потребителя, которое может быть оценено как количественно, так и качественно.

В решении вопросов электронного взаимодействия техническая и алгоритмическая (программная} составляющая информационных систем далеко не в полной мере отвечают за успех создания единой системы электронного взаимодействия. Большую долю определяет содержательная составляющая, в значительной степени представляемая семантическим, информационным и лингвистическим обеспечением, которая может складываться из семантической интероперабельности, инструментариев онтологии, естественно-языкового интерфейса и других компонентов, например, экспертной системы.

Компьютерное моделирование словообразовательных сетей

Рассматривая слово как знак, мы тем самым подразумеваем наличие в нем двух составляющих: означающего и означаемого. Означающее - это материальная оболочка, план выражения слова. Означаемое - это план содержания, значение слова. Означающее называют лексемой, а означаемое (одно из значений слова) - семемой. В работе речь идет о синтезе лексем. К синтезу осмысленных оболочек слова мы идем формальным путем.

Сначала мы работаем с отрицательным материалом. Под отрицательным материалом понимается последовательность морфем, не являющаяся словом. Базой для синтеза отрицательного материала является инвентарь морфем. Синтез происходит по выбранной исследователем формуле. Наполнение составляющих формулы происходит двумя путями. Первый способ заключается в полном переборе имеющихся морфем, что подразумевает рассмотрение всех возможных комбинаций морфем при заданном способе их сочетания. Второй способ связан с заполнением составляющих формулы случайным образом.

Любая отрицательная последовательность морфем заключает в себе проблему, почему она не является словом. Ответ на такой вопрос предполагает выход к новому знанию.

Можно задавать направление процесса синтеза. Для этого предусмотрена возможность фиксации отдельных составляющих формулы. Кроме того, имеющееся в наличии множество морфем может сужаться. Сужение исходного множества может происходить прямым выбором и выделением активных морфем, а также заданием списка активных морфем с помощью маски.

Поиск ответа на вопрос о том, почему не всякую последовательность морфем можно считать словом, приводит к формулировке правила. Правило формулируется в форме запрета по формуле ЕСЛИ ... ТО. Программная реализация запретов на сочетаемость морфем приводит к созданию языковых фильтров.

Последовательность морфем, пропущенная первым фильтром, является положительным материалом с точки зрения данного фильтра, но с точки зрения осмысленности этих последовательностей морфем они могут относиться как к положительному, так и к отрицательному материалу, причем отрицательный материал преобладает. Анализ этого отрицательного материала (назовем его отрицательным материалом второй степени) приводит к формулировке нового правила (системы правил) и, соответственно, к созданию нового фильтра. Процесс (в идеале) продолжается до тех пор, пока созданная таким образом иерархия фильтров не начинает порождать только осмысленные последовательности морфем.

Известно, что во всяком языке накоплена информация, создающая в чередовании звуков и букв определенный сложный порядок. Такой же порядок, очевидным образом, существует и при чередовании более крупных языковых единиц - морфем. Этот порядок приводит к порождению осмысленного слова. При произвольном соединении морфем друг с другом велика степень неопределенности. Можно сказать, что процесс словообразования в этом случае носит хаотический характер. Таким образом, появление порядка - результат ограничений и условий, накладываемых на процесс порождения слова. В работе предлагается программный комплекс, который может выступать в роли инструмента для выявления таких закономерностей.

Математическое подтверждение возрастания порядка можно найти, применив энтропийную модель для дискретного источника информации.

Действительно, выявим тот смысл, который приобретает известная формула вычисления энтропии Я = - ,. log А. (3.2) в применении к диагностике процесса словообразования. Рассмотрим первоначальную ситуацию, когда известна предельная формула слова (3.1) и морфемы подставляются в эту формулу безо всяких ограничений. В этой ситуации можно вести речь об энтропии нескольких независимых дискретных источников, и формула для ее вычисления примет следующий вид: Н(п3П2ПіКСіС2СзС4С5С6ф) = Н(п3)+ Н(п2)+ Н(П,) + Н(к) + Н(С]) + ... + Н(с6)+Н(ф) (3.3) При этом, если предположить равную вероятность употребления каждой морфемы при генерации слова (то есть вероятность употребления для каждой морфемы соответствующего класса будет равна у,, где к количество морфем данного класса), мы получим максимальную энтропию.

Первым шагом к уменьшению энтропии может стать предположение о том, что каждая морфема имеет свою частоту употребления и, следовательно, характеризуется собственной вероятностью появления. Известно, что одни морфемы являются более употребительными, другие -менее. Не случайно, например, мы говорим о перечне наиболее употребительных корней русского языка [221].

Таким образом, можно иметь дело с ансамблями следующего вида: и ( и\ и2 - Щ ... U„ Л УР{щ) р{и2) - Р{щ) Р(ип\ 147 где ui - морфема из заданного инвентаря, a p(uj) - вероятность ее появления. При этом 2 (",) = 1- (3.4) 1=1 Напомним, что (3.1) является предельной формулой русского слова. Известно, что по мере нарастания количества компонентов формулы резко уменьшается количество реально существующих слов русского языка (Р.Г.Пиотровский, 240, табл. 3.1). Делаем предположение, что разным типам формул слова соответствуют разные вероятности встречаемости в текстах. Данное предположение подтверждается отчасти тем, что в приложении к [179] приводятся наиболее продуктивные модели русских слов. Например, самой продуктивной моделью можно считать (согласно [179]) формулу К-Ф, затем идут формулы К-Сі-Ф и ПрК-СрФ- Однако ограничимся лишь предположением и не будем учитывать в дальнейшем это обстоятельство. Тем не менее, любопытно привести информацию (согласно [240]), касающуюся появления в тексте слов различной морфемной длины (табл. 3.1).

Похожие диссертации на Структурный анализ и компьютерное моделирование лингвистической среды информационных ресурсов