Интегрированная информационно-аналитическая система для социологических исследований Васильев Иван Владимирович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Васильев Иван Владимирович. Интегрированная информационно-аналитическая система для социологических исследований : Дис. ... канд. техн. наук : 05.13.18 : Иркутск, 2004 141 c. РГБ ОД, 61:05-5/862

Содержание к диссертации

Введение

1. Проблема создания программного обеспечения нового поколения для анализа результатов социологических исследований 13

1.1. Качественные и количественные подходы в социологии 13

1.2. Вторичные социологические исследования 17

1.3. Анализ тенденций к применению программного обеспечения для анализа результатов социологических опросов 19

1.3.1. Существующие тенденции к построению программного обеспечения для социологов 19

1.3.2. Классификация систем поддержки принятия решений 20

1.3.3. Сравнительный анализ существующих программных продуктов точки зрения классификации СППР 23

1.3.4. Перспективы создания специализированного программного обеспечения для анализа результатов социологических исследований 26

1.4. Выводы по главе и постановка задачи диссертационной работы 28

2. Технология проведения социологических исследований, выбор и обоснование методов и инструментальных средств исследований 30

2.1. Возможность применения методов Data Mining к результатам социологических исследований 30

2.1.1. Интеллектуальный анализ данных 30

2.1..2. Применение алгоритмов Data Mining для поиска закономерностей в результатах социологических исследований 32

2.2. Применение эвристических методов для уменьшения комбинаторной сложности задачи поиска статистически связанных значений неальтернативных переменных 42

2.2.1. Классификация переменных 42

2.2.2. Методы анализа неальтернативных переменных 46

2.2.3. Применение эвристических методов при поиске статистически связанных переменных 49

2.3. Применение алгоритма НІС АР для поиска закономерностей в статистических данных 52

2.4. Детерминационный анализ 54

2.5. Конечно-автоматные модели в системах интеллектуального анализа данных 55

2.6. Создание межуниверситетских хранилищ данных с использованием стандарта описания метаданных DDI 58

2.7. Применение стратифицированных фрактальных моделей для моделирования информационных объектов 59

3. Предлагаемый методический подход к построению интегрированной информационно-аналитической системы ИНИАС 63

3.1. Методика проведения ИАД 63

3.2. Методика снижения комбинаторной сложности ИАД 65

3.3. Методика создания хранилища данных 65

3.4. Методика объектного моделирования данных и знаний. 67

3.4.1. Методика моделирования информационных объектов 67

3.4.2. Использование ФС моделей для разработки информационных объектов, описывающих структуру социологических опросов 69

3.4.3. Использование ФС-моделей для проектирования объектных представлений статистически связанных вопросов в ХД 71

3.4.4. Применение фрактального подхода к проектированию объектов — «Идентификаторов» блоков данных 74

3.5. Методика проектирования ИНИАС 75

3.5.1. Объектное проектирование программного комплекса 75

3.5.2. Системно-концептуальные соглашения 77

3.5.3. Обоснование применения объектной СУБД для реализации хранилища данных 79

3.5.4. Разработка архитектуры ИНИАС 83

4. Разработка и применение ИНИАС 86

4.1. Проектирование ИНИАС 86

4.1.1. Анализ основных прецедентов использования информационной системы 86

4.1.2. Проектирование хранилища данных 91

4.1.3. Проектирование клиентской и серверной частей ИНИАС 93

4.2. Реализация ИНИАС 95

4.3. Технология проведения социологического исследования с применением ИНИАС 103

Заключение 108

5. Литература 109

6. Приложения

Перспективы создания специализированного программного обеспечения для анализа результатов социологических исследований
Применение алгоритмов Data Mining для поиска закономерностей в результатах социологических исследований
Использование ФС моделей для разработки информационных объектов, описывающих структуру социологических опросов
Проектирование клиентской и серверной частей ИНИАС

Введение к работе

Актуальность работы. Актуальность выполненной работы определяется двумя основными факторами. Первый - возросшая значимость социального мониторинга для определения отношения населения к региональной и федеральной политике и изучения проблематики, присущей тем или иным районам для обеспечения повышения эффективности принятия управленческих решений. Второй фактор связан с темпами развития информационных технологий и необходимостью создания эффективно масштабируемого программного обеспечения (ПО), способного обеспечить специалиста предметной области возможностями для решения широкого спектра исследовательских задач, реализовать эффективное хранение и представление результатов исследований.

Все это требует рассмотрения концептуальных решений, связанных с организацией распределенных вычислений и сетевым доступом к данным и приложениям. Учитывая, что программные инструментальные средства социологических исследований рассматриваются как один из прототипов системы поддержки принятия решений по обеспечению управленческих решений, это предъявляет к ним повышенные требования и обуславливает актуальность их разработки на современном уровне информационных технологий.

При разработке ПО использованы современные методы моделирования, предложенные в работах Г.Буча, И, Якобсона, Дж. Румбау, Э. Гаммы, являющиеся основой применения объектно-ориентированного подхода. Применен метод моделирования объектного представления знаний, предложенный Л.В. Массель. При создании хранилища данных (ХД) были изучены реляционные и объектные концепции СУБД, разработанные К.Дейтом, Е. Коддом, Л. Калини-ченко, А.А. Сахаровым. В части, описывающей применение интеллектуального анализа данных (ИАД), автор опирался на работы Л.В. Щавелева, Л.Н. Столярова.

Специфика социологических исследований определяет сложность создания специализированного программного обеспечения. С одной стороны, это

появляющиеся со временем новые математические методы, модели, подходы, применение которых может перевести исследования на качественно иной уровень, дать новые результаты по сравнению со старыми методами исследований. С другой стороны, это лавинообразное появление новых информационных технологий (ИТ), оказывающих серьезное влияние на методы проведения научных исследований. Это влияние выражается в том, что применение новых ИТ предоставляет новые возможности в проведении исследований, а именно, формулирование и решение новых задач, которые невозможно было бы решить без использования этих технологий. Методические основы применения методов анализа в социологии были заложены в работах В.А. Ядова, Д.Г. Ротмана, Г.Г. Татаровой, СВ. Чеснокова и др.

Изменения в процессе исследований требуют адекватной инструментальной поддержки и, соответственно, изменений в инструментальных средствах, т.е. гибкость информационной системы является залогом успешного проведения исследований. Необходимость разработки ПО, которое отвечало бы этому требованию, и одновременно сложность его реализации, с учетом уровня современных информационных технологий и большого разнообразия базовых инструментальных средств, требует выполнения специального исследования, что подчеркивает актуальность данной работы.

Целью данной работы является повышение эффективности проведения социологических исследований, обеспечиваемое разработкой:

методического подхода и программных инструментальных средств (интегрированной информационно-аналитической системы) для социологических исследований, отвечающих современным требованиям к программным комплексам нового поколения;

технологии проведения социологических исследований с использованием новых инструментальных средств.

Для достижения этой цели необходимо решить следующие задачи: 1. Выполнить анализ тенденций развития архитектуры современных прикладных программных систем и выбрать, по результатам анализа, базовые техно-

логии для интеграции разнородных компонентов в рамках интегрированной информационно-аналитической системы (ИНИАС), включающей региональное хранилище результатов социологических исследований.

Сформулировать требования к функциональности ИНИАС и системно-концептуальные соглашения, принимаемые при ее разработке.
Разработать архитектуру ИНИАС и методику ее программной реализации, отвечающей требованиям к программным комплексам нового поколения.
Разработать методику интеллектуального анализа результатов социологических исследований и методику создания хранилищ данных и знаний в рамках ИНИАС.
Разработать технологию проведения социологических исследований с применением ИНИАС.

Методами и средствами исследования являются: методические основы проведения социологических исследований, методы системного и прикладного программирования, методы объектного подхода (анализ, проектирование, программирование), методы теории искусственного интеллекта (продукционные модели представления знаний, интеллектуальный анализ данных).

Новизну работы составляют следующие положения: 1. Впервые обоснована необходимость использования для социологических исследований методов интеллектуального анализа данных (Data Mining) и хранилищ данных (DataWare House), для хранения как данных, так и знаний, в рамках интегрированной информационно-аналитической системы, разработанной в соответствии с требованиями к программным комплексам нового поколения, основными из которых являются:

многослойная архитектура, предусматривающая использование серверов приложений и серверов баз данных;

ориентация на работу в вычислительных сетях (как локальных, так и глобальных);

свойство расширяемости программного обеспечения в его современной трактовке.

2. Предложен методический подход к построению программных комплексов нового поколения для исследований в социологии, включающий:

методику интеллектуального анализа результатов социологических исследований, интегрирующую совокупность методов (анализ неальтернативных переменных, статистические методы, снижение комбинаторной сложности алгоритмов ИАД, детерминационный анализ, Аристотелевы силлогизмы) в рамках ИНИАС;

методику создания хранилища данных, как основного компонента ИНИАС, для хранения в объектном представлении как данных, так и знаний;

методические рекомендации по объектному моделированию данных и знаний с использованием унифицированного языка моделирования UML;

клиент-серверную архитектуру интегрированной информационно-аналитической системы и ее компонентов и объектные модели программ, в соответствии с которыми выполнена реализация ИНИАС;

выбор и рекомендации по применению базовых технологий, создающих предпосылки для перехода к работе с информационной системой через Internet;

На защиту выносятся:

методика создания хранилища данных в рамках ИНИАС;

методика интеллектуального анализа результатов социологических исследований с использованием ИНИАС;

архитектура интегрированной информационно-аналитической системы и ее компонентов;

интегрированная информационно-аналитическая система, обеспечивающая использование хранилища данных для хранения как данных, так и знаний и применение, в рамках ИНИАС, методов интеллектуального анализа данных;

технология проведения социологических исследований с применением ИНИАС.

Практическая значимость работы заключается в использовании предложенного подхода и методик для разработки интегрированной информационно-аналитической системы ИНИАС и технологии проведения социологических исследований, а также в применении разработанных системы и технологии для \у обработки результатов социологических опросов, проводимых Региональным информационным аналитическим центром в Иркутском области и Усть-Ордынском бурятском автономном округе.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на конференции Главного Управления Информационных Систем ФАПСИ, посвященной 30-летию начала работ по созданию информационно-вычислительной системы по управлению страной в кризисных ситуациях (Москва, 2002 г.), на Всероссийских с международным участием конференциях: «Информационные и телекоммуникационные технологии в науке и образовании Восточной Сибири» (Иркутск, 2001 г.), «Информационные технологии в энергетике, экономике, экологии» (Иркутск, 2002 г.), «Математические и информационные технологии в энергетике, экономике, экологии» (Иркутск, 2003 г.), «Информационные и математические технологии» (Иркутск, 2004 г.).

Публикации. По теме диссертации опубликовано шесть работ в т.ч. две — в издании, рекомендованном ВАК.

В первой главе раскрывается суть исследуемой проблемы. Рассматриваются подходы и методы, используемые в социологии, анализируется специфика создания программного обеспечения для социологических исследований. Определяются факторы, определяющие сложность создания ПО в данной предметной области, и факторы, требующие, чтобы ПО обладало возможностью интеллектуального анализа данных. В выводах к главе обосновывается необходимость разработки методического подхода к созданию интегрированной информационно-аналитической системы, ориентированной на интеллектуальный анализ данных. На основании выводов данной главы формулируются задачи диссертационной работы.

Вторая глава посвящена анализу методов, выбранных или разработанных автором для реализации в ИНИАС, и базовых технологий, на основе которых предполагается ее разработка. Рассматривается предлагаемая автором технология социологических исследований, включающая совокупность методов, способов и приемов проведения исследований. Внимание уделено описанию статистических методов, традиционно применяемых при работе с результатами социологических исследований. Перечислены методы Data Mining, способствующие автоматизации статистических методов, описаны некоторые приемы, уменьшающие комбинаторную сложность статистических методов, применяемых при анализе результатов социологических исследований. Кроме того, вторая глава содержит обоснование идеи создания хранилища данных, предназначенного для хранения как данных, так и знаний (результатов анализа данных).

Третья глава содержит описание предлагаемого автором методического подхода, в соответствии с которым выполнены проектирование и реализация ИНИАС. Подход включает совокупность методик, использованных при разработке ИНИАС. Центральной является методика интеллектуального анализа результатов социологических исследований, интегрирующая в рамках ИНИАС совокупность методов, подробно описанных во второй главе (анализ неальтернативных переменных, статистические методы, снижение комбинаторной сложности алгоритмов ИАД, детерминационный анализ, Аристотелевы силлогизмы).

Важным компонентом ИНИАС является хранилище данных и знаний. Предложена методика его разработки, включающая подготовку и преобразование данных для формирования хранилища данных, а также методические рекомендации по объектному моделированию информационных объектов (данных и знаний) с использованием ФС-моделей.

В последней части главы описываются этапы проектирования ИНИАС, системно-концептуальные соглашения, обоснование использования объектной СУБД для реализации хранилища данных и предлагаемая автором клиент-серверная архитектура ИНИАС.

Четвертая глава посвящена описанию процесса разработки информационной системы в соответствии с методикой, изложенной в третьей главе. Приводятся выполненные с помощью унифицированного языка моделирования UML основные модели (диаграммы), в соответствии с которыми была выполнена реализация РЇНИАС. Описана реализация ИНИАС, приведены примеры интерфейсов. Приведена технология проведения социологического исследования с использованием системы ИНИАС.

В заключении приведены основные результаты, полученные при выполнении данной работы.

Автор благодарит своего научного руководителя, д.т.н. Массель Л.В., а также сотрудников возглавляемой ею лаборатории "Информационные технологии в энергетике" ИСЭМ СО РАН, обсуждения с которыми концептуальных решений и результатов работы были очень полезны для автора. Кроме того, автор благодарен своим коллегам по работе за понимание и терпение, проявленные по отношению к нему в процессе выполнения диссертационной работы. Автор выражает также благодарность д.т.н. Новорусскому В.В., под руководством которого автор начинал свою научную деятельность, за ценные критические замечания в ходе обсуждения работы.

Перспективы создания специализированного программного обеспечения для анализа результатов социологических исследований

Современный уровень развития вычислительной техники и программного обеспечения сделал возможным ведение баз данных практически на всех уровнях управления. За десятилетия в промышленных предприятиях и органах государственной власти были собраны гигабайты информации. Помимо своего прямого назначения эти данные могут быть полезны для проведения сложного комплексного анализа. Возникшую в связи с этим нишу программного обеспечения (ПО) наполнили разработки таких гигантов информационной индустрии, как Microsoft, Oracle, Informix, SPSS, SAS. Интересные возможности применительно к сравнительно небольшим хранилищам данных предоставляют отечественные программные продукты, предлагаемые компаниями StatSoft [1] и BaseGroup [2]. Отличительной чертой, позволяющей выделить упомянутые продукты в отдельный класс ПО, является наличие мощного набора статистических функций, удобных инструментов для визуализации информации и возможности применения методов интеллектуального анализа данных (ИАД).

Вместе с этим наблюдается общий интерес к возможностям применения современных информационных технологий для изучения процессов, происходящих в обществе, и изучаемым специалистами гуманитарных дисциплин: социологами, политологами, психологами. В различных научных изданиях появляется большое количество публикаций, предлагающих интересные методики социальных исследований, позволяющих по результатам проводимых социальных измерений оценивать текущие настроения респондентов, строить определенные прогнозы, основываясь на изучении накопленной статистики, с применением современных аналитических программных продуктов.

В настоящее время существует своеобразное разделение методов, применимых в социальных науках, на качественные и количественные.

Описанные в последующих главах приемы анализа данных по большей части относятся к так называемым «жестким» методам [3]. Их теоретико-методологическая основа - представление об обществе как системно организованной целостности и способности научного знания рационально упорядочить и логически объяснить объективную реальность, построить достаточно стройную теорию этой целостности. В середине прошлого века в западной социологии использование «жестких» количественных методов достигло своего апогея. По некоторым подсчетам, до 90 процентов публикаций в ведущих социологических журналах опирались на количественные методы анализа.

Математическая модель [4] - это упрощенный вариант действительности, используемый для изучения ее ключевых свойств. «Модель это упрощенная картина реальности. Она обладает некоторыми, но не всеми свойствами реального мира. Она представляет множество взаимосвязанных предположений о мире. Как и любая картина, модель проще тех явлений, которые она по замыслу отображает или объясняет».

За прошедшие столетия математика стала широко использоваться в социальных науках и ныне применяется практически во всех разделах политологии. Первой из социальных наук в математическое моделирование оказалась вовлеченной экономическая наука. В ней переход от словесных выражений к математическим был облегчен тем, что основной предмет ее интересов - деньги -уже изначально описывался с помощью чисел, а потому переход от счетоводства к математической экономической теории совершился почти без труда. Примерно тогда же психология позаимствовала некоторые методы из биологии, которая, в свою очередь, переняла их у математической физики и химии. Таким образом, психология довольно рано стала пользоваться формальными методами для изучения особенностей поведения людей.

Политология шла по следам этих двух научных дисциплин, постепенно развиваясь в сторону количественных методик на протяжении 50 - 60х годов XX века. Ныне - если судить по тексту вводных курсов математического моделирования - по широте использования моделей социального поведения она уступает только экономике. Таблица 1.1.

В классической социологии жизнь индивидуумов - это проявление на-диндивидуальных, от них независящих общесоциальных законов. Индивид рассматривается как представитель социального типа. Если мы хотим понять социальный мир человека, восприятие им внешней реальности и мир его самосознания, то здесь недостаточно рационального языка категорий и абстракций. Необходимо приблизится к адекватному пониманию смыслов, которые человек вкладывает в различные суждения и действия. Кроме того, поступки человека далеко не всегда адекватно осознаются им самим. Чтобы уяснить их глубинный смысл, надо приложить немало усилий для расшифровки внешне наблюдаемых действий и для интерпретации их в социологических понятиях. Табл. 1.2 отражает результат сравнения основных операций, применимых при количествен ном и качественном анализе результатов социологических исследований [5].

Если количественная социология преимущественно направлена на изучение проблем социального взаимодействия между структурами, социальными институтами и организациями (например, медицина и система образования как социальные институты: каковы их функции и отношения между ними в данном обществе), то качественная социология занимается субъективными аспектами реальной практики этих отношений: что значит «быть врачом», «быть учителем» и какова практика отношений «врача» и «учителя» в реальности. Для познания первого ряда проблем необходимо социальное знание, основанное на описании обобщенных данных; для познания опыта, переживаний, чувств конкретных людей, их практики - второго ряда проблем - необходимо знание, основанное преимущественно на понимании и интерпретации.

Применение системного подхода [6, 7], в некоторой степени, способно сгладить различия между количественными и качественными методами анализа за счет поиска некоторых общностей. Поскольку эффективность построения программного комплекса, ориентированного на хранение и анализ результатов социологических исследований, во многом определяется свободой действий предоставляемой потребителям, помимо формальных методов, применимых в «жестком» анализе данных, значительное внимание должно быть уделено качественным подходам. Цель работы - предоставить исследователю возможность качественного анализа данных с использованием полученных без всяких дополнительных усилий «жестких» данных.

Социологу, проводящему эмпирические исследования, в той или иной степени надо решать задачу интерпретации данных. При этом порядок анализа может отличаться в зависимости от характера первичных данных и цели исследований. Предметно-ориентированные исследования, проводимые по заранее предопределенному сценарию, могут ограничиваться исследованием определенных сочетаний вопросов. Например, изучение отношения населения какого либо муниципального образования к реформе ЖКХ может быть основано на изучении общей опросной статистики и распределении ответов, характеризующих доход семьи, состав семьи и размер занимаемой семьей квартиры. Таким образом, интерпретация результатов социологических опросов редко решается социологами как самостоятельная задача. Исследователь, как правило, еще на этапе планирования работы, предвидит результаты, ожидает связи между взаимно дополняющими вопросами. Полученные в результате опроса эмпирические данные используются как вспомогательный инструмент, подтверждающий или опровергающий гипотезу, на которой акцентирует внимание социолог. Различают первичный и вторичный анализ данных. Анализ материалов, собранных кем-нибудь другим, называется вторичным исследованием [4]. Надо иметь в виду, что большая часть политологов и социологов (возможно, даже большая часть политологов, публикующих книги и статьи на основе опросных данных) никогда сами не проводят опросы. Происходит это потому, что зачастую очень трудно получить необходимую финансовую поддержку, а также потому, что ответить на тот или иной исследовательский вопрос нередко вполне возможно, используя опросные данные, собранные другими.

Существует мнение, что изучение вторичных данных менее эффективно, по сравнению с анализом результатов специально проведенных опросов, поскольку оно не дает новых данных, пригодных для изучения. Такой подход представляется ошибочным, так как результаты почти любого анкетирования содержат информацию, которую первоначальный исследователь никогда не использовал из-за того, что она имеет лишь косвенное отношение к изучаемому им вопросу.

Подробно подходы к отбору опросов, пригодных для вторичного анализа, рассмотрены в работе [4]. Поиск необходимых данных возможен при личном контакте с социологами, проводившими самостоятельные исследования, или посредством запроса в специальные хранилища данных, которые собирают данные, как библиотеки собирают книги. Подобная практика нашла широкое применение в США, где обширными хранилищами данных располагают многие крупные университеты [8].

Подытожим все вышесказанное: анализ результатов социологических опросов, так или иначе, связан с поиском закономерностей. Процесс поиска закономерностей часто принимает форму перебора всевозможных сочетаний переменных или их значений, разница отдельных методов может заключаться лишь в формулировке целевой функции. В рассмотренной автором литературе не встречались упоминания о применении для поиска закономерностей алгоритмов Data Mining [9,10,11], хорошо зарекомендовавших себя именно при решении слабо формализованных задач, что позволяет сделать выводы о новизне подобного подхода к решению задачи интерпретации результатов социологических исследований.

Применение алгоритмов Data Mining для поиска закономерностей в результатах социологических исследований

Использование новых технологий в связи и коммуникациях позволило перейти на качественно новый уровень обработки результатов социологических опросов. Стало возможным применение сложных методов математической статистики к большим массивам информации. Использование глобальной сети Интернет привело к интенсификации обмена информацией. Существующие при крупных университетах (Bureau of Applied Social Research, Columbia University, New York; International Data Library and Reference Service, Survey Research Center, University of California, Berkeley) хранилища данных размещают каталоги своих ресурсов в сети, чем способствуют применению вторичного анализа данных [4].

Несмотря на то, что количество методов, применяемых социологами при проведении исследований, велико, используемый в них набор математических функций весьма скромен [14]. Несмотря на то, что задачи классификации и кластеризации нашли свое применение во многих далеких, на первый взгляд, сферах человеческой активности, по мнению автора, алгоритмы Data Mining для автоматизированного поиска закономерностей в эмпирической социологии еще не применялись. В г.Иркутске есть большое количество учреждений, обладающих массивами данных, собранными в результате социологических исследований. Среди них: кафедры социологии Иркутского государственного университета путей сообщения, Иркутского государственного университета, Байкальского государственного университета экономики и права, Иркутского государственного технического университета, администрация Иркутской области, региональные отделения политических партий и движений. Опираясь только на перечисленные информационные ресурсы, можно изучить данные нескольких сотен социологических опросов, посвященных различной тематике, характеризующих изменение общественного мнения в зависимости от региональных, временных, социальных и многих других критериев. Увеличение объема изучаемых эмпирических данных способно улучшить количественные и качественные характеристики полученных результатов вторичных исследований.

Автором предлагается приведенная ниже технология социологических исследований, позволяющая, по его мнению, извлекать из анализируемых данных максимум полезной информации (методика, систематизирующая предлагаемые методы, приведена в главе 3). Предлагаемая технология включает следующие этапы.

На этом этапе целью ставится исследование взаимосвязи переменных социологических опросов. Результатом подобного исследования является база знаний, содержащая информацию о связанных и независимых вопросах. И. Распределение ответов на связанные вопросы. Цель этого этапа исследования - изучить статистические распределения ответов на связанные вопросы. Результат этого этапа уточняет и дополняет информацию, полученную на предыдущем этапе анализа. Знания, полученные таким образом, могут быть записаны в виде правил-продукций типа: «если, то» при помощи детерми-национного анализа [39]. III. Поиск паттернов (шаблонов). Наиболее оправданный, в плане применения алгоритмов Data Mining, и интересный, с точки зрения ожидаемых результа тов, метод анализа. Поиск паттернов, или поиск групп взаимосвязанных данных - это задача, решать которую автор предлагает как путем упорядочивания знаний о парных связях, накопленных на предыдущих этапах анализа, так и при помощи алгоритмов Data Mining. При этом полученные конструкции (сочетания связанных вопросов или ответов) могут быть как интерпретируемыми, так и нетрактуемыми (по той или иной причине еще не имеющими объяснений в предметной области).

Знания, полученные на каждом этапе, носят вполне самостоятельный характер. Они могут храниться в соответствующих базах знаний либо «добываться» с применением более сложных методов ИАД.

Рассмотрим перечисленные этапы исследования подробнее. 7. Взаимосвязь вопросов. Наиболее просто реализуемый этап исследований, проведение которого вполне возможно при помощи таких программных продуктов, как Статистика, SPSS. Подобный анализ не требует особых преобразований данных. В основе лежит кодирование текстовых значений переменных. Применение этого метода позволяет получить оценку статистической связи между вопросами.

Знания о связанных переменных могут быть полезны при планировании социологических исследований, например, при формулировке взаимодополняющих вопросов. Кроме того, подобные знания могут способствовать проверке корректности формирования выборки, поскольку имеющие семантическое объяснение статистические связи между вопросами должны сохраняться от одного исследования к другому, и отсутствие многократно наблюдаемой статистической зависимости должно побудить социолога найти исчерпывающее объяснение этому явлению.

Использование ФС моделей для разработки информационных объектов, описывающих структуру социологических опросов

Методы, интегрируемые в рамках данной методики (в том числе предложенные автором) были подробно описаны во второй главе. Методика определяет последовательность применения этих методов, разбитую на этапы, в соответствии с предложенной автором технологией социологического исследования.

На этом этапе происходит проверка гипотезы о статистической связанности переменных и фиксирование информации о найденных закономерностях. Результатом этого этапа может стать база знаний, содержащая информацию о найденных закономерностях. II этап. Анализ распределений ответов на связанные вопросы. Результат этого этапа уточняет и дополняет результаты, полученные на предыдущем этапе анализа. На этом этапе выявляются знания о часто встречающихся сочетаниях значений переменных. Знания, полученные таким образом, могут быть записаны в форме правил вида «если, то» (продукций), при помощи детерминационного анализа (IV этап). III этап. Поиск паттернов (шаблонов). На этом этапе происходит выявление закономерностей во множественных сочетаниях переменных. Это наиболее оправданный, в плане применения алгоритмов Data Mining, и интересный, с точки зрения ожидаемых результатов, метод анализа. Поиск паттернов, или поиск групп взаимосвязанных вопросов - это задача, решать которую автор предлагает либо путем упорядочивания знаний о парных связях, накопленных на предыдущих этапах анализа, или при помощи алгоритмов Data Mining. При этом полученные конструкции (сочетания связанных вопросов или ответов) могут быть как интерпретируемыми, так и нетрактуемыми (по той или иной причине еще не имеющими объяснений в предметной области). IV этап. Детерминационный анализ. На этом этапе определяется причинно-следственный характер наблюдаемых статистических аномалий. Применение детерминационного анализа [28] позволяет, на основе имеющейся статистики, строить продукции на основе найденных на втором этапе статистических связей. V этап. Логическое моделирование. На этом этапе осуществляется сопоставление новых продукций с уже существующими в базе знаний. Выполняется построение логических моделей с использованием Аристотелевых силлогизмов. Описанные СВ. Чесно-ковым [28] преобразования, осуществляемые на этом этапе, позволяют строить Аристотелевы силлогизмы, или предложения, построенные по правилам, принципы которых приведены в приложении 3. Применение силлогизмов позволяет, на основе анализа результатов социологических исследований, строить качественные оценки, и создавать логические модели, применение которых позволяет решать задачи прогноза и поведения объектов, как это показано в 2.5.

Подробное описание предложенных автором эвристических методов снижения комбинаторной сложности приведено во второй главе, ниже эти методы сгруппированы в методику. Экспертная декомпозиция. В разрабатываемой информационной системе ИНИАС метод экспертной декомпозиции используется в интерактивном режиме, когда пользователь сам выбирает набор переменных для изучения статистической связности. Отсев гарантированно независимых сочетаний. Метод гарантированного отсева независимых сочетаний применяется при поиске «паттернов» в качестве своеобразного «арбитра», функцией которого является определение заведомо несвязанных сочетаний переменных, еще до проверки статистических критериев связности. Применяется как при реализации методов ИАД полным перебором вариантов, так и при использовании рекомбинационного метода. Рекомбинационный метод. Метод используется для стохастического поиска «паттернов». В настоящее время в качестве начальной популяции применяются наборы переменных, определенных экспертным путем и наборы парных комбинаций статистически связанных переменных.

Методика описывает последовательность подготовки данных для формирования хранилища данных и его информационного наполнения применительно к ИНИАС.

Подготовительный этап. На этом этапе происходит создание информационной инфраструктуры, необходимой для правильного функционирова ния компонентов информационной системы, отвечающих за сбор, хранение и описание данных. Происходит сбор справочной информации об административно-территориальном делении региона, и распределении численности жителей по городам и районам. Собирается другая информация, полезная для описания содержимого хранилища. С использованием ФС-моделей проектируются объектные представления данных, знаний, метаописаний (метаданных).

I этап. На первом этапе формирования хранилища осуществляется подготовка блоков данных к загрузке в информационную систему. Анализируется структура анкет, использованных социологами, решается задача идентификации, целью которой является поиск соответствий вопросов и ответов, примененных в анкете с существующей в репозитарии информацией. Как отмечалось в первой главе, в социологии применяются ряд информационных систем, обладающих примерно одинаковыми, достаточно ограниченными, возможностями. Каждая из систем обладает собственным форматом хранения данных, но, как правило, реализует и процедуры экспорта в текстовый формат. Система ИНИАС позволяет загружать текстовые блоки данных, содержащие результаты анкетирования, если информационные объекты для их хранения уже существуют, или если информация о структуре анкеты (перечисление вопросов и вариантов ответов на них) включена в состав загружающегося файла. На первом этапе происходит также синтаксическая проверка данных.

Проектирование клиентской и серверной частей ИНИАС

Для анализа данных одного социологического опроса, распределенных по разным таблицам, соответствующим, например, разным населенным пунктам, использованы представления View, являющиеся виртуальными таблицами, объединяющими несколько однородных реальных или виртуальных информационных блоков. Примером может служить виртуальная таблица, полученная слиянием таблиц DataBlockl и DataBlock2. Для анализа неальтернативных переменных создается новая виртуальная таблица View, содержащая преобразованные, описанными во второй главе способами, данные из исходной таблицы (DataBlock3). Увеличение количества столбцов в виртуальной таблице происходит при помощи хранимых процедур MultiplicateQuestionl и MultiplicateQuestion2, реализующие преобразования неальтернативной переменной в «простые вопросы» и в «сочетания простых вопросов», соответственно.

Кратко опишем основные классы из числа присутствующих на диаграмме: INIACServer - основной объект уровня логики приложения. В его функции входит регистрация клиентов. Здесь хранятся ссылки на коллекции метао-писаний известных анкет, вопросов и ответов. Объект ESTIACServer способен вызывать метод RefreshClient клиентского интерфейса LibraryRefreshlnterface, для уведомления клиентов о проходящих в БД транзакциях. При регистрации клиента, объект INIACServer порождает объект INIACRMISession, соответствующий сессии работы отдельного пользователя. В перспективе этот класс может быть использован как «профайл», содержащий данные о предпочтениях при работе с системой того или иного пользователя системы. Классы Answer, Question и DictionaryManager были рассмотрены в разделе главы, посвященном описанию процесса проектирования хранилища данных. На рис. 4.7. изображен фрагмент диаграммы классов клиентской части ИНИАС. Класс Library является основным классом клиентского приложения. Здесь происходит порождение объектов Sociolnput, InputPanel, KnowledgePanel, служащих для реализации функций создания структуры анкеты, ввода данных, анализа найденных закономерностей. При регистрации пользователя объект Library создает объект Refresher, ссылку на интерфейс которого хранит INiACServer. Главный интерфейс клиентской части информационной системы ИНИАС «Каталог» отображено на (рис 4.9). Здесь размещены списки существующих структур социологических опросов, приведена иерархия отношений информационных блоков, отсюда происходит вызов редактора анкет, компонента ввода данных и компонента анализа найденных закономерностей.

При помощи элементов управления, расположенных на интерфейсе «Каталог», создаются и упорядочиваются новые информационные блоки (рис 4.11), происходит загрузка данных в хранилище, инициируется запуск алгоритмов «добычи» знаний. Кроме всего перечисленного при помощи интерфейса «Каталог» осуществляется общее администрирование системы.

В начале четвертой главы были определены основные прецеденты использования системы ИНИАС. Рассмотрим их подробнее, опираясь на существующие интерфейсы системы.

Пользователю предоставляется возможность создавать новые или выбирать и редактировать существующие в репозитории вопросы социологического исследования. Благодаря обратной связи от хранилища данных к интерфейсу, возможна работа нескольких операторов с одним словарем, данные своевременно будут обновляться у всех операторов. Создаваемые вопросы могут быть «альтернативные», «неальтернативные» и «свободные». Тип вопроса выбирается соответствующим элементом управления.

При вводе опросных листов порядок вопросов в форме ввода совпадает с порядком вопросов в редакторе словарей. Поддержка технологии «Drag&Drop» позволяет переставлять вопросы местами. Объектная структура описания данных жестко не привязана к информации, хранящейся в таблице. Поскольку каждый объект «Вопрос» ссылается на столбец таблицы по имени, а не по порядку следования, возможна произвольная перестановка объектов «вопросов» местами, поэтому изменение и дополнение структуры анкеты возможно даже при вводе опросных листов, что очень удобно при работе с анкетами, содержащими «свободные вопросы». Ответ, сформулированный респондентом самостоятельно, можно оперативно добавлять в структуру словаря, тем самым, решая проблему анализа «свободных переменных».

Интерфейс «Ввод данных» предоставляет пользователю системы возможность ручного ввода информации с опросных листов. Он включает в себя таблицу, содержащую список вопросов, входящих в структуру применяемой анкеты, и соответствующие им ответы.

Интерфейс предоставляет пользователю возможности навигации по существующему массиву информации, данные можно «пролистать», найти первую и последнюю запись. Эргономика интерфейса «Ввод данных» построена так, чтобы основные операции по вводу данных с опросных листов могли осуществляться с клавиатуры, что заметно ускоряет процесс «набивки» информации. В случае встречи ответов на свободные переменные, пользователю предоставляется возможность подкорректировать структуру опроса и внести новое значение ответа на свободный вопрос.

Для интерактивного контроля выборки формируемого информационного блока осуществляется подключение к OLAP серверу, реализованному в использованной версии Oracle 9i, возвращающему результаты построения двумерного распределения «Пол-Возраст» в виде веб-страницы. Создание интерфейса «Анализ распределений» в настоящее время находится в процессе активной разработки, которую задерживает некоторая «сырость» используемого программного продукта Oracle. Предоставляемые Oracle Business Intelligent Beans возможности позволяют интегрировать аналитику Oracle на уровне логики приложения ИНИАС путем импорта классов и использования специализированных программных библиотек.

Загрузка данных, соответствующих заданному шаблону. Интерфейс «Ввод данных» реализует прецедент, описывающий возможность импорта информации в созданный информационный блок. Актуальность этой процедуры обусловлена тем, что социологи часто используют «легкие» программные продукты, подобные модулю ввода программы «Да-Системы 4.0». Ориентированные на создание структуры анкеты и ввод первичных данных, подобные системы незаменимы при сборе информации в длительных командировках, хотя и обладают ограниченными аналитическими возможностями. Для загрузки собранных при помощи таких систем данных, способом, описанным выше, создается информационный блок. Блоку назначается структура социологической анкеты. Средствами интерфейса «ввод данных» осуществляется импорт данных из внешнего файла в подготовленный блок.

Интегрированная информационно-аналитическая система для социологических исследований Васильев Иван Владимирович

Перспективы создания специализированного программного обеспечения для анализа результатов социологических исследований

Применение алгоритмов Data Mining для поиска закономерностей в результатах социологических исследований

Использование ФС моделей для разработки информационных объектов, описывающих структуру социологических опросов

Проектирование клиентской и серверной частей ИНИАС

Похожие диссертации на Интегрированная информационно-аналитическая система для социологических исследований