Разработка и реализация моделей измерения латентных переменных с нечеткими множествами данных -- Соловьева Елена Валентиновна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Соловьева Елена Валентиновна. Разработка и реализация моделей измерения латентных переменных с нечеткими множествами данных --: диссертация ... кандидата технических наук: 05.13.18 / Соловьева Елена Валентиновна;[Место защиты: Воронежский государственный технический университет].- Воронеж, 2014.- 130 с.

Содержание к диссертации

Введение

Глава 1. Модели оценивания латентных переменных .10

1.1. Состояние исследований в области измерения латентных переменных .10

1.2. Латентно-структурный анализ и его практическое применение 16

1.3. Модель Раша измерения латентных переменных 27

1.3.1. Основные положения Раш-анализа 27

1.3.2. Алгоритм расчета по дихотомической модели Раша 34

1.3.3. Статистические методы обработки данных по модели Раша 39

1.4. Обзор программного обеспечения по оценке латентных переменных методом Раша 44

1.4. Выводы 51

Глава 2. Модели оценки латентных переменных, основанные на методе наименьших квадратов 53

2.1. Модель оценки для нечетких данных 53

2.2. Модель, использующая функцию Лапласа 58

2.3. Динамическая модель и ее использование в прогнозировании 66

2.4. Выводы 72

Глава 3. Алгоритмы и программная реализация моделей 74

3.1. Алгоритмы оценивания латентных переменных по модели, использующей МНК 74

3.2. Программная реализация алгоритмов и результаты вычислительного эксперимента 81

3.2.1. Описание программного продукта 81

3.2.2. Проверка достоверности работы алгоритма 85

3.3. Расчет латентных переменных с помощью средств MS Excel 89

3.4. Выводы 95

Глава 4. Применение моделей оценки латентных переменных в организации труда 96

4.1. Модель организации рабочих коллективов для выполнения комплекса работ 96

4.2. Индивидуальное распределение исполнителей по работам 102

4.2.1. Случай индивидуального выполнения работ группового задания 102

4.2.2. Случай совместного выполнения работ группового задания 105

4.3. Обоснование эффективности методик выполнения групповых заданий .107

4.4. Выводы .116

Заключение .118

Список использованных источников

Латентно-структурный анализ и его практическое применение
Динамическая модель и ее использование в прогнозировании
Программная реализация алгоритмов и результаты вычислительного эксперимента
Индивидуальное распределение исполнителей по работам

Введение к работе

Актуальность темы. Многие системы и процессы в социальных, гуманитарных, образовательных и многих других областях науки описываются с помощью латентных (то есть скрытых, неявных) переменных. Математические методы измерения латентных переменных – направление в математическом моделировании достаточно новое и до конца не исследованное. А потребность в таких методах, несомненно, высокая. Возможность объективно и адекватно измерять латентные переменные позволит на математическом уровне оперировать с такими качественными категориями, как эффективность, уровень, степень, качество, и многими другими.

Существует несколько подходов к измерению латентных переменных. В начале XX века в психологии для оценки латентных параметров личности теории была разработана теория латентно-структурного анализа, которая позволяла на достаточно поверхностном уровне оценивать латентные показатели. Значительным прорывом в области измерения латентных переменных стало создание в 60-е годы датским математиком Георгом Рашем самосогласованной модели оценки латентных переменных, основанной на вероятностном подходе к оценкам переменных через измеряемые индикаторные переменные.

Раш-анализ в настоящее время активно развивается, в том числе и в нашей стране. Весомый научно-методический вклад в развитие и использование методов измерения латентных переменных внесли отечественные ученые Аванесов B.C., Анисимова Т.С, Беспалько В.П., Майоров А.Н., Маслак А.А., Михайлычев Е.А., Нейман Ю.М., Самыловский А.И., Татур А.О., Че-лышкова М.Б., Хлебников В.А. и другие. Однако существующие модели оценки латентных переменных, особенно основанные на Раш-анализе, имеют и ряд ограничений. Наиболее существенными недостатками модели Раша являются следующие:

выборки обрабатываемых данных должны носить дискретный характер (дихотомические и политомические модели). При этом на практике часто возникает потребность в обработке данных, имеющих непрерывный спектр;

необходимость использования для практических расчетов специализированного программного обеспечения;

невозможность измерения латентных переменных, меняющихся с течением времени.

Устранение этих недостатков, несомненно, позволит значительно расширить область применения латентных измерений.

Таким образом, актуальность темы диссертационной работы определяется необходимостью создания новых математических моделей измерения латентных переменных, совершенствования математического, алгоритмического и программного обеспечения вычислительного аппарата, разработки новых подходов к их применению в различных сферах практической и научной деятельности.

Тематика диссертационной работы соответствует одному из научных направлений ФБГОУ ВПО «Воронежский государственный архитектурно-строительный университет» - «Системы управления сложными организационно-техническими объектами».

Цель работы. Целью диссертации является создание математических методов и моделей измерения латентных переменных, позволяющих работать с нечеткими множествами исходных данных, в том числе и в динамике их изменений, разработать численные методы и алгоритмы для их реализации, конечной целью которых является создание программного продукта.

Задачи исследования. Для достижения цели работы требовалось решить следующие основные задачи:

Провести анализ научных исследований в области оценки латентных переменных, сформулировать ограничения и недостатки существующих моделей.
Получить математическую модель, позволяющую проводить измерения латентных переменных по нечетким множествам исходных данных.
Разработать динамическую модель оценки латентных переменных, учитывающую их изменение с течением времени и позволяющую осуществлять прогнозы, а также модель, позволяющую эффективно проводить оценку латентных переменных, распределенных по нормальному закону.
Разработать численные методы и алгоритмы реализации полученных моделей и создать программный комплекс, позволяющий эффективно проводить оценки латентных переменных по нечетким множествам исходных данных, а также описать возможности проведения комплексных исследований на ЭВМ.
Описать подходы к применению разработанных методов и моделей в сфере организации труда с обоснованием эффективности их применения.

Методы исследования. В работы использованы методы математического моделирования, методы оптимизации, теория игр, методы математического программирования, вероятностные и статистические методы, численные методы, алгоритмизация и теория объектно-ориентированного программирования.

Тематика работы соответствует следующим пунктам паспорта специальности 05.13.18:

Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий.
Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента.
Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента.

Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной:

1. Математическая модель измерения латентных переменных, отли-4

чающаяся от классической модели Раша использованием в вычислительном ядре метода наименьших квадратов, что позволяет обрабатывать нечеткие множества исходных данных.

Математическая модель измерения динамически изменяющихся латентных переменных, отличающиеся учетом данных на разных временных этапах, что позволяет осуществлять прогноз значений латентных переменных по времени, а также математическая модель измерения латентных переменных, распределенных по нормальному закону.
Численный метод и алгоритм нелинейной оптимизации остаточной суммы метода наименьших квадратов, отличающийся параллельным использованием алгоритмов поиска условного и безусловного экстремума, что позволяет увеличить скорость получения результата.
Структура программного комплекса, особенностью которого является параллелизм исполнения алгоритма условной и безусловной оптимизации остаточной суммы метода наименьших квадратов, что повышает эффективность обработки нечетких множеств данных.

Практическая значимость. Предложенные в работе модели, численные методы и алгоритмы оценки латентных переменных с нечеткими множествами исходных данных, основанные на методе наименьших квадратов, реализованы в виде программного комплекса. В результате практической апробации программный комплекс продемонстрировал высокую точность и скорость расчетов оценок латентных переменных, что позволяет использовать его в различных сферах научной и практической деятельности.

На основании представленных моделей разработаны оригинальные подходы при организации комплексных исследований в области моделирования групповых работ: формирование рабочих коллективов, случай индивидуального выполнения группового задания и случай совместного выполнения работ группового задания. Проведенный эксперимент показал эффективность применения разработанных подходов на практике.

Реализация и внедрение результатов работы. Основные алгоритмы и методы, предложенные в диссертации, реализованы и апробированы в виде программного комплекса, позволяющего проводить оценки латентных переменных с нечеткими множествами исходных данных. Разработки, представленные в диссертационной работе, внедрены в кадровую систему ООО «ТМ МЕТАРХ» для оценки ИТР при выдвижении их на вакантные должности. Представленные методы и программный продукт включены в состав учебного курса «Информационные технологии в профессиональной деятельности» в Институте менеджмента, маркетинга и финансов, используются в учебном процессе на строительном факультете Воронежского государственного архитектурно-строительного университета.

Апробация работы. Основные результаты исследований и научных разработок докладывались и обсуждались на следующих конференциях: XII Всероссийское совещание по проблемам управления (ВСПУ XII) (Москва, 2014); II Международная научно-практическая конференция «Проблемы современных экономических, правовых и естественных наук в России» (Воро-5

неж, 2014); VI Международная науч.-практ. конф. «Управление социально-экономическими системами: анализ современных тенденций и перспектив развития» (Харьков, 2014); 65-67-й конференциях Воронежского ГАСУ «Инновации в сфере науки, образования и высоких технологий. Малое инновационное предпринимательство» (Воронеж, 2013, 2014).

Публикации. По результатам исследований опубликовано 11 научных работ, в том числе 3 в изданиях, рекомендованных ВАК РФ. В работах, опубликованных в соавторстве, лично соискателю принадлежат: [1, 3, 4] - анализ и практическая реализация использованных моделей, [5, 7, 11] - разработка моделей распределения исполнителей и методология их исследования, [6, 8] - описание, численное решение и адаптация моделей под решаемые задачи.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 130 наименований и трех приложений. Основная часть изложена на 130 страницах, содержит 25 таблиц и 24 рисунка.

Латентно-структурный анализ и его практическое применение

Под термином "переменная" подразумевается величина, принимающая в течение своего измерения различные значения [38]. В математике и статистике под термином "латентная переменная" понимают вид переменных, которые в явном виде не измеряются. Они могут быть вычислены только с помощью математических моделей наблюдаемых переменных. Главное преимущество, которое заставляет многих исследователей обращаться к инструментарию латентных переменных это то, что они позволяют уменьшить размерность рабочих данных. Значительная выборка наблюдаемых переменных может быть приведена к математической модели, отражающей изучаемую концепцию, что делает данные более легкими для восприятия и обработки. В этом плане латентные переменные выполняют функцию подобную функции научной теории.

В различных литературных источниках латентные переменные часто называют скрытыми или гипотетическими. В настоящее время латентные переменные получили широкое распространение в самых различных областях человеческой деятельности, что отражено как в российской, так и в зарубежной литературе [18, 24, 53, 87, 106, 122, 124, 127-130]. Они активно используются, например, в психологии, социологии, экономике, здравоохранении, образовании и др. [18, 43, 60, 68, 91, 92, 124]. Отечественный опыт представлен в публикациях ряда российских исследователей [6, 52-54, 56, 117].

Так, к примеру, в экономике в качестве латентных переменных применяют качество жизни, уровень благосостояния, мораль, деловое доверие и тому подобное. Рассмотрим подробнее латентную переменную "уровень жизни населения". Её считают измерителем понятия "человеческого развития". При этом, в свою очередь, рассматриваемая переменная "уровень жизни населения" состоит из ряда показателей, объединенных в систему и характеризующих различные аспекты деятельности человека в отдельности или социума в целом. И в эту систему иерархически входят такие понятия, как, например, уровень денежных доходов, уровень жилищных условий, уровень потребления населением продуктов питания и не продовольственных товаров и т.д. На основании этих и подобных наблюдаемых переменных, полученных статистическими методами, строиться математическая модель и вычисляется значение исследуемой латентной переменной.

Измерение самых разнообразных скрытых переменных при изучении и анализе социально-экономических систем позволяет как решать конкретные задачи прикладного характера или мониторинга ситуации, так и помогает выявить методологические проблемы, решение которых лежит в плоскости экономической теории. Особенно важно отметить, что для получения максимально точного результата, оптимально отражающего проблематику исследования, необходимо точно подбирать и корректировать в процессе исследования выборку наблюдаемых (индикаторных) переменных. Этим специалист уточняет экономический, или иной необходимый для исследования, смысл анализируемой латентной переменной.

Как было сказано ранее, латентные переменные вычисляются при помощи математических моделей. Основными методами работы с ними являются: факторный анализ, скрытая марковская модель, ЕМ-алгоритм, метод главных компонент, латентно-семантический анализ и вероятностный латентно-семантический анализ, алгоритмы Байеса и латентное размещение Дирихле и др. [26, 41, 71, 81, 109, 125].

Первой логически законченной теорией измерения латентных переменных стал латентно-структурный анализ [24, 30, 46, 47, 67, 76-78, 85, 95, 100, 110, 111, 118]. Подробнее основные его аспекты рассмотрены в следующем разделе. Однако, латентно-структурный анализ имел существенные ограничения по своей практической применимости и в настоящее время его используют в ограниченных отраслях науни: социологии, психологии и некоторых других.

Основоположником современной теории измерения латентных переменных стал Георг Раш. Именно на созданной им модели, строится исследование, описанное в данной работе. Г. Раш (1901-1980 гг.) - датский математик, специалист в области статистики. В 1919 г. он начал изучать математику в Университете Копенгагена, где учился у Р.А. Фишера. В 1925 г. Г. Раш окончил университет со степенью магистра, а в 1930 г. получил степень доктора наук.

Однако, не сумев найти работу в области математики, Г. Раш начинает работать статистическим консультантом. В этом качестве он изучал ряд актуальных проблем того времени, например, проблему биологического роста. За это в 1948 г. его избирают членом Международного статистического института. Не менее известен его вклад в области психометрии. В начале изучения этой тематики, Г. Раш использовал распределение Пуассона для моделирования числа ошибок, допущенных школьниками при прочтении незнакомого теста. Позднее в 1950-х гг. Г. Раш разработал свою собственную модель обработки дихотомических данных, которая получила название модель Раша [84, 120, 121].

Более подробно традиционная модель Раша описана в третьем разделе главы. Однако хочется отметить ряд характерных особенностей. Чаще всего об этой модели упоминают в плоскости педагогических измерений, где в настоящее время на практике применяется несколько моделей Раша, как разработки самого автора, так и многих его последователей. Изначально эта модель детально изучалась в США и Австралии, но с течением времени распространилась по всему миру.

Для измерения латентных переменных, в настоящее время, создан ряд компьютерных программ и системных комплексов. Более подробно о программном обеспечении, посвященном Раш-анализу, рассказано в заключительной части главы.

Отличительной чертой латентных измерений в педагогике (а свою модель Г. Раш разработал для измерения именно педагогических показателей) является то, что в их процессе важно не только получить результат субъекта тестирования, но и определить меру сложности задания. При этом, за устойчивость здесь принимается низкая зависимость или независимость числового показателя сложности задания от выборки тестируемых и выборки заданий. Напомним, что в статистической теории измерений в области педагогики если некоторая выборка заданий представляется для решения хорошо подготовленным ученикам, то мера сложности этой выборки становится низкой, но если эта же выборка предоставляется слабо подготовленной группе учеников, то она считается сложной. Таким образом, можно говорить о взаимной зависимости уровня сложности заданий и уровня подготовки тестируемой группы. Именно из желания преодолеть эту зависимость, и родилась как модель Раша, так и теория измерения IRT [117]. В модели Раша оба эти взаимовлияющие объекта измерения присутствуют, но они участвуют в измерении одновременно. Можно сказать, что измерение по методике Раша это даже больше, чем просто математическая модель, это скорее явление процессуального характера, оно системно и требует системного подхода к обработке полученных данных, которые обладают свойствами интервальной шкалы.

Динамическая модель и ее использование в прогнозировании

Достаточно широко латентно-структурный анализ (ЛСА) применяется в современной социологии и смежных с ней науках. В первой половине прошлого века появилась необходимость разработки новых методов опроса той или иной целевой группы, которые могли бы выявить и измерить их латентные характеристики. Одним из первых, этой проблемой в плотную занялся американский социолог П.Ф. Лазарсфельд [45]. Он и считается автором латентно-структурного анализа (в англоязычных источниках - LSA) [46, 47, 110, 111]. Суть теории, предложенной П.Ф. Лазарсфельдом заключалась в том, что предполагалось существование некоторой латентной переменной, которая обуславливала внешнее поведение участника опроса, которое, в свою очередь, выражалось в виде ответов респондента на заданные дихотомические вопросы анкеты. При этом, исследуемая латентная переменная является номинальной, а ее объясняющая функция связана с тем, что именно ее наличие служит причиной связи между наблюдаемыми переменными. Фундаментальной основой теории П.Ф. Лазарсфельда служит аксиома локальной независимости: в случае фиксирования значения латентной переменной исчезают связи между наблюдаемыми переменными. С течением времени, методика предложенная П.Ф. Лазарсфельдом, широко изучалась различными авторами и постепенно усложнялась. Был выпущен ряд публикаций, в том числе и в СССР, посвященных данной тематике и развивающих первоначальные лазарсфельдовские идеи [67; 76-78]. В нашей стране ЛСА применился для решения точно поставленных социологических задач. С его помощью были измерены такие латентные социальные показатели как, например, "удовлетворенность жизнью", "склонность к общественной деятельности" и другие аналогичные характеристики [51]. Так же ЛСА позволил выявить отношение опрашиваемых к узкой группе характеристик городской среды [9], с его помощью была построена типология общественно-политической активности среди молодежи [30] и были проведены другие узко специфические опросы [23, 42; 59].

Рассмотрим первоначальный вариант латентно-структурного анализа, предложенный П.Ф. Лазарсфельдом. В нем латентная переменная является номинальной, число ее градаций известно. Предположим, что это число равно двум, тогда наблюдаемые дихотомические переменные примут значения 0 и 1. Назовем первый вариант ответа отрицательным, а второй положительным. Для обозначения части объектов, попавших в первый и второй латентные классы введем обозначения 1 и 2 соответственно. Так же введем следующие обозначения: Pi - анкетируемые, положительно ответившие на z-ый вопрос выборки, /?/ и р? - аналогичные доли первого и второго латентных классов соответственно. Ру - анкетируемые, положительно ответившие на г-ый и у -ый вопросы одновременно, соответственно вводим обозначения для первого и второго латентных классов - ру1 , ру1. Таким же образом обозначаются и другие искомые величины. Следует отметить, что в данном контексте, говориться о частотном распределении признаков, иначе говоря, о выборочных данных, что не совсем верно. Корректнее было бы использовать термины, характеризующие генеральную совокупность - распределение вероятности встречаемости значений искомых случайных величин. А результаты выборки следует переносить на генеральную совокупность методом построения доверительных интервалов для всех исследуемых величин. Предположив, что каждый исследуемый объект может попасть лишь в один латентный класс, используем формулу полной

Получим систему уравнений, где в левых частях стоят известные величины, а в правых - неизвестные. Такую систему уравнений невозможно решить обычным образом, потому что число уравнений в ней гораздо меньше числа неизвестных. Однако, используя аксиому локальной независимости, получим:

В практической плоскости применение вышеописанного метода выглядит следующим образом. Исследователь выбирает необходимую латентную переменную, например "уровень жизни". В соответствии с задачами исследования и выбранной латентной переменной составляется анкета, а число градаций латентной переменной принимается автором. В ходе анализа ответов выбранной группы субъектов исследования вся их совокупность разбивается на классы таким образом, чтобы внутри этих классов ответы на вопросы стали статистически независимыми. Иначе говоря, решается система уравнений (1.1) и (1.2) с учетом соотношения (1.3). Полученные неизвестные обрабатываются описанным выше методом. Таким образом, исследователь вычисляет распределение значений искомых показателей внутри латентных классов, а так же соотношение этих классов по объему. Для дальнейшей обработки информации актуально использование формул Байеса. С их помощью можно определить степень принадлежности любого субъекта исследования, давшего уникальный набор ответов, к рассматриваемому латентному классу. Таким образом, исследование выбранной латентной переменной, согласно вышеописанному методу, сводиться к выявлению статистически однородных классов, а для каждого респондента определяется лишь степень его принадлежности к тому или иному классу, так же вычисляется сравнительный объем этих классов и вероятность встречаемости в них произвольного набора ответов анкетируемых, относящихся к данному классу.

При этом, в описанной выше методике есть несколько заведомо "слабых" мест. Так, само наличие латентной переменной и ее выбор отдается полностью на усмотрение автора исследования. Сложно однозначно доказать само существование латентной переменной. Само понятие некоторого обобщающего признака в социологии весьма абстрактно, так как оно заставляет уравнять множество уникальных индивидуумов, принять их в значительной мере похожими друг на друга. Данные вопросы интересовали целый ряд ученых. Однако если принять их как неразрешимые, то исчезает всякая возможность развития формализма, что, в настоящее время, считается не допустимым. Идеи, предложенные П.Ф. Лазарсфельдом, получили широкое распространение и активное развитие, особенно у западных социологов [95, 118]. Первоначальная доктрина развивалась и усложнялась. В целом, можно выделить несколько направлений этого развития. Во-первых, это сравнительный анализ моделей латентно-структурного анализа и факторного анализа [86]. Авторы этого направления пришли к выводу, что факторный анализ можно считать частным случаем латентно-структурного анализа при наличии нескольких латентных переменных. В свою очередь, латентно-структурный анализ решает для порядковых и номинальных данных задачи, аналогичные тем, которые для интервальных данных решает факторный анализ. Помимо этого, авторы предполагают, что модель латентно-структурного анализа может быть обобщена для изучения соотношений между количественными измерениями, что позволяет избежать ряда проблем и сложностей факторного анализа [24, 95]. В целом, в западной социологии вышел в свет целый ряд научных публикаций различных авторов, посвященный развитию идей П.Ф. Лазарсфельда в вышеописанном ключе [99-101, 103].

Другая группа авторов предложила несколько отличный от лазарсфельдовского метод вычисления латентных показателей. Для этого было предложено использовать критерий "Хи-квадрат" [85]. Предположим, что не обязательно стремиться к точному соблюдению равенства (1.1), предположим, что оно отвечает только ожидаемому распределению исследуемых признаков, характерному для генеральной совокупности. Однако при обработке данных, полученных эмпирическим методом, данное равенство может быть нарушено. Система уравнений, которая служит для расчета данных параметров рассчитана на работу только с теми частотами, которые соответствуют совокупности ответов на все вопросы анкеты. Для ее решения используются методы итерации. Цель всего процесса заключается в том, что бы ожидаемые частоты, вычисляемые при помощи выражений (1.1) и (1.2), как можно точнее совпадали с эмпирическими показателями. Для пояснения того, что означает такое совпадение предположим, что анкета состоит только из трех вопросов. В ходе исследования, при помощи рассчитанных ранее латентных параметров, вычисляются теоретические частоты Рijk , эти частоты сравниваются с эмпирическими данными Рijk .

Данное сравнение производиться при помощи известного критерия "Хи-квадрат". Далее, в процессе итерации, производиться пошаговое сравнение рассчитываемых величин с табличными значениями. В случае превышения табличного значения, переходят к следующему шагу итерации, в противном случае латентные показатели считаются достоверно отражающими действительность.

Важным для вышеописанного метода является возможность выбора числа латентных классов, иначе говоря, числа значений латентной переменной. При этом, чаще всего, результаты исследования наиболее достоверны, если существует возможность рассмотреть большее количество латентных классов. Итеративный процесс начинают при двух значениях латентной переменной. Далее принимается ситуация, когда число этих значений равно трем и весь процесс повторяется заново. В этом случае вероятность нахождения максимально корректного решения повышается, однако, при слишком большом количестве латентных классов появляется опасность того, что результаты станут слишком сложными в интерпретации. Об эффективности расчета и адекватности выбора числа латентных классов можно судить по соответствующим значениям критерия "Хи-квадрат". Процесс итерации можно остановить в том случае, когда переход от n-го к (n+1) - му шагу дает малое изменение данного критерия [30; 58]. Помимо критерия "Хи-квадрат" существует ряд других методик определения соответствия теоретических и эмпирических частот, например, индексы модельного соответствия или информационные критерии [95].

Довольно важным аспектом является возможность рассмотрения непрерывной латентной переменой, т.е. латентной переменной с бесконечным числом значений. Работа над этим вопросом была непрерывна с того момента, как П.Ф. Лазарсфельд выдвинул свои идеи. Изначально авторы выдвигали лишь теоретические обоснования, но позднее их идеи развились в полноценные методики [61, 77, 111]. Для примера, рассмотрим ситуацию, в которой латентная переменная является непрерывной, а все вопросы выборки - дихотомическими. Попытаемся установить некоторое соответствие между основными составными частями дискретного латентно-структурного анализа и его эквивалента с непрерывной латентной переменной. Для этого необходимы новые обозначения: х - числовое значение латентной переменной; Ф (х) - случайная величина, отражающая плотность распределения латентной переменной; г (х) - вероятность положительного ответа анкетируемого, со значением латентной переменно равным х, на г-ый вопрос выборки (график і-го вопроса). Между данными и введенными ранее обозначениями существует соответствие, отраженное в табл. 1.1.

Программная реализация алгоритмов и результаты вычислительного эксперимента

Однако, модель не лишена недостатков и ограничений. Главным недостатком классического Раш-анализа является ограниченность использования исходных данных.

Во всех подходах применения модели (а изначально она использовалась в образовании для оценки качества полученных знаний), исходные данные формируются в результате тестов или опросов. Пусть имеются п объектов, которые оценивают т субъектов. На основании оценок измеряется некоторая латентная величина 0, характеризующая объекты с одной стороны, и сами тестируемые измеряются некоторой латентной величиной Р, характеризующей отношения субъектов к объекту. Так, в классической модели Раша, Субъектами были обучающиеся, их уровень знаний оценивался как р, а сложность тестовых заданий (объектов), характеризовался параметром . В классической дихотомической модели [119], выборка xtj исходных данных должна быть дискретной и обычно равна 1 (оценка объекта субъектом положительная) либо 0 (оценка отрицательная), то есть в модели Раша:

С точки зрения математической модели Раш-анализа, это ограничение связано с тем, что ядром модели является метод максимального правдоподобия (МП-метод), согласно которому составляется функция правдоподобия, равная произведению вероятностей того, что теоретические вероятности ответов совпадают с эмпирическими. Другими словами, если Ху = 1, то ее вероятностная составляющая включается в функцию правдоподобия, если 0, то не включается.

Немного расширить возможности применения модели Раша на случай, когда могут быть промежуточные варианты оценок объектов субъектами, позволила политомическая модель [24, 53]. Она предполагает введение политомических индикаторных переменных Ху, которые могут принимать значения х=0, 1, ..., к, имеющие смысл уровня оценки показателя по дискретной к - балльной шкале. Для оценки качества знаний, например, должны быть определены хч- относительные трудности х -ой градации г-ого задания. Тогда вероятность выбора і-го испытуемого варианта х для у-ого задания

Однако данный подход опять не позволяет в полной мере использовать данные с непрерывной оценкой результата и значительно усложняет вычислительную часть задачи.

Если отойти от применения модели в образовании, то потребность в непрерывных оценках объектов субъектами становится еще более существенной - критерии оценивания латентных показателей в большинстве случаев измеряются в процентах, долях, некоторых действительных единицах, и политомическая, а тем более дихотомическая модели Раша становятся неприемлемыми.

Автором предлагается кардинально новый подход в расчете оценок логитов, согласно которому МП-метод заменяется методом наименьших квадратов (МНК): параметры 0/ и ру модели оценки латентных переменных выбираются так, чтобы сумма квадратов отклонений эмпирических данных xд от расчетных вероятностей pц была наименьшей.

Основное преимущество данной модели в том, что в качестве эмпирических данных в ней вместо (2.2) можно использовать нечеткое множество ху, имеющее смысл степени оценки і-м субъектом у-го объекта, которая измеряется непрерывно от 0 до 1. Данный подход позволит использовать модель для анализа многих латентных показателям, которые измеряются по непрерывным и дискретно - непрерывным оценочным шкалам.

Еще одно немаловажное преимущество заключается в том, что предлагаемый подход значительно расширяет инструментальные возможности решения задачи. Если в классической модели Раша, основанной на МП методе, для решения задачи на ЭВМ нужно использовать специализированное программное обеспечение (оно описано в Главе 1), наиболее известным из которого является математический пакет RUMM (http://www.rummlab.com), то предлагаемая модель, основанная на МНК, представляет собой классическую задачу нелинейного программирования с целевой функцией (2.4) и ограничениями (2.5), численное решение которой, во-первых, алгоритмически реализуется с более простыми численными методами, чем в классическом Раш-анализе, во-вторых, возможно с помощью множества прикладных программ [19, 20]. В Главе 3 приведена методология решения задачи на ЭВМ в среде MS Excel.

Рассмотрим пример, позволяющий сравнить оценки, полученные разными методами. Пусть 9 субъектов проходили тестирование по 15 объектам. Результаты тестирования отражены в Оценки параметров, полученные МП-методом и МНК Видно, что оценки хорошо коррелируют друг с другом. Коэффициент корреляции Пирсона [26] между оценками и , полученными МП-методом и методом МНК для приведенных данных составляет 0,97 и 0,96. Автором были проведены расчеты для большого числа различных матриц Ху различного размера и везде получена высокая корреляция. Результаты вычислительного эксперимента, решающего эту задачу, приведены в Главе 3. Однако можно наблюдать и расхождения оценок параметров разными методами. Так видно, что МП метод дает более высокую объекта № 4 по сравнению с № 3 а также 15-го объекта по сравнению с 14-м, в то же время оценки по МНК противоположные. Какой метод дает более объективные оценки - вопрос пока открытый.

Описанная выше модель, основанная на МНК и позволяющая обрабатывать нечеткие множества исходных данных, открывает ряд новых возможностей при оценки латентных переменных. Приведем две таких модели, позволяющих использовать функцию Лапласа вместо логистической для обработки данных определенной специфики и динамическую модель, позволяющую оценивать латентные переменные, которые могут меняться во времени.

В основе классической модели Раша лежит логистическая функция (2.1) распределения вероятности от разности логитов (i - j). Именно она и обуславливает линейность полученных оценок. Однако, реальное распределение данного показателя может быть иным. Имеются основания считать, что в связи с тем, оценка объекта 0 и уровень субъекта формируются под влиянием большого числа факторов различной природы, то согласно Центральной предельной теоремы теории вероятностей [26, 41, 70], их распределение, как и распределение их разности, будет близким к нормальному. Действительно, латентные переменные поэтому и являются неявными, что их измерить, а иногда даже и сформулировать, бывает непросто. Латентные переменные формируются под влиянием различного рода других, явных переменных, называемых индикаторными, а последние в свою очередь имеют сложную природу. Таким образом, утверждение: логиты распределены по закону, близкому к нормальному, не лишено своего смысла. На этом утверждении и основана представленная здесь модель. Конечно, вводя нормальное распределение вместо логистического, теряется одно из основных преимуществ модели Раша - линейность шкалы логитов (логистическая функция и была предложена Г. Рашем из соображения линейности логитов). Однако, объективность оценок может при этом повысится. Статистическое обоснование гипотезы о нормальном распределении результатов оценок такого латентного показателя, как качество остаточных знаний студентов будет приведено в конце раздела.

Индивидуальное распределение исполнителей по работам

Эксперимент проводился в рамках подготовки слушателей отделения повышения квалификации, с двумя группами обучающихся по направлению «Менеджмент и управление». На практических занятиях слушатели выполняли проектно-расчетные комплексные задания, которые позволяли использовать представленные методики выполнения работ на практике и проконтролировать полученные результаты. Для проведения эксперимента были взяты 2 группы слушателей, каждая группа разбивалась на 2 подгруппы – экспериментальную и контрольную, в контрольной группе задания выполнялись по классической методике, без применения описанных методик, а в экспериментальной с использованием методик. Время на выполнение заданий отводилось одинаковое, прочие условия также совпадали, деление на группы было случайное.

Первая группа выполняла проектное задание по теме «Построение и оптимизация сетевого графика», которое содержало несколько этапов работ, но в каждой работе принимал участие весь коллектив слушателей. Поэтому, для первой группы было целесообразно использовать модель формирования рабочих коллективов. Экспериментальная подгруппа первой группы имела 22 исполнителя, а контрольная - 19.

Вторая группа выполняла задание по теме «Моделирование производства и потребления». Согласно заданию, нужно было построить функции спроса и предложения на определенное благо, исследовать рынок, найти равновесную цену, на ее основе, с применением производственных функций смоделировать производство блага и определить баланс между производством и предложением по балансовой модели Леонтьева. Это задание предполагало выполнение большого числа независимых работ, которые выполнялись параллельно, и в каждой работе можно было задействовать одного или несколько исполнителей. Для этой группы использовалась модель индивидуального распределения исполнителей по работам. Экспериментальная подгруппа первой группы имела 26 исполнителей, а контрольная - 25.

Перед началом работ каждый исполнитель экспериментальной группы проходил анкетирование, в котором указывал, в какой мере (по непрерывной шкале от 0 до 1) он может выполнить то или иное задание. Затем результаты обрабатывались методами, описанными выше и создавался план выполнения проектного задания с распределением ролей. В контрольной группе работы выполнялись без применения описанных методик.

По результатам выполнения работ проводилось оценивание результатов для каждого исполнителя по десятибалльной шкале. Следует отметить, что оценку получал каждый исполнитель индивидуально, а не весь коллектив, поэтому разное число слушателей в группе не влияло на качество эксперимента. Результаты качества выполнения работ для всех участников представлены в табл. 4.4.

Для обработки полученных результатов использовались стандартные статистические методы, описанные в [26, 70]. Описательная статистика полученных результатов Числовые характеристики, найденные по выборочным данным играют важную роль при описании свойств исследуемых показателей. Основными показателями описательной статистики являются: Выборочная средняя – это среднее арифметическое значение вариант статистического ряда. по Мода (М0) -дает представление о центре распределения вариационного ряда. Медиана (Ме) - это серединная варианта, центральный член ранжированного ряда. Мода, медиана и выборочная средняя являются характеристиками положения наблюдаемых величин в статистическом ряду. Выборочная дисперсия - среднее арифметическое квадратов отклонения вариант от их среднего значения. Среднее квадратическое отклонение - корень квадратный из дисперсии.

Коэффициент вариации представляет процентное отношение среднеквадратического отклонения к среднему арифметическому. Вариационный размах равен разности между максимальным и минимальным значением показателя: R = хтах - xmin. Коэффициентом асимметрии вариационного ряда характеризует симметрию распределения данных. Если А = 0, то распределение имеет симметричную форму, т.е. варианты, равноудаленные от хв, имеют одинаковую частоту. При А 0 - положительная асимметрия (правая часть более пологая). При А 0 - отрицательная асимметрия (левая часть более пологая).

Эксцесс вариационного ряда является показателем «крутости» вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределенной величины равен нулю. Если Ё 0, то полигон имеет более крутую вершину. Если Ё 0, - более пологую, чем нормальное распределение.

Далее, построим группированный статистический ряд по выборочным данным с расчетом для него теоретических вероятностей и теоретических частот нормального распределения, которые понадобятся в дальнейшем для проверки статистической гипотезы о виде распределения. Результаты расчетов приведены в табл. 4.6. Теоретические вероятности и теоретические частоты вычислены в соответствии с методикой, описанной ниже, в разделе «Проверка гипотезы о виде распределения».

Гистограммы результатов тестирования. Проверка нормальности распределения

Для проверки нормальности распределения используется критерий согласия Пирсона (критерий - квадрат). Данный критерий предназначен для проверки гипотезы Н0 о том, что один или несколько показателей соответствуют заданному распределению.

В результате вычислений статистик по описанной методике и сравнения их с критическим значением оказалось, что на уровнях значимости 0,05 и 0,01, распределение генеральных совокупностей, представленных выборками можно считать нормальным. Этот же результат подтверждают и графики кривых нормального распределения, представленные на рис. 4.6. Теоретические кривые хорошо накладываются на гистограммы.

Из всего сказанного можно сделать вывод, что к полученным данным можно применять методы параметрической статистики, свойственные для распределенных по нормальному закону показателей.

Разработка и реализация моделей измерения латентных переменных с нечеткими множествами данных -- Соловьева Елена Валентиновна

Латентно-структурный анализ и его практическое применение

Динамическая модель и ее использование в прогнозировании

Программная реализация алгоритмов и результаты вычислительного эксперимента

Индивидуальное распределение исполнителей по работам

Похожие диссертации на Разработка и реализация моделей измерения латентных переменных с нечеткими множествами данных --