Разработка и исследование модели для оценки эффективности банков тестовых заданий в компьютерных системах обучения Бойченко Михаил Михайлович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бойченко Михаил Михайлович. Разработка и исследование модели для оценки эффективности банков тестовых заданий в компьютерных системах обучения : диссертация ... кандидата технических наук : 05.25.05. - Таганрог, 2007. - 189 с. : ил. РГБ ОД, 61:07-5/3759

Содержание к диссертации

Введение

Глава I. Обзор и анализ основных элементов моделей оценки эффективности банков тестовых заданий в компьютерных системах обучения 17

Введение 17

1.1. Анализ подходов к измерению латентных свойств личности 18

1.2. Обзор вероятностных моделей теории педагогических измерений 25

1.3. Анализ методов формализации интегральных характеристик эффективности банков тестовых заданий 34

1.4. Сравнительный анализ моделей организации процесса обучения в компьютерных обучающих системах 38

1.5. Обзор компьютерных средств поддержки педагогической деятельности 42

Выводы по главе 44

Глава II. Разработка математической модели оценки эффективности банков тестовых заданий в компьютерных системах обучения 49

Введение 49

2.1. Формализация модели педагогических измерений в задаче оценки эффективности банков тестовых заданий 51

2.2. Разработка кибернетической модели латентного пространства заданий теста для оценки числовых характеристик тестовых заданий 54

2.3. Исследование и оптимизация информационных характеристик моделей банков тестовых заданий на основе модели латентного пространства 60

2.4. Разработка обобщенных кибернетических моделей характеристических функций для задач педагогических измерений 70

2.5. Разработка и исследование информационных функций банков тестовых заданий 77

2.6. Разработка инфологической модели данных для банков тестовых заданий 80

Выводы по главе 84

Глава III. Разработка алгоритмов проектирования банков тестовых заданий для компьютерных систем обучения и оценки их эффективности 86

Введение 86

3.1. Алгоритм статистической калибровки банков тестовых заданий с помощью метода максимального правдоподобия 87

3.2. Алгоритм статистической калибровки банков тестовых заданий с помощью метода наименьших квадратов 91

3.3. Разработка метода калибровки банков тестовых заданий с помощью экспертных оценок 93

3.4. Разработка алгоритма калибровки обобщенных моделей банков тестовых заданий с помощью экспертных оценок 91

3.5. Разработка общего алгоритма проектирования банков тестовых заданий для компьютерных систем обучения 99

Выводы по главе 106

Глава IV. Разработка и исследование компьютерных средств для анализа эффективности банков тестовых заданий 107

Введение 107

4.1 Разработка функциональной структуры компьютерной системы оценки эффективности банков тестовых заданий 107

4.2. Разработка алгоритмов использования оценок эффективности банков тестовых заданий 110

4.2. Исследование вычислительной сложности новых алгоритмов проектирования и оценки эффективности банков тестовых заданий 114

4.3. Исследование надежности оценок, получаемых с помощью моделей педагогических измерений 118

4.4. Сравнительный анализ характеристик компьютерных систем обучения и контроля эффективности банков тестовых заданий 127

Выводы по главе 132

Заключение 133

Список использованной литературы 135

Приложение 1 149

Приложение 2 155

Приложение 3 175

Обзор вероятностных моделей теории педагогических измерений
Разработка кибернетической модели латентного пространства заданий теста для оценки числовых характеристик тестовых заданий
Алгоритм статистической калибровки банков тестовых заданий с помощью метода наименьших квадратов
Разработка алгоритмов использования оценок эффективности банков тестовых заданий

Введение к работе

Начало XXI века ознаменовано новой технологической революцией -созданием и всемерным развитием информационного общества, продолжающего развитие предыдущего этапа - общества тотальной индустриализации. Основой перехода от индустриального этапа развития общества к информационному являются информационные технологии. Начальным и важнейшим этапом массового внедрения информационных технологий является сфера образования. Современные информационные технологии открывают обучаемым доступ к новым общедоступным источникам информации, повышают эффективность самостоятельной работы, дают совершенно новые возможности для творчества, обретения и закрепления различных профессиональных навыков, позволяют реализовать принципиально новые формы и методы обучения с применением средств концептуального и математического моделирования явлений и процессов [1-7].

Информационные технологии обучения открывают преподавателю возможность автоматизации как отдельных видов учебной работы [8,9], так и любого их набора, то есть проектирования обучающей среды [10,11]. Ориентированные на преподавателя инструментальные средства позволяют оперативно обновлять содержание автоматизированных учебных и контролирующих программ в соответствии с появлением новых знаний и технологий [12-16].

Осуществление информатизации образования требует особой информационной политики, основные положения которой применительно к системе образования России концептуально осознаны и сформулированы. Разработан и осуществляется ряд государственных, межотраслевых научно-технических программ (Федеральные целевые программы (ФЦП): "Электронная Россия (2002-2010 годы)" и "Развитие единой образовательной информационной среды (2001-2005 год)"), предусматривающих

выполнение широкомасштабных проектов информатизации образования по следующим основным направлениям:

совершенствование базовой подготовки учащихся по информатике и информационным технологиям;

совершенствование системы подготовки и переподготовки преподавательских кадров в области информационных технологий;

информатизация процесса обучения и воспитания;

оснащение системы образования техническими средствами информатизации;

создание современной национальной информационной среды и интеграция в нее учреждений образования;

создание на базе информационных технологий единой системы дистанционного образования в России;

участие России в международных программах, связанных с информационными технологиями в образовании.

В связи с нарастающим широкомасштабным применением информационно-коммуникационных технологий в учебном процессе сформировался ряд актуальных проблем в развитии современных методов обучения [6]. Практика и многочисленные исследования показали, что попытки прямого внедрения данных технологий в учебный процесс оказались малоэффективными [22]. Освоив вычислительную технику на уровне пользователей, основная масса преподавателей крайне неэффективно используют ее в учебном процессе. В связи с этим стала очевидной потребность в создании теоретически обоснованных оптимальных подходов к производству новых образовательных средств, в обучении преподавательского состава навыкам и приемам, которыми традиционные преподаватели не владеют [6, 7]. Классические образовательные формы предполагают обязательное наличие в учебном процессе преподавателя. В связи с конечными времен-

ными ресурсами последних, приходящимися на одного обучаемого, существует устойчивая необходимость автоматизации процесса обучения.

В современной педагогике под обучением понимают совместную деятельность учащегося и преподавателя, направленную на достижение учебных целей, овладение знаниями, умениями и навыками, заданными учебными планами и программами [25]. Бурное развитие вычислительной техники привело к появлению компьютерных систем обучения (КСО) [1,2,9], использующих в качестве основного инструмента обширные базы заданий. Основной целью использования КСО является поддержка качества необходимого образовательного компонента, как средства эффективного решения некоторых педагогических проблем.

Совершенствование процесса обучения при применении КСО подтверждается рядом исследований [6,8,11,12]. Этому способствуют факторы индивидуализации обучения, интенсификация обучения [21,22], использования дополнительных выразительных средств вычислительной техники, таких как наглядность, наличие средств моделирования объектов и процессов, постоянный контроль степени усвоения знаний.

Кроме этого, КСО способствуют развитию умений и навыков самостоятельной работы [22], уменьшению времени, затрачиваемого преподавателем на трудоемкие и часто повторяющихся операции - подготовку актуального конспекта лекций, контроль знаний и т.д., появлению возможности применения средств дистанционного обучения [26-28].

В исследовании РосНИИ Информационных Систем [22] указываются следующие типовые КСО для поддержки различных форм занятий:

- лекции - демонстрация выполнения простейших заданий в ходе получения учебной информации на лекции способствует достижению определенной «прочности» знаний, необходимой при выполнении лабораторных или практических работ;

семинары, для которых используются не столько демонстрационные, сколько исследовательские примеры, с помощью которых обучаемые в интерактивном режиме могут изучать какую-либо проблему или вид задачи;

лабораторные работы, в процессе выполнения которых обучаемые должны закреплять новые знания, приобрести навыки и умения для будущей научно-исследовательской работы. Наиболее важным применением КСО в этих случаях является возможность выполнения на ЭВМ математических экспериментов;

упражнения, а также контрольные процедуры, при выполнении которых совершенствуются умения и навыки. Компьютеризованная поддержка упражнений позволяет не только проводить допуск к работе, проверять уровень знаний, но и обеспечивать, во время их выполнения, упражнений доступ к дополнительным теоретическим сведениям, приводить примеры задач и упражнений, давать методические рекомендации по их выполнению.

Для улучшения управления процессами обучения и повышения качества знаний с помощью КСО организуется непрерывная обратная связь в виде предварительного, текущего и рубежного контроля, приводя в процессе исторического развития КСО к идеологии адаптивного обучения [22].

История разработки КСО имеет ярко выраженные этапы, связанные с совершенствованием и ростом возможностей компьютерной техники. В 1950-1960-е годы были предложены первые обучающие системы- системы программированного обучения [2,5]. Они базировались на теории, в которой для повышения эффективности управления учебным процессом предлагалось строить учебную траекторию в соответствии с психологическими знаниями об обучаемом [7,8]. Эти системы строились с использованием обучающих и контролирующих модулей, при этом имею-

щих очень ограниченные возможности. Применение таких модулей, по сути, не давало сколько бы то ни было значимых результатов [3].

В 1970-х - начале 1980-х компьютерными обучающими системами принято было называть любые программы, предназначенные для информационной или функциональной поддержки процесса обучения: тесты, электронные учебники, лабораторные практикумы и т.п. [2,5]. Далее продолжались исследования возможности применения методов представления знаний, разработанных в области искусственного интеллекта и практическая реализация таких систем. При этом для решения двух других проблем - управления обучением и контроля знаний - требовались более сложные методы и средства. Именно эти проблемы все еще являются предметом современных исследований в области обучающих программ [6-8,12]. В это же время появляются модели обучения на основе когнитивной психологии и обучающие системы продуцирующего типа, где обучающие воздействия выбираются не педагогом, а определяются алгоритмом функционирования системы и генерируются в зависимости от целей обучения и текущей ситуации. При этом предполагается, что в обучающей системе представлены знания о том, чему обучать, как обучать и знания о самом обучаемом [18-20].

Следующий этап (конец 1980-х и начало 90-х годов) характеризуется широким распространением персональных компьютеров, развитием вычислительных сетей, усилением аппаратных возможности. Это привело к необходимости создания обучающих систем, ориентированных на работу в локальной и глобальной сети, с применением стандартов представления и передачи данных, а также внедрением в процесс обучения средств мультимедиа [17,27].

Переход от локальных обучающих систем к сетевым позволяет значительно расширить круг пользователей системы. Более того, при организации работы через компьютерную сеть, общение между обучаемыми

и преподавателем может быть даже более интенсивным, чем при традиционном обучении в высшей школе. Преподаватель получает возможность постоянного контроля состояния процесса обучения (в первую очередь, с использованием средств автоматического контроля), а обучаемый - возможность консультации в режиме on-line или по электронной почте [4,6].

В дальнейшем развитие КСО было направлено на создание обучающих систем, основанных на использовании элементов искусственного интеллекта с целью частичной или полной замены преподавателя. Была разработана структура интеллектуальных обучающих систем и предложены некоторые методы решения этой проблемы [29-31]. Применение этих методов и технологий, при создании КСО, позволяет говорить о создании адаптирующихся обучающих систем, позволяющих в зависимости от параметров обучаемого и результатов контроля знаний генерировать новые последовательности управляющих воздействий [12,23,28].

Совместное использование сетевых технологий и достижений в области искусственного интеллекта дает возможность создания перспективных обучающих систем, которые позволят адаптировать учебный процесс к конкретному обучаемому [11,23]. В связи с нарастающим широкомасштабным применением информационно-коммуникационных технологий в учебном процессе сформировался ряд актуальных проблем в развитии теоретических основ построения КСО [6]. Практика и многочисленные исследования показали, что попытки прямого внедрения данных технологий в учебный процесс оказались малоэффективными [22]. Освоив вычислительную технику на уровне пользователей, основная масса преподавателей крайне неэффективно использует ее в учебном процессе. В связи с этим стала очевидной потребность в создании теоретически обоснованных оптимальных подходов к производству новых образовательных средств, в обучении преподавательского состава навыкам и приемам, ко-

торыми традиционные преподаватели не владеют [6,7]. Причиной подобных трудностей в частности, является значительная степень неопределенности как в исходной информации об уровне подготовленности обучаемого, так и в информации об уровне ответов на тестовые задания [3,26]. Именно то, в какой форме представить содержание учебного предмета, его место в образовательном процессе, практическую значимость, оцениваемую с точки зрения перспектив профессиональной карьеры и личностного роста, а также организовать учебный процесс, задают общее направление совершенствования КСО [2,3,5,17,24]. Подводя итог можно заметить, что построение новых педагогических программных средств следует проводить с учетом современных подходов к учету неопределенностей в исходной информации, поступающей в виде обратной связи в КСО или непосредственно к тестологу в случае автоматизированного обучения [137].

Несмотря на указанные выше значительные успехи в совершенствовании методов и средств компьютерного обучения и, особенно, компьютерного тестирования как его важнейшего элемента [10,55], в настоящее время в области проектирования, оценки и применения банков тестовых заданий существует ряд нерешенных задач.

Прежде всего, необходимо дальнейшее развитие теоретической базы проектирования банков тестовых заданий в сторону разработки новых информационных характеристик банков, позволяющих получать адекватные оценки их эффективности. Они должны позволять дифференцировать контингент тестируемых по уровню знаний в выбранной предметной области или обеспечивать адаптацию заданий к уровню знаний отдельных обучаемых [28].

С точки зрения практической применимости методов теории педагогических измерений необходимо дальнейшее развитие алгоритмической базы компьютерных средств создания банков калиброванных тестовых

заданий с заданными характеристиками [99,101], что позволит оперативно реагировать на изменения в современных требованиях к проектируемым компьютерным курсам обучения [77]. Необходимо также создание алгоритмов обработки тестовых данных, позволяющих уменьшить влияние изначально присущей педагогическим измерениям неопределенности [37,41,43] на результаты тестирования.

Возможные пути получения новых теоретических и практических результатов связаны с введением в арсенал теории педагогических измерений, являющейся основным инструментом тестологии [37-40], элементов кибернетики и теории передачи информации, связанных с анализом информации в условиях неопределенности [43,81], органически присущей педагогическим и психологическим измерениям [36]. На теоретической базе кибернетики возможно дальнейшее развитие методов моделирования педагогических измерений с использованием неклассических вероятностей и теории случайных множеств [82,86,90]. Это позволит существенно повысить эффективность оценок знаний, получаемых с помощью баз тестовых заданий, спроектированных с применением новых моделей измерений. Наконец, введение новых методов оценки тестовых заданий может позволить значительно улучшить временные и качественные показатели процесса проектирования и применения банков тестовых заданий [55].

Целью диссертационной работы является разработка и исследование теоретической и методологической базы применения новых моделей педагогических измерений для оценки эффективности банков тестовых заданий в компьютерных системах обучения.

Для достижения поставленной цели необходимо решить следующие задачи:

- разработать методики оценки информационного содержания банков тестовых заданий;

разработать модель оценки эффективности банков тестовых заданий в педагогических измерениях;

разработать алгоритмы применения предложенной модели оценки эффективности при проектировании и использовании банков тестовых заданий;

провести теоретическое и практическое изучение полученной методологии оценки эффективности банков тестовых заданий.

Практическая ценность результатов исследований определена их применением для решения задач проектирования и разработки банков тестовых заданий в компьютерных системах обучения общего назначения, которые могут применяться в широком спектре предметных областей обучения.

Диссертационная работа состоит из введения, четырех глав, заключения, списка источников и приложений.

В первой главе проведен обзор и анализ существующих моделей оценки эффективности банков тестовых заданий в компьютерных системах обучения. Проведен анализ существующих подходов к измерению латентных свойств личности и использованию вероятностных моделей в педагогических измерениях. Формализована задача учета неопределеннности в тестовых данных, а также задача создания обобщенных интегральных характеристик банков тестовых заданий. Для целей разработки программных средств были рассмотрены модели организации учебного процесса и поддержки педагогической деятельности. В результате формализованы основные цели и задачи диссертационного исследования.

Во второй главе разработаны математические модели оценки эффективности банков тестовых заданий в компьютерных системах обучения. Формализованы основные предпосылки и введены модели латентного пространства тестовых заданий на основе кибернетического подхода.

Предложены математические модели для задач оптимизации информационных характеристик банков тестовых заданий и их информационных функций. Разработана инфологическая модель базы данных для обслуживания банков тестовых заданий.

В третьей главе разработаны алгоритмы проектирования банков тестовых заданий для компьютерных систем обучения и оценки их эффективности. Предложены статистические алгоритмы калибровки баз тестовых заданий, основанные на идеях метода максимального правдоподобия и метода наименьших квадратов. Для устранения их недостатков в главе разработана методика и алгоритм оптимизации и калибровки тестовых заданий с помощью экспертных оценок. На этой алгоритмической основе предложен общий итерационный алгоритм проектирования и калибровки банков тестовых заданий.

В четвертой главе проведена разработка и исследование компьютерных средств анализа эффективности банков тестовых заданий. Разработана функциональная структура и алгоритмы использования оценок при построении компьютерной системы оценки эффективности банков тестовых заданий.

Проведено теоретическое исследование разработанных в диссертационном исследовании алгоритмов для оценки их вычислительной сложности в сравнении с известными алгоритмами. Выполнен анализ надежности оценок, получаемых с помощью введенных моделей педагогических измерений и даны рекомендации по минимальным требованиям к банкам заданий и контингенту тестируемых.

На основе анализа маркетинговой информации проведено сравнение основных функциональных показателей предлагаемой компьютерной системы анализа эффективности и применения банков тестовых заданий и аналогами, представленными на международном рынке, которое показало наличие существенных преимуществ разработанной системы.

Заключение содержит выводы о работе.

Объектом исследования в диссертационной работе являются информационные модели банков тестовых заданий, а также методы построения, математического анализа и программной реализации эффективных банков тестовых заданий.

Методологическую основу работы составляет системный подход, суть которого - представление и исследование модели процесса обучения в виде системы моделей оценки различных этапов обучения и выделения связей между ними.

Поставленная цель диссертационной работы и сформулированные в соответствии с целью задачи создали предпосылки для получения новых научных результатов в области математического моделирования информационных процессов в банках заданий компьютерных систем обучения широкого применения.

Новыми научными результатами диссертационной работы, выносимыми на защиту, являются:

Концепция кибернетической модели латентного пространства для педагогических измерений и введенные на ее основе критерии оптимальности для банков тестовых заданий.
Математическое представление обобщенной модели информационной функции банков тестовых заданий.
Алгоритмы калибровки и проектирования банков тестовых заданий с помощью оценок эффективности, получаемых на основе теоретических результатов работы.

В качестве основных методов исследования были использованы методы системного анализа, методы латентно-структурного анализа, теории вероятностей, теории случайных множеств, реляционной алгебры.

Научная новизна диссертационной работы заключатся в следующем:

Введение основных положений теории обработки сигналов в проблематику построения моделей измерения латентных свойств личности;

Введение нового типа информационных моделей банков тестовых заданий для педагогического процесса, отличающихся от известных тем, что для достижения общности использован математический аппарат обобщенных функций;

Разработка критериев и алгоритмов проектирования банков тестовых заданий на основе созданных в работе моделей оценки эффективности;

Разработка алгоритмов калибровки обобщенных моделей банков тестовых заданий с использованием методов теории свидетельств.

Достоверность полученных результатов подтверждается адекватностью и достоверностью исходных моделей и методов, результатами математического моделирования разработкой действующих программ и результатами применения в условиях реального процесса обучения.

Основные результаты докладывались и обсуждались на следующих научно-практических конференциях:

на XXVII Межвузовской военно-научной курсантской (студенческой) конференции (г. Новочеркасск, НВИС, 2000 г.);

на международных конференциях Таганрогского государственного радиотехнического университета "Информационные технологии в естественных, технических и гуманитарных науках" (2002 г.), "Системный подход в науках о природе, человеке и технике" (2003 г.), "Информационные технологии, системный анализ и управление" (2003г.), "Динамика процессов в природе, обществе и технике: информационные аспекты" (2003г.), "Информационный подход в естественных, гуманитарных и технических науках" (2004 г.), VII всероссийской научной конференции "Новые информационные технологии. Разработка и аспекты примене-ния"(2004 г.);

на конференциях "Проблемы образования в современной России и на постсоветском пространстве" (Пенза-2005), "Математическое и программное обеспечение вычислительных систем" (Рязань-2005);

на заседаниях кафедры САиТ Таганрогского государственного радиотехнического университета ежегодно (2001-2005гг.) докладывались и обсуждались результаты опытно-экспериментальной работы.

Научные и практические результаты, полученные в диссертации, изложены в 7 статьях и 4 тезисах докладов на всесоюзных и международных конференциях.

Полученные в третьей главе алгоритмы проектирования и калибровки банков тестовых заданий и их программные реализации легли в основу создания авторского программного продукта "Автоматизированная информационно-обучающая система", способствующего повышению эффективности образовательного процесса.

Результаты диссертационной работы были внедрены в процесс профессиональной подготовки специалистов в Администрации Таганрогского морского порта, в учебный процесс в Таганрогского государственного педагогического института и Таганрогского технологического института южного федерального университета, что подтверждается актами о внедрении, приведенными в Приложении 1.

Диссертация содержит 147 страниц машинописного текста, включая введение, четыре главы, заключение, список использованных источников из 141 наименования, 26 рисунков, 4 таблицы.

Обзор вероятностных моделей теории педагогических измерений

Один из них заключался в рекомендации увеличивать выборку до тех пар, пока статистика ошибок д. не станет сколь угодно близкой к значению параметра трудности р., получаемого на генеральной совокупности.

Второй результат, полученный D.W. Lawly в 1943 году [32], представлял собой попытку оценить устойчивость показателя трудности задания безотносительно к уровню подготовленности конкретной группы испытуемых. Для этого надо было найти некое свойство, присущее заданию, которое оказалось бы инвариантным относительно группы. Таким свойством обладают параметры крутизны кривой (значения производной) так называемых характеристических кривых заданий и теста в целом (см. далее). Построив по эмпирическим данным кривую логистического вида [70], он обнаружил, что при наличии для каждой кривой своего значения параметра трудности Р}, у обучаемых слабой группы "работает" нижняя часть кривой, а у обучаемых сильной группы - верхняя часть. В качестве меры работоспособности задания, т.е., способности дифференцировать обучаемых по уровни их подготовленности, D.W. Lawly предложил рассматривать параметр крутизны логистической кривой [71]. Таким образом, с каждым заданием теста он сопоставил два параметра - трудность задания и наклон кривой [39].

Параметры а,Ь,с имеют тот же смысл, что и для нормальных моделей, а константа d выбирается из соображений минимизации ошибки аппроксимации нормальной кривой с помощью соответствующей логистической кривой и для ручных расчетов обычно принимается йъ\Л [42].

Чем больше значение параметра а, тем круче характеристическая кривая, т. е. больше дифференцирующая способность задания к разделению тестируемых на две группы (знающих и не знающих). Чем больше значение Ь, тем больше трудность задания. Коэффициент угадывания с обычно рассматривается в заданиях закрытого типа, где вероятность угадывания правильного ответа довольно существенна.

Как было указано выше, G. Racsh стал рассматривать матрицу тестовых данных как результат сопряжения множества испытуемых с множеством заданий (1.1). G. Racsh поставил вопрос о сравнительной погрешности разных моделей и пришел к выводу о корректности только одной версии логистической модели (1.13), в которой, во-первых, все задания имеют одинаковый коэффициент селективности; во-вторых, коэффициент угадывания пренебрежимо мал.

В этом случае точкой перегиба характеристической функции является значение в = рг Значение функции (1.14) этой точке равно 0,5. Таким образом, в этой модели испытуемый со значением латентной переменной 9 = Д ответит корректно на это задание с вероятностью, равной 0,5 (использование принципа субъективной вероятности [73]). Далее G. Racsh предложил ряд изящных выводов из начальной посылки (1.14), для чего он использовал статистический анализ матрицы тестовых заданий.

Для построения первой кривой на оси абсцисс откладываются значения логитов знаний, а по оси ординат - значения вероятности правильного ответа на задание j, в зависимости от уровня знаний; чем выше уровень знаний обучаемых, тем выше будет вероятность правильного ответа. Для построения второй кривой из оси абсцисс откладывается значения логитов трудности заданий, а по оси ординат - вероятность правильного ответа обучаемого / на задания возрастающей трудности; чем выше трудность задания, тем меньшей будет вероятность правильного ответа у обучаемого с уровнем знания ві (Рис. 2.1).

Разработка кибернетической модели латентного пространства заданий теста для оценки числовых характеристик тестовых заданий

В предыдущем разделе были изложены основы построения математической модели теста в виде функции над абстрактным математическим пространством (пространство латентных свойств). В рамках настоящего раздела будем считать латентное пространство метрическим линейным пространством, используемым в качестве базиса для кибернетической модели в смысле [80-83].

Согласно теоретическому подходу B.C. Аванесова [23,26,67] понятие теста является системным и включает в себя: - методологию [15,26]; - структуру теста [23]; - набор заданий [67], являющийся производным от предыдущих компонентов теста.

Формализуем основные понятия, введенные Аванесовым с помощью кибернетического подхода. Для этого введем отношение частичного порядка на множестве отдельных тестовых заданий, используя для этого понятие характеристической функции задания (Глава I).

Утверждение 1. С точки зрения системного анализа тест по Аваиесо-ву представляет собой множество упорядоченных элементов латентного пространства.

Потребуем, чтобы мощность дискретного латентного пространства заданий теста была не меньше, чем число возможных значений результатов тестирования. При таком равенстве конкретизируется один из возможных фреймов соответствия (1.1) - отображение множества возможных значений латентной переменной в пространство результатов.

Из теории связи и кодирования известно, что сигналы, представляемые в пространствах, мощность которых равна числу возможных сообщений, обладают низкой устойчивостью к помехам [73,76]. В нашем случае для повышения помехоустойчивости процесса извлечения латентной информации внутри фрейма соответствия также желательно использовать избыточное представление, т.е. тесты с большим числом заданий, чем это необходимо для минимального представления возможных банков псевдоортогональных тестовых заданий, и, следовательно, мощность соответствующих пространств превышает минимальный объем банков возможных тестовых заданий. Тогда возникает вопрос: какие точки латентного пространства трудности тестовых заданий следует сопоставлять возможным ответам, полученным при расшифровке результатов тестирования (с учетом того, что в принятой нами модели педагогических измерений ответы представляют латентную информацию)?

Ответ на этот фундаментальный вопрос зависит от многих факторов: от статистических свойств потока попыток, соотношения латентных характеристик теста и латентных помех, возникающих в процессе выполнения и анализа теста и т.д. Очевидно, чтобы по результатам испытания мы могли каждый раз принимать решения относительно измеряемого латентного значения, латентное пространство должно быть классифицировано.

Утверждение 2. Классификация на множестве элементов латентного пространства Q сводится к выделению непересекающихся подмножеств (классов) 1С1,С2,... С} и установлению взаимно однозначного отображения разбиения {С1,С2,...С"} на множество возможных состояний латентного источника информации (заданий теста). С этой точки зрения наиболее простыми математическими модели процесса классификации являются модели ЛЛСА (см. раздел 1.2), в которых с помощью гиперплоскостей непосредственно задаются границы классов. Рассмотрим метод классификации, основанный на выделении в пространстве заданий теста определенных точек, являющихся представлениями соответствующих классов из множества {С ,С2,...Ст\, которые будем называть далее латентными реперними точками и обозначим х\х2,...хт. Для этого используем введенные в предыдущем разделе для латентного пространства понятия скалярного произведения {х\х2) и псевдометрики d(x\x2) [128,129].

В общем случае число реперных точек в латентном пространстве соответствует числу возможных подмножеств латентных значений трудности заданий теста. При выполнении теста каждому такому подмножеству сопоставляется определенная латентная реперная точка. При интерпретации результата тестирования осуществляется процесс, который, в сущности, сводится к оценке расстояния между точкой х латентного пространства и всеми латентными реперньши точками х1,х2,...хт и выбору той реперной точки, до которой от точки х расстояние минимально, т.е. вычисляется mind(x,x % і = \,...т. В результате интерпретация результатов тестирования сводится к классификации в латентном пространстве объединением точек, ближайших к данной латентнойреперной точке х , і = \,...т,в один класс С (х9х ): Ci(x,xl) = {xeX\d(x,xi) d(x,xJ),i j}. (2.1)

Изменение латентной величины можно рассматривать как адиттивное искажение выбранной при проектировании банков тестовых заданий латентной реперной точки (уровень трудности) х1 некоторой помехой. В результате становится доступной для анализа точка х = Xі + пространства ответов.

Теперь мы можем сформулировать задачу информационной оптимизации разрешающей способности банков тестовых заданий, сводящуюся к задаче распределения уровней трудности в латентном пространстве теста Q при заданном математическом описании заданий и помех. При этом для (2.1) выход точки х = х + за границы класса С, приводящий к ошибке при расшифровке ответа, должен происходить как можно реже.

Предложим возможное решение поставленной задачи в рамках кибернетической модели. Одним из важнейших понятий с точки зрения теории ЛЛСА (см. Главу I) является развитие понятия ортогональности [76] на латентное пространство тестирования. В силу допущений модели латентного пространства о произвольном (но фиксированном) упорядочении элементов банков тестовых заданий, принятых в Главе 1, применительно к заданиям теста вводимое свойство назовем псевдоортогональностью.

Алгоритм статистической калибровки банков тестовых заданий с помощью метода наименьших квадратов

В отличие от подхода, принятого в предыдущем разделе для калибровки тестов с закрытыми заданиями, для заданий открытого типа эффективным является метод наименьших квадратов (МНК) [124].

Решение задачи минимизации (3.5) можно выполнять любым численным методом, обеспечивающим необходимые условия сходимости при достаточно низкой степени обусловленности системы нормальных уравнений (3.5), поскольку при отсутствии ограничений на множество определения гистограммы, которая строится на Шаге 4, задача (3.5) часто бывает плохо определенной [124]. При этом норма погрешности вычисленных коэффициентов модели может быть очень большой, поскольку она обратно пропорциональна степени обусловленности матрицы задачи МНК.

Полученные выше алгоритмы получения статистических оценок в значительной степени зависят от характера исходных данных. В частности, необходимо иметь достаточно большие выборки, чтобы надежность подобных оценок достигла практически полезных значений. В следующем разделе проводится исследование надежности статистических оценок, основанное на использовании моделей педагогических измерений. Однако в силу того, что латентные свойства личности в педагогических измерениях во многом опреде дяклся субъективно, одним из эффективных подходов в опенке параметров является подход, основанный на использовании экспертных оценок [82-84].

Математический аппарат, позволяющий объективизировать оценки, полученные от экспертов (иди оценки, подученные в условиях неопределенности [90] с помощью различных физических методов) основывается на методах теории свидетельств (см. главу I).

В задачах, связанных с многомерными данными, содержащими элемент неопределенное [81], функции доверия и правдоподобия, вводимые в теории свидетельств (см, Главу I) можно истолковать также в терминах многозначного отображения или сашиных множеств.

В отличие от подхода, принятого в теории вероятностей (см. Главу І), в теорий свидетельств вместо подсчета появлений отдельных элементов множества U подсчитызаютея наблюдения подмножеств Д. с; О. Любое распределение вероятностей с суммарным весом т(А ) может быть определено на подмножестве Д и все они равноправны в том смысле, что ни одно из них не может быть выбрано как наиболее предпочтительное без дополнительной информации (см. Рис. 3.2).

Эти функции распределения определяют границы для всех возможных характеристических функций тестов, которые совместимы с имеющимися фокальными элементами. Получаемые границы являются ступенчатыми функциями (см. Главу II).

Приведем модельный пример использования аппарата случайных множеств для экспертной оценки качества заданий тестов. Экспертную оценку, полученную каждым экспертом [82], можно отобразить на элементы линейно упорядоченного множества, что существенно упрощает алгоритмы вычислений (благодаря упрощенному вычислению точных границ подмножеств). Будем считать, что номинальная шкала, по числу заданий, представляет собой интервал U = [0,7], для которого имеются шесть экспертных оценок (N = 6) возможных значений латентной функции X, связанных с проведенными пилотными испытаниями [55]. Три эксперта (с,=3) дали оценку интервала значений 4 =[4,5], два эксперта (с2 = 2) предпочли интервал А2 =[2,4], и один эксперт (с3 =1) определил интервал Аъ =[1,5]. Используя основные соотношения метода (см. раздел 2.1) найдем массовые вероятности для фокальных элементов, определенных интервалами Лх-Аъ. Вычислим значения: т(А1) = \/2, т(А2) = 1/3, т(Аъ) \1в.

Приведенный пример демонстрирует тот факт, что при получении верхних и нижних оценок значений характеристической функции (см. рис. 3.3) процесс оценки достоверности выполняется одновременно с расчетом оценок, что благотворно влияет на временные затраты при калибровке.

Вычислительная эффективность предложенного алгоритма подтверждается тем, что J. Barnett [138] показал, что кажущаяся экспоненциальная сложность, присущая общим методам теории свидетельств, может быть снижена до полиномиальной сложности если теория будет применяться к единичным гипотезам предпочтительнее, чем к множествам гипотез, и свидетельства будут комбинироваться упорядоченно. Gordon и Shortliffe [139] расширили подход J. Barnett до вычисления приблизительных степеней доверия в пространстве иерархически организованных множеств гипотез до линейной сложности. Этот подход был также классифицирован Shafer и Logan [140], которые обеспечили точный алгоритм для иерархически организованных множеств гипотез, обеспечивающий линейную временную сложность и слегка более общий, чем у Гордона и Шортлиффа. Позже Shenoy и Shafer [141] ввели метод для эффективного распространения значения доверия в сетях с помощью локальных вычислений и N. Wilson [100] предложил метод, в котором явное использование Демпстеровского правила исключалось.

Указанные подходы позволяют точно вычислять экспертные оценки с производительностью хуже полиномиальной, но лучше показательной при том, что гипотезы не должны быть иерархически структурированы. N. Wilson также предложил приближенный метод, основанный на модели Монте-Карло, который дает результаты, сколь угодно близкие к точным за линейное время. Предложенный в настоящем разделе алгоритм также использует оценки для отдельных гипотез, что позволяет оценить его вычислительную сложность как полиномиальную. В случае экспертных оценок отдельных заданий, объем которых относительно невелик, это обеспечивает достаточно малые временные затраты.

Разработанный нами алгоритм позволяет учитывать неопределенность в значениях характеристической функции латентной переменной в отличие от алгоритмов двух предыдущих разделов, основанных на использовании классических методов статистики и обработки данных.

Разработка алгоритмов использования оценок эффективности банков тестовых заданий

В работах [108,110] был выделен следующий набор методических функций, поддерживаемых компьютерной системой поддержки банка тестовых заданий. - предоставить обучаемому доступ к постоянно обновляемой и расширяемой базе учебных текстов, в которой представлено содержание подготовки по соответствующей специальности; - строить прогноз относительно возможности достижения образовательных целей в отведенные для этого сроки; - осуществлять сбор, обработку, отображение и сохранение сведений, характеризующих процессы преобразования текстов и особенностей психического состояния субъекта учебной деятельности; - обеспечить осуществление промежуточного и итогового видов контроля знаний с учетом прогресса становления познавательных структур; - предоставлять обучаемому помощь со стороны системы; - обеспечивать наличие оснований для оценки результатов самостоятельной работы обучаемых; - предоставлять обучаемому возможность реализовывать схему работы на уровне, соответствующему его притязаниям;

Исходя из вышеперечисленных задач, можно выделить следующие этапы работы пользователя: - ввод первичной информации, которую запрашивает информационно-обучающая система; - выбор обучающимся одной из траектории выполнения самостоятельной работы; - выбор одной из задач в качестве основной цели работы с текстом; - обучающийся знакомится с возможными путями достижением цели; - работа с текстом; - оценка процесса работы по качеству содержательного (предметного) и процессуального (деятельностного) компонента.

В соответствии с концепцией определения информационных характеристик отдельных заданий теешв (ем. главу 2) был реализован следующий модельный алгоритм работы с системой поддержки банка тестовых заданий типового пользователя с ншішм уровнем приоритета (обучающешея в режиме пилотного тестирования [55Л Щ), .который приведен на рисунке .

Описанные структуры и алгоритмы обеспечиваются работой графического интерфейса, подробное описание которого приведено в Приложении 2.

Для решения задачи моделирования основных свойств интегральной модели и алгоритмов калибровки были реализованы функциональные модули программного обеспечения педагога (тестолога) согласно спецификации предыдущего раздела.

На основе общих алгоритмов поддержки систем банков тестовых заданий, разработанных в Главе III, был разработан и реализован в составе инструментальных средств общий алгоритм работы КСО данных, в соответствии со структурой, изображенной на рисунке 3.5.

Алгоритм проектирования является переборным и, следовательно, имеет экспоненциальную оценку сложности 2П, что создает значительные практические трудности при увеличении объема базы заданий. Между тем, согласно требованиям стандарта государственного тестирования, объем базы должен быть порядка 103-104. Это значительно замедляет проектирование новых тестов, поскольку основные операции алгоритма выполняются экспертами, т.е. достаточно медленно.

Для повышения эффективности тестирования предложена новая модель педагогического измерения, объединяющая свойства большинства известных моделей измерения. В результате удалось отказаться от шага выбора модели измерений и от выбора параметров и использовать для калибровки теста и анализа окончательных результатов (шаги 2-8) непосредственно характеристическую кривую теста.

Таким образом, классический алгоритм проектирования банков тестовых заданий (рисунок 3.4) для случая ненаправленного изменения параметров сводится к полному перебору на множестве заданий в базе и, следовательно, является экспоненциально сложным. При введении дополнительного условия о неизменности применяемой модели измерений (исключение из калибровки шага 1) он может быть сведен к NP-полной задаче выполнимости на множестве заданий в базе [127]. Благодаря предложенному в Главе III исключению шагов, связанных с выбором типа модели и ее параметров, а также длины теста, новый алгоритм проектирования и оценки эффективности банков тестовых заданий может быть сведен к полиномиально сложной задаче 1-выполнимости (по параметру трудности тестового задания /?).

Таким образом, благодаря применению полученных в работе оценок основных параметров теста и введению новой модели измерений удалось свести задачу тестирования от экспоненциальной сложности типового алгоритма, представленного на рисунке 3.4, к алгоритму полиномиальной сложности, представленному на рисунке 3.5.

С помощью разработанного ПО был накоплен ряд результатов, полученных при помощи генераторов случайных чисел [124] в качестве источников модельных данных. Также использовались результаты, полученные при помощи применения методик обучения по дисциплинам, допускающим открытые ответы для тестовых заданий [100]. Для проверки разработанного ПО были использованы и результаты тестирования по дисциплинам, где шкалирование ответа может выполняться только с помощью полученного в Главе III алгоритма экспертной оценки и калибровки модели с помощью методов теории случайных множеств [118,119].

Разработка и исследование модели для оценки эффективности банков тестовых заданий в компьютерных системах обучения Бойченко Михаил Михайлович

Обзор вероятностных моделей теории педагогических измерений

Разработка кибернетической модели латентного пространства заданий теста для оценки числовых характеристик тестовых заданий

Алгоритм статистической калибровки банков тестовых заданий с помощью метода наименьших квадратов

Разработка алгоритмов использования оценок эффективности банков тестовых заданий

Похожие диссертации на Разработка и исследование модели для оценки эффективности банков тестовых заданий в компьютерных системах обучения