Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математические модели тестирования, позволяющие осуществлять измерения Овчинников Всеволод Валентинович

Математические модели тестирования, позволяющие осуществлять измерения
<
Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения Математические модели тестирования, позволяющие осуществлять измерения
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Овчинников Всеволод Валентинович. Математические модели тестирования, позволяющие осуществлять измерения : Дис. ... канд. техн. наук : 05.13.18 Великий Новгород, 2006 106 с. РГБ ОД, 61:06-5/1425

Содержание к диссертации

Введение

1 Основные модели теории тестирования 9

1.1 Классическая теория тестирования 9

1.2 Теория моделирования и параметризации тестов 12

1.2.1 Нормальная модель 15

1.2.2 Однопараметрическая модель Раша 18

1.2.3 Двухпараметрическая модель Бирнбаума 20

1.2.4 Трехпараметрическая модель Бирнбаума 23

2 Измерения и модели 26

2.1 Исследование измерительных возможностей процедуры тестирования 26

2.2 Модель, позволяющая производить измерения 34

2.3 Модель, позволяющая производить измерения. Политомический случай 42

3 Прикладные вопросы ТПМТ 48

3.1 Методы оценивания 48

3.1.1 Классический метод максимального правдоподобия и его применение 49

3.1.2 Метод безусловного максимального правдоподобия и его применение 50

3.1.3 Метод условного максимального правдоподобия и его применение 52

3.1.4 Метод, основанный на классическом подходе к оцениванию параметров 55

3.2 Характеристическая функция теста 64

3.2.1 ХФТ при равномерном распределении трудностей тестовых заданий 65

3.2.2 ХФТ при нормальном распределении трудностей тестовых заданий 67

3.2.3 Сравнение ХФТ при различных распределениях трудностей заданий 70

3.3 Конструирование тестов 77

3.3.1 Информационная функция задания. Информационная

функция

теста 77

3.3.2 Весовая функция задания. Весовая функция теста . 81

3.3.3 Задача линейного программирования 85

3.3.4 Линейное программирование и конструирование тестов 86

4 Заключение 94

5 Приложения 96

5.1 Программа обработки результатов тестирования 96

5.2 Комплекс программ по работе с базой данных заданий .

Введение к работе

Данная работа посвящена использованию математических моделей в такой казалось бы нетрадиционной для математики области как педагогическое тестирование. Основная цель - теоретически исследовать возможности оценивать учебные достижения испытуемых на метрической шкале и трактовать, таким образом, педагогическое тестирование как процесс измерения - в полном смысле этого слова. Понятно, что подобная трактовка возможна только в рамках определенной модели, и наша задача - выделить тот класс моделей, которые действительно позволяют отказаться от традиционной порядковой шкалы (отлично, хорошо и т.п.) и перейти на детальную шкалу интервалов.

Идея массового оценивания каких-либо характеристик испытуемых при помощи более дешевых и более объективных, по сравнению с экспертными оценками, тестов возникла достаточно давно. Однако реальное научное обоснование заложено только в конце прошлого столетия в работах математиков G. Rasch (Дания) и W. Wright (США), показавших принципиальную возможность инвариантности количественных характеристик испытуемых

>

относительно количественных характеристик тестовых заданий. В нашей стране подобные результаты получили название "Теория моделирования и параметризации тестов", сокращенно ТМПТ.

В рамках этой теории ответ участника тестирования на задание трактуется как реализация некоторой случайной величины, чье распределение зависит от многих параметров, в частности от параметров самого задания и параметров самого испытуемого. Основу модели составляет так называемая функция успеха, описывающая вероятность верного выполнения того или иного задания тем или иным участником тестирования в зависимости

от параметров этого задания и этого участника тестирования.

В настоящее время разработано довольно много моделей ТПМТ. Эти модели широко используются в медицине, биологии, педагогике ([39], [56]). Разрабатывались критерии, позволяющие судить об адекватности модели реальным данным. Исследовалась адекватность существующих на данный момент моделей реальным данным, сравнивались между собой различные критерии адекватности. Автором исследовалась адекватность модели с частично верными ответами. Эта модель используется в настоящее время для обработки результатов централизованного тестирования и единого государственного экзамена. В результате анализа было установлено, что в целом, модель адекватна реальным данным, но существует небольшое количество заданий, для которых значение статистики, используемой для проверки адекватности, существенно превышает допустимый порог. Причем уровень трудности этих заданий значительно превышал среднюю трудность по тесту, то есть эти задания были очень сложны для выполнения. При детальном изучении этих заданий выяснилось, что причина неадекватности заключается в том, что небольшое количество участников тестирования (5-10 человек) с низким уровнем подготовленности получили за эти задания высокие баллы (или, если речь идет о дихотомических заданиях, верно их выполнили). В силу того, что уровень трудности этих заданий намного выше среднего, можно предположить, что слабо подготовленные участники тестирования получили высокие баллы не решая эти задания, а списывая их. В случае честного решения этих заданий, участники тестирования с низким уровнем подготовленности получили бы за эти задания минимально возможные баллы. После внесения соответствующих изменений в матрицы ответов и пересчета результатов выяснилось, что трудности этих заданий остались практически такими же, какими были до измене-

ний, а мера согласия данных с моделью значительно улучшилась. То есть неадекватность модели была обусловлена несоблюдением правил проведения процедуры тестирования. Более подробно эти результаты изложены в [30].

Однако вопросы, связанные с адекватностью моделей, выходят за рамки данной работы, поэтому в дальнейшем к вопросам адекватности автор возвращаться не будет. Более детально с ними можно ознакомиться, например, в работах [58], [65], [66].

Не существовало функции, дающей характеристику теста в целом. К тому же, недостаточно исследованы численные методы оценивания параметров различных моделей. При конструировании тестов довольно часто используется информационная функция задания (количество информации по Фишеру), однако, совсем неисследованным оказался подход, основанный на весовых функциях задания.

Задача конструирования тестов обычно сводится к задаче линейного программирования. Для некоторых частных случаев были описаны соответствующие им задачи линейного программирования, но не оказалось методики, позволяющей представить задачу конструирования тестов для произвольной спецификации в виде задачи линейного программирования. Все это и определило направление исследований и выбор темы диссертационной работы.

Диссертация состоит из введения, трех глав и приложения.

В первой главе дается краткий исторический обзор развития тестирования. Сформулированы основные постулаты классической теории тестирования и показаны ее основные недостатки. Описаны четыре основные математические модели современной теории тестирования

(ТМПТ), предназначенные для обработки тестов, составленных из дихотомических заданий.

Во второй главе формализуются понятия теста как измерительного инструмента и непосредственно процесса измерения в случае использования тестов. Формулируются требования, которым должна отвечать модель ТМПТ, для того, чтобы с ее помощью можно было проводить измерения. Анализируются рассмотренные во второй главе модели ТМПТ. Для случая, когда уровень подготовленности участника тестирования полностью характеризуется одним числом и каждое тестовое задание также полностью характеризуются одним числом, выводится общий вид модели, удовлетворяющей требованиям, предъявляемым к тестированию как к процессу измерения. Выводится обобщение этой модели на случай политомических заданий.

В третьей главе рассматриваются прикладные вопросы ТМПТ. Анализируются различные численные методы оценивания параметров участников тестирования и тестовых заданий в рамках однопараметриче-ской модели Раша. Рассматривается вопрос, связанный с конструированием теста с заранее определенными свойствами.

В приложение описывается программное обеспечение, разработанное по заказу федерального центра тестирования для обработки результатов централизованного тестирования и единого государственного экзамена и для сопровождения базы данных тестовых заданий.

Актуальность диссертации обусловлена тем, что в качестве контроля качества все чаще используются не экспертные оценки, а различные тесты. В частности, в педагогике, для оценки уровней подготовленности испытуе-

мых по различным предметам уже несколько лет используются разнообразные тесты и различные методики обработки результатов. Именно поэтому необходимо определиться, какой же моделью ТМПТ пользоваться при обработке результатов и решить множество попутно возникающих проблем, связанных с конструированием тестов.

Теория моделирования и параметризации тестов

Сформулированные выше недостатки привели к необходимости отказа от классической теории тестирования. И постепенно выработался новый подход к проблеме оценки и интерпретации результатов тестирования.

Революционными работами в этом направлении стали статьи [53] и [54] датского математика Георга Раша, выполненные им в 60-е годы прошлого столетия. С тех пор появилось множество математических работ, посвященных тестированию, которые и послужили основой новой теории тестирования.

Новая теория тестирования получила название IRT (Item Response Theory) или, в русскоязычной литературе, ТМПТ (Теория Моделирования и Пара метризации Тестов).

В основу теории лег анализ отдельных заданий как самостоятельных единиц. В теории моделирования и параметризации тестов (ТМПТ), каждое тестовое задание рассматривается как некоторая самостоятельная единица, обладающая определенным набором параметров. Участник тестирования отвечает на предложенные ему задания и по его ответам делается вывод об интересующих нас характеристиках участника.

ТМПТ основывается на принципе, заключающемся в том, что ответ участника тестирования на задание есть величина не детерминированная, а случайная. Действительно, никогда нельзя быть уверенным на 100 процентов, что хорошо подготовленный ученик абсолютно верно выполнит легкое задание или слабо подготовленный ученик не справится со сложным заданием, во всем есть доля случайности. Таким образом, ответ участника тестирования на задание есть реализация некой случайной величины, распределение которой зависит от многих параметров. В их число могут входить и параметры самого задания, и параметры испытуемого, и параметры, отвечающие за какие-либо внешние воздействия. И различные ТМПТ-модели лишь определяют, от каких именно параметров зависит распределение этой случайной величины и как именно оно от них зависит.

Везде далее будут рассматриваться только те модели ТМПТ, в которых предполагается, что уровень подготовленности участника тестирования полностью характеризуется некоторой скалярной величиной в. Существуют многомерные модели, в которых уровень подготовленности участника тестирования описывается векторной величиной, но их рассмотрение выходит за рамки данной работы.

После проведения процедуры тестирования, анализируя ответы участников на задания, можно построить матрицу, в которой на пересечении г -й строки и j-ro столбца будет находится реализация случайной величины, соответствующей ответу г -ro участника тестирования на j-e задание. Данную матрицу будем называть матрицей ответов. Вся информация о параметрах заданий и об участниках тестирования заключена именно в этой матрице. И только по этой матрице необходимо получить оценки уровней подготовленности участников и оценки параметров заданий.

Возьмем произвольное задание и зафиксируем его параметры. Тогда вероятность того, что случайную величину, соответствующую ответу участника тестирования на это задание, примет то или иное значение, можно рассматривать как функцию от уровня подготовленности участника, то есть от в. Везде далее подобные функции будем называть характеристическими функциями задания, а их графики - характеристическими кривыми задания.

Для облегчения работы с моделями в ТМПТ принято предположение о том, что случайные величины, определяющие ответы участников тестирования на задания, независимы между собой. Данное предположение является техническим и введено только для упрощения вида функции плотности совместного распределения случайных величин в матрице ответов. В литературе данное предположение носит название "локальная независимость".

В рамках новой теории было предложено довольно много моделей, но, на наш взгляд, далеко не все предложенные модели позволяют избавиться от тех недостатков, из-за которых пришлось отказаться от классической теории. Поэтому, одной из целей диссертационной работы стало исследование измерительных свойств наиболее распространенных моделей.

Двухпараметрическая модель Бирнбаума

Но и двухпараметрическая модель устроила не всех. Так как большинство используемых форм тестовых заданий предполагают наличие возможных вариантов ответов, то у испытуемого возникает возможность угадывания верного ответа. В каких-то заданиях ответ угадать проще, в каких-то сложнее. Соответственно, возникло желание ввести еще один параметр задания, отвечающий за сложность угадывания. Бирнбаумом [51] было предложено обобщение его двухпараметрической модели, учитывающее угадывание.

Бирнбаум предположил, что каждое тестовое задание характеризуется тремя параметрами: 5, d и с. Областью определения первого параметра является Ж. Областью определения второго параметра является М+.

Областью определения третьего параметра является отрезок [0,1]. Тогда вероятность верного выполнения участником тестирования с уровнем подготовленности в задания, с параметрами 8, d и с равна: ed(9-S) P№M;c) c+(l-c)l + erf(M -(8)

Заметим, что при с = 0, модель превращается в двухпараметрическую модель Бирнбаума, а при с = 0, d=l-B однопараметрическую модель Раша.

Также, как и в предыдущих случаях, вероятность верного выполнения задания в (8) реально зависит не от четырех параметров, а от трех, поэтому модель получила название трехпараметрической модели Бирнбаума. Рассмотрим характеристическую кривую задания, с параметрами 5, d и с. Несложно видеть, что эта характеристическая кривая по прежнему монотонно возрастает на всей области определения и имеет одну точку перегиба. Но область значений характеристической функции не отрезок [0,1], с+ 1 а отрезок [с, 1]. Абсцисса точки перегиба равна , ордината —. Тангенс угла наклона касательной к характеристической кривой в точке перегиба равен . Смысл и названия параметров д и а остались такими же как и в случае двухпараметрической модели. Из (8) следует, что lim Р{9\ 5, d, с) = с, lim P(6;5,d,c) = 1.

То есть, вероятность выполнения данного задания участником тестирования с бесконечно малым уровнем подготовленности равна с. В данной модели, в отличие от предыдущих, считается, что даже ничего не знающий участник тестирования (6 = —сю) имеет ненулевую вероятность верно выполнить какое-либо задание. Дать верный ответ на задание, ничего при этом не зная, можно лишь угадав верный ответ (предполагается, что списывание исключено). Таким образом, параметр с отвечает за угадывание ответа в задании. Чем больше его значение, тем с большей вероятностью участник тестирования с бесконечно малым уровнем подготовленности даст верный ответ на данное задание.

Ниже приведены графики характеристических функций трех заданий. Кривая 1 соответствует заданию с параметрами 6 = 0, d = 2, с = 0.2, кривая 2 - заданию с параметрами 5 = 0, d = 3, с = 0, кривая 3 - заданию с параметрами S = 1, d — 1, с = 0.2.

Рассмотренные выше модели на данный момент являются наиболее распространенными моделями ТМПТ для обработки и интерпретации результатов тестирования. В особенности это касается однопараметрической модели Раша и трехпараметрической модели Бирнбаума. Попробуем выяснить, действительно ли с помощью приведенных моделей можно производить измерения уровней подготовленности участников тестирования.

Прежде всего необходимо сформулировать, что же в дальнейшем будет пониматься под измерением, применительно к тестам.

Вообще, любое измерение есть процесс получения количественных данных об измеряемом объекте. А результатом измерения должно являться число или набор чисел, так или иначе отражающих измеряемые характеристики объекта. Но для того, чтобы иметь возможность работать с получившимися данными, результаты измерений должны удовлетворять ряду требований.

А именно:

1. Измерения объектов должны быть независимы от инструментов измерения, работающих с одной и той же точностью.

2. Калибровка измерительных инструментов должна быть независима от объектов, использующихся при калибровке.

3. Результаты измерений должны быть выражены в тех же единицах, в каких размечена шкала измерительного инструмента.

4. В пространстве результатов измерений должна быть норма или, по крайней мере, метрика.

5. Каждый результат измерения сопровождается характеристикой точности, которая зависит от характеристик измерительного инструмента и способа обработки.

Именно эти условия: объектно-независимая калибровка инструментов, инструментально-независимые измерения объектов, общая шкала параметров инструмента и результатов измерения, метрика в пространстве результатов и их точность, являются условиями, позволяющими сравнивать объекты, измеренные сходными, но не идентичными инструментами и создавать новые измерительные инструменты путем комбинирования уже готовых.

Выполнение вышеперечисленных условий позволяет интерпретировать и сравнивать между собой результаты различных измерений, зная только результаты измерений и вовсе не заботясь об особенностях измерительных приборов.

Модель, позволяющая производить измерения

В предположении, что уровень подготовленности участника тестирования полностью характеризуется одним числом, и, что каждое тестовое задание полностью характеризуется одним числом, выведем модель ТМПТ для дихотомических заданий, в рамках которой возможно проводить измерения и дадим строгое определение уровня подготовленности участника тестирования и строгую интерпретацию параметра задания.

Будем считать, что уровень подготовленности участника тестирования полностью характеризуется одной величиной х Є R+. Причем, чем больше значение х, тем лучше участник подготовлен. Также будем считать, что каждое задание полностью характеризуется ровно одной величиной у Є М+ - легкостью. Чем больше у, тем легче задание. И пусть р(х,у) -вероятность, с которой участник, имеющий уровень подготовленности X, верно выполнит задание легкости у.

Попытаемся определить, какой вид должна иметь функция р(х, у) для того, чтобы измерения, проводимые с помощью теста, удовлетворяли перечисленным в предыдущей главе условиям.

Предположим, что два участника тестирования решали п одинаковых заданий с одним и тем же параметром уц. Пусть поо - количество заданий, не выполненных ни одним из участников, пю - количество заданий, верно выполненных участником А и не выполненных участником В, щ\ - количество заданий, не выполненных участником А и верно выполненных участником В и пц - количество заданий, верно выполненных обоими участниками. Очевидно что поо + пю + noi + Пц = п.

По величинам поо и пц невозможно сделать вывод о том, кто из участников лучше подготовлен и на сколько именно. Поэтому исключаем эти задания из дальнейшего рассмотрения. Разумно предположить, что во сколько раз участник А по уровню подготовленности превосходит участника В, во столько же раз участник А больше верно выполнил заданий по сравнению с участником В. То есть: — = —» (16) хв riQi где ХА И ХВ - уровни подготовленности участников А и В соответственно. Если неограниченно увеличивать количество заданий, то соотношение (16) должно сохраняться, т. е: -L = lim 212 = Нш ni/n _ P(x yo)Q- р(а?Б,Уо)) /17ч ХВ П-ЮОП01 n- oonoi/n (1-р(гСЛ,2/о))р( Б,2/о)"

При этом, если мы действительно хотим производить измерения, соотношение (17) не должно зависеть от уо, то есть какие бы задания не использовались для сравнения, отношение уровней подготовленности участников должно быть постоянным..

Теперь поменяем участников тестирования и задания местами. Пусть N участников тестирования, имеющих один и тот же уровень подготовленности хо решают два задания с параметрами у і и г/2- Пусть iVoo - количество участников, не решивших ни одного задания, Nw - количество участников, верно выполнивших первое задание, но не решивших второе, NQI - количество участников, не решивших первое задание, но верно выполнивших второе и Nu - количество участников, верно выполнивших оба задания. Очевидно что iVoo + iVio + iVoi + Nu = N.

По величинам iVoo и -Nil невозможно сделать вывод о том, какое из заданий сложнее и на сколько именно. Поэтому исключаем этих участииков из дальнейшего рассмотрения. Разумно предположить, что во сколько раз первое задание легче второго, во столько же раз большее количество участников верно выполнило первое задание по сравнению со вторым. То есть: У-± = . (18)

Если неограниченно увеличивать количество участников, то соотношение (18) должно сохраняться, т. е: У± = lim Ш = lim 10 = РЫ,у1)(1-р(х0,у2)) ,_ у2 N- co N0l . N co NQI/N (1 - р (х0, у і)) р (х0, у2) При этом, если мы действительно хотим производить измерения, соотношение (19) не должно зависеть от XQ. ТО есть отношение легкостей заданий не должно зависеть от участников, с помощью которых происходит сравнение.

Метод условного максимального правдоподобия и его применение

В качестве иллюстрации данного метода выбрана однопараметрическая модель Раша. Без всяких ограничений данный метод можно распространить на любую из моделей ТМПТ.

Пусть имеется тест, состоящий из п дихотомических заданий, который решали N участников. Тогда, в рамках однопараметрической модели Раша, вероятность того, что участник тестирования с уровнем подготовленности 9і, і = 1,...., N при ответе на задание трудности Sj, j = 1,..., п даст ответ uf/5 o ij Є {0,1} записывается следующим образом: №Л) = 1 + е(И1 №

Предположим, что нам известно распределение уровней подготовленности участников и пусть д{в) - функция плотности этого распределения.

Тогда, по формуле полной вероятности, безусловную (относительно уровней подготовленности) вероятность того, что вектор ответов г -го участника тестирования на все п тестовых заданий будет иметь вид щ = (ац,..., щп) можно записать в виде: / +00 P(ai\eiSll...tSn)g(e)de (61) 00 Зная функцию д(в), несобственный интеграл можно заменить набором квадратурных точек. Тогда, предыдущее выражение примет вид: я Р(Щ\8и... А) = 53 Р№ )А{Хк), (62) к=\ где Xi,..., Xq - квадратурные точки, а А(Х{),..., A(Xq) - их веса. В силу предположения о локальной независимости, вероятность того, что вектор ответов г-го участника тестирования на все п тестовых заданий будет иметь вид а; = (ац,..., Щп) можно записать в виде: п Р(щ\ви Sh..., 5п) = Д Р(оу 0,-, 5j) (63) 3=1 Следовательно q п Pfc\8i, - -, W = П РЫХ Sj)A(Xk) (64) Jfe=l j=l

Далее, в силу предположения о локальной независимости, безусловная (относительно уровней подготовленности) вероятность того, что матрица ответов N участников на п заданий будет иметь вид А = / а п \ ац ... а\п у одл ... амп J записывается в виде: JV- N q п Р(А\5и... А) = Ц P(oi\Su = Ц J] Ц РЫХк, Sj)A(Xk) (65) г=1 г =1 A;=l j=l

Полученное выражение можно использовать в качестве функции правдоподобия для получения оценок параметров заданий. После получения оценок параметров заданий, оценки уровней подготовленности получаются, например, при помощи Байесовского подхода.

Необходимо отметить, что данный метод позволяет независимо друг от друга оценивать параметры заданий и уровни подготовленности участников. Однако, выбор функции плотности распределения уровней подготовленности участников тестирования д(6) очень сложно обосновать. Довольно часто в качестве функции плотности берут плотность нормально рас 52 пределенной случайной величины с нулевым средним и с единичной дисперсией. Но подобный выбор, как, впрочем, и все остальные выборы, никто не обосновывает.

В качестве иллюстрации данного метода выбрана однопараметрическая модель Раша. Без всяких ограничений данный метод можно распространить на любую из моделей ТМПТ, в рамках которой первичные баллы участников тестирования и заданий являются достаточными статистиками.

Пусть имеется тест, состоящий из п дихотомических заданий, который решали N участников. Тогда, в рамках однопараметрической модели Раша, вероятность того, что участник тестирования с уровнем подготовленности в{, і — 1,..., N при ответе на задание трудности Sj, j = 1,..., п даст ответ Є {0,1} записывается следующим образом: gaijiQi-Sj) Р( н№и Sj) = 1 + e(ei_5j) (66) Соответственно, в силу предположения о локальной независимости, вероятность того, что вектор ответов г -го участника тестирования на все п тестовых заданий будет иметь вид аг- = (ац,... ,агп) можно записать в виде: Р(ОІ\9І, Su...,Sn) = Щ=і P{aij\Qi, Sj) = n n n n ej=i i=i e j=i j=i (67) ft (1 + e(fl - i ) П (1 + e&- i)) j=i i=i Вычислим, с какой вероятностью участник тестирования получит г первичных баллов, то есть верно выполнит ровно г заданий.

Похожие диссертации на Математические модели тестирования, позволяющие осуществлять измерения