Разработка моделей и алгоритмов оценки качества тестовых материалов Попова Елена Дмитриевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Попова Елена Дмитриевна. Разработка моделей и алгоритмов оценки качества тестовых материалов : Дис. ... канд. техн. наук : 05.13.17 Москва, 2005 172 с. РГБ ОД, 61:05-5/2968

Содержание к диссертации

Введение

1. Анализ проблематики, существующих подходов, научных школ и направлений 10

1.1. Основы культуры тестирования ...10

1.2. Формирование классической и современной теории тестов 11

1.3. Квалиметрия втестологии 14

1.4. Подходы к обработке мнений экспертов 17

1.5. Подходы к стандартизации представления тестовых материалов 27

1.6. Выводы по главе 33

2. Разработка моделей расчета характеристик тестовых заданий и банков 35

2.1. Методика расчета характеристик тестовых заданий по результатам пробного тестирования 36

2.2. Разработка модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов 43

2.3. Разработка модели расчета объема выборочной совокупности студентов при тестировании 46

2.4. Методика расчета надежности теста и погрешности измерения тестового балла48

2.5. Методика расчета критериального балла 52

2.6. Методика оценки валидности банка тестовых материалов 55

2.7. Разработка модели расчета количественных характеристик БТМ 59

2.8. Расчет экономической эффективности при использовании разработанных моделей 63

2.9. Выводы по главе 65

3. Разработка методики создания качественных тестовых . материалов 66

3.1. Эволюция сознания восприятия тестологии 66

3.2. Методические рекомендации по организации разработки тестовых материалов .69

3.3. Разработка методики оценки качества тестовых материалов 73

3.4. Мера трудности, как фактор качества тестовых материалов 82

3.5. Разработка методики обработки результатов экспертизы на основе непараметрической статистики 89

3.6. Методика расчета количества экспертов для проведения экспертизы тестовых заданий 97

3.7. Разработка технологии сертификации качества тестовых материалов 104

3.8. Выводы по главе 110

4. Разработка алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов 111

4.1. Разработка Интернет-системы проверки корректности формулировок в ТЗ 111

4.2. Разработка способов поддержки спецификации IMS QTI 125

4.3. Разработка системы Интернет-экспертизы 133

4.4. Выводы по главе 137

Общие результаты и выводы 137

Библиографический список

Формирование классической и современной теории тестов
Разработка модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов
Методические рекомендации по организации разработки тестовых материалов
Разработка способов поддержки спецификации IMS QTI

Введение к работе

Актуальность работы. В соответствие с Концепцией модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ в 2002 году (Распоряжение Правительства РФ от 29 декабря 2001 г. № 1756-р, приказ МО РФ №393 от 11.02.02), «главная задача модернизации образования -обеспечение современного качества образования». Для этого предполагается создание необходимых условий для повышения уровня качества профессионального образования, которые соответствовали бы требованиям к специалистам, необходимым современному обществу. Таким образом, совершенствование качества образования рассматривается в Концепции модернизации Российского образования на период до 2010 года как приоритетная проблема. С другой стороны, в настоящее время существует проблема оценки уровня качества образования в том или ином образовательном учреждении. Эти два направления тесно связаны между собой и в узком смысле могут быть сведены к проблеме объективной оценки уровня учебных достижений студентов высших учебных заведений России. Основными задачами здесь являются методы и методики, позволяющие оценить уровень овладения учащимися учебного материала, умение применять полученные знания для решения задач, способность синтезировать полученные знания, умения и навыки в процессе творчества и саморазвития. В значительной мере решение этих задач может быть получено с применением методов дидактического тестирования, которое выступает в качестве достаточно объективного инструмента оценки достижений. Однако при отсутствии высококачественных тестовых материалов нельзя говорить об объективности оценки качества полученных в образовательном процессе результатов. Поэтому задача обеспечения и оценки качества тестовых материалов, которая исследуется в данной диссертационной работе, является актуальной и направлена на оценку результатов образования[92].

Не секрет, что отношение к науке тестологии у каждого индивидуума может быть кардинально различно. Многие резко осуждают применение тестов в научной и педагогической деятельности, но, не смотря на это большинство высших учебных заведений России внедряют в процесс компьютерное тестирование. Анализ ситуации показывает, что резкое негативное отношение к тестам чаще всего складывается благодаря очень низкому качеству самих банков тестовых заданий, которые являются конгломератом психо-социо-педагогических мыслей

5 составителя. Такие задания справедливо подвергаются резкой критике не только специалистами в предметной области, по которой составлен тест, но и специалистами других областей, которые видят явные ошибки и неточности в составлении самого тестового суждения.

Ученые, исследовавшие данную область на протяжении нескольких десятилетий, пришли к выводу, что наиболее верным решением выхода тестологии из кризисной ситуации неприятия является разработка и применение разработчиками методологических правил при составлении тестов, проведение экспертизы и сертификации тестовых, материалов, а также создание качественных методов обработки результатов тестирования.

Безусловно, переход на новые информационные технологии требует новых решений, доработки и дополнений в существующих теориях. Предоставление простого статического теста с вероятностным предъявлением заданий становится не актуальным. Повышается интерес к адаптивным алгоритмам тестирования, а, следовательно, задача составителя тестов усложняется. Появляются задания разной трудоемкости, требующие реализации в своей формулировке нескольких концептов.

Несмотря на достаточно большой имеющийся теоретический задел, до настоящего времени не было предложено однозначной и обоснованной методики проведения процедуры экспертизы качества тестовых материалов. Поэтому одной из задач данной работы является построение единой методики и технологии для экспертизы тестовых материалов, в которых должны быть предложены подходы к механизмам проведения экспертизы и автоматизации процесса оценки каждого задания из.. представленного банка.._:Кроме того, .,в, диссертационной, работе рассматривается методика составления качественного тестового суждения, которая интегрирует предложенные ранее способы по повышению качества теста, а также учитывает новые разработки данной диссертации, которые не были исследованы ранее. Все предложенные пункты методологических правил адаптированы автором под автоматизированный процесс представления и обработки банков тестовых заданий.

Целью данной диссертационной работы является разработка моделей и алгоритмов оценки качества тестовых материалов на основе элементов классической и современной теории тестов, методов математической статистики и статистики качеств.

Задачи исследования. В соответствии с поставленной целью требуется решить следующие задачи:

провести анализ существующих методов оценки качества банков тестовых заданий и методов обработки мнений экспертов;

разработать модели вычисления характеристик тестовых заданий и банков тестовых материалов;

создать методику и технологию разработки качественных тестовых материалов;

разработать технологию сертификации качества тестовых материалов;

решить практические задачи по проектированию алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов.

Объектом исследования является область теоретической информатики, обеспечивающая решение актуальной задачи оценки качества объектов произвольной природы, связанная с разработкой моделей и алгоритмов анализа данных, методов взаимодействия информационных процессов и обеспечения информационных потребностей коллективных и индивидуальных пользователей. Методы исследования. Для достижения поставленной в работе цели и решения перечисленных задач использованы методы классической и современной теории тестов, математической статистики, статистики качеств, элементы квалиметрии. Разработка программ для реализации алгоритмов проведена на языках программирования VBScript, JavaScript по технологии ASP.

Методологической основой исследования являются работы в области
теории тестирования, посвященные общим закономерностям разработки тестовых
материалов и. обработки результатов тестирования—{труды А.Анастази[8],
В.С.Аванесова[1;2], М.Б.Челышковой[110], В.И.Васильева[24;25;26],

В.П.Беспалько[14;15] и др.), а также работы по принципам экспертного анализа, квалиметрии и статистической обработки данных (труды Г.Г.Азгальдова[3;4;5], В.С.Черепанова[117], Б.Г.Литвака[61], Р.Джессена[41], В.Ю.Переверзева[78] и др.), в том числе работы по статистике объектов нечисловой природы (В.В.Красильников[58], М.И.Грабарь [37] и др.).

Достоверность полученных результатов подтверждается использованием математических методов теории тестов, математической статистики и статистики качеств, а также практической реализацией и внедрением разработанных методов и алгоритмов.

7 Научная новизна полученных в данной работе результатов состоит в следующем:

1. Разработаны модели расчета объема случайной выборочной совокупности
тестовых заданий при экспертизе и студентов при тестировании, позволяющие
осуществлять прогнозирование наличия некачественных заданий в банке тестовых
материалов и результаты тестирования студентов в генеральной совокупности с
допустимым уровнем верности.

2. Впервые предложена модель расчета коэффициента множественной
. конкордации мнений экспертов при оценке качества тестовых, заданий по

множеству многомерных факторов на основе теории статистики качеств и разработаны соответствующие этой модели алгоритмы обработки совокупного мнения экспертов.

Разработана новая модель для расчета количественных характеристик банков тестовых заданий в условиях различной степени агрессивности субъектов тестирования, позволяющая прогнозировать узнаваемость банков тестовых материалов.
Предложены новые методика создания качественных тестовых материалов и технология их сертификации.
Впервые предложена классификация этапов эволюции сознания восприятия науки тестологии индивидуумом.

Оценка теоретической значимости результатов работы. Полученные модели и математические алгоритмы являются теоретической основой для создания автоматизированной системы экспертизы и сертификации тестовых материалов для повышения качества банков тестовых, заданий. Нормативные документы и методики по сертификации тестовых материалов применяются для оценки качества банков тестовых заданий, используемых при итоговой аттестации студентов высших учебных заведений.

Практическая ценность работы. На основании предложенных теоретических разработок создана автоматизированная программа "АСТ-Эксперт" (свидетельство об официальной регистрации программ для ЭВМ №2004612525 от 15.11.2004. М.:Федеральная служба по интеллектуальной собственности, патентам и товарным знакам), что позволило автоматизировать процесс оценки качества тестовых материалов с использованием Интернет-технологий. Предложенные методики легли в основу технологии проведения сертификации тестовых материалов Органом сертификации (аттестат аккредитации № РОСС

8 RU.0001.11Cni3 от 17.12.03) и испытательной лаборатории (аттестат аккредитации № РОСС RU.0001.21CII35 от 23.09.03).

На защиту выносятся следующие положения:

модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов и расчета объема выборочной совокупности студентов при тестировании;

модель и алгоритм обработки совокупного мнения экспертов на основе теории статистики качеств;

модель для расчета количественных характеристик банков тестовых заданий в условиях различной степени агрессивной среды;

классификация этапов эволюции сознания восприятия науки тестологии индивидуумом;

технология и алгоритмы проведения сертификации и экспертизы тестовых материалов.

Внедрение результатов. Нормативные документы по сертификации тестовых материалов для итоговой аттестации студентов применяются Федеральной службой по надзору в сфере образования и науки для экспертизы тестовых материалов. Модели и алгоритмы оценки качества тестовых материалов внедрены в Московском государственном университете печати и в АНО "Центр образовательных коммуникаций и тестирования профессионального образования". Результаты работы также использованы при выполнении государственного контракта № 1070 (2003-2004гг.).

Апробация результатов работы. Основные результаты диссертационной работы обсуждены на Всероссийских конференциях "Развитие методов, и.средств -компьютерного тестирования", Москва, 2004; "Развитие методов и средств компьютерного тестирования", Москва, 2005. Модели и алгоритмы, полученные автором данной работы, использовались в процессе подготовки экспертов по оценке качества банков тестовых материалов, используемых при аттестации высших учебных заведений.

Публикации. Основные работы изложены в 14 научных публикациях. Программное обеспечение официально зарегистрировано в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем диссертации. Диссертационная работа состоит из введения, 4-х глав, заключений по каждой главе, основных результатов, списка использованной литературы и приложений.

В первой главе проводится анализ научных школ, современных методов оценивания качества продукции, обосновывается необходимость доработки этих методов при оценке качества банков тестовых материалов для целей аттестационного контроля, приводятся существующие зарубежные стандарты представления тестовых материалов.

Вторая глава содержит разработку моделей расчета характеристик тестовых заданий и банков: разработку алгоритма кластерного анализа результатов экспертизы, методику расчета критериального балла, надежности тестов.

В третьей главе предлагается методика создания качественных тестовых материалов с учетом различных факторов произвольной природы, а также разработка технологии сертификации качества тестовых материалов.

Четвертая глава включает разработку алгоритмов и программного обеспечения экспертизы и сертификации тестовых материалов, анализ используемых средств решения задачи и разработку модуля поддержки спецификации IMS QTI.

Диссертация изложена на 172 страницах, содержит 18 рисунков, 6 таблиц, 19 приложений. Список используемой литературы содержит 133 наименования.

Формирование классической и современной теории тестов

Получение качественной объективной информации в области педагогической деятельности связано сегодня с развитием тестологии как новой отрасли научного знания, которая появилась в начале XX века на стыке психологии, педагогики, социологии и других поведенческих наук. Научно обоснованные принципы и методы создания тестов сформировались сравнительно недавно, в 20-60 годах XX столетия, в течение которых создавалась и развивалась так называемая классическая теория тестов. Если быть более точным, то классическая теория тестов начала формироваться в конце XIX века. "Отправной точкой" становления и развития классической теории тестов стали работы по измерению индивидуальных различий способностей человека (в XIX веке в центре внимания психологов были не различия, а сходство). Одним из тех, кто положил начало тестированию, был английский биолог Фрэнсис Гальтон. Изучая проблемы наследственности, он провел целую серию антропометрических измерений, накопив первые систематические данные по индивидуальным различиям. Заслугой Ф.Гальтона явилась разработка методов определения способностей, послуживших основой системы тестов. Он также предложил методы статистической обработки данных, в частности метод определения корреляций между измеряемыми величипами[126]. К следующим важнейшим вехам, заложившим фундамент классической теории тестов, можно отнести создание Карлом Пирсоном методов корреляционного, регрессионного и факторного анализа [130], а также работы Чарльза Спирмана [133], соединившего теорию физических измерений с корреляционными методами и с идеей психологического измерения.

Известно, что классическая теория тестов имеет ряд спорных предположений, а результаты ее применения - серьезные практические недостатки. В частности, было отмечено, что при оценивании знаний испытуемого с помощью различных по трудности тестов можно получить различные представления о достижениях студентов. Статистики, рассчитанные в рамках классической теории тестов, позволяют получить относительное положение каждого испытуемого в нормативной выборке, однако с их помощью нельзя объективно оценить значения параметров, характеризующих уровень знаний испытуемых и трудность заданий теста. Вопрос "Какова объективная оценка уровня подготовленности студента по предмету?" классическая теория тестов оставляет открытым. Ответ на этот вопрос дается в рамках другого методологического подхода к созданию педагогических тестов и к интерпретации тестовых результатов, а именно в рамках так называемой Item Response Theory (IRT)[ПО].

Item Response Theory (IRT) - распространенная на Западе современная теория тестов, нацеленная на оценивание латентных качеств личности и параметров заданий. IRT является психолого-педагогическим вариантом более общей методологии латентно-структурного анализа (LSA), развивавшегося начиная с 60-х годов нашего столетия главным образом в лабораториях военных ведомств США и университетов.

В соответствии с концепцией LSA, все явления оказываются индикаторами другого явления, и задача LSA может быть сформулирована так: каким образом от наличия индикаторов перейти к понятию, которое ими выражается?

В IRT уровень знаний і-го испытуемого обозначается 0/= In(pi/q0 и называется логитом знаний і-го испытуемого; величина Р/ = ln(qj/pj) называется логитом трудности задания] [2]. Здесь р\ и q, - доля правильных и неправильных ответов i го испытуемого на все задания теста, причем pi = 1 - qi; qj и pj - доля правильных ответов всех испытуемых группы на j-e задание теста, pj = 1 - qj. В IRT предполагается, что между наблюдаемыми результатами тестирования ((3;) и латентными качествами испытуемых (0/) существует некоторая взаимосвязь, т.е. взаимодействие этих двух параметров - уровня знаний і-го испытуемого в/ и трудности j-ro задания Р/ - порождает результаты тестирования. На практике, однако, всегда ставится обр.атная задача: по ответам испытуемых на задания теста оценить значения латентных параметров 9/и /?/. Для решения этой задачи использовались разные подходы, разные математические модели. Наиболее плодотворной из них можно считать модель Раша[131], который предположил, что соотношение между латентными параметрами 0 и р можно выразить в виде их разности (ранее предлагались другие соотношения, например, частное от деления 0 на Р), учитывая, что параметры 0 и р оцениваются в одной и той же шкале. Значение 9,- можно рассматривать как положение і-го испытуемого, ару- как положение j-ro задания на одной и той же оси переменных 8, р. В таком случае I G , - /? у - это расстояние, на котором находится испытуемый с уровнем знаний 9,- от задания трудностью Ру. Если эта разность велика по модулю и отрицательна, то это задание является слишком трудным для данного студента; если разность велика по модулю и положительна, то такое задание для него слишком легкое. С точки зрения IRT оба этих задания неэффективны для оценивания данного значения 9. Развитием модели Раша являются двухпараметрическая модель Бирнбаума [111; 78], в которой появляются параметры, учитывающие "крутизну" соответствующих логистических кривых и трехпараметрическая модель Бирнбаума, в которой учитывается вероятность угадывания правильного ответа на задание.

Развитие классической и современной теории тестов тесно связано с применением тестов в педагогике. Еще в 20-х годах прошлого столетия В.А.Макколл ввел разделение тестов на педагогические и психологические[129]. Так появилось еще одно направление - педагогическая тестология. Педагогическая тестология, согласно концепции В.С.Аванесова[2], призвана заниматься вопросами разработки тестов для объективного контроля знаний, умений, навыков, представлений учащихся. Анализ результатов исследований зарубежных (А.Анастази[8], Р.Берк[121], Д.Вялфорд[42], Гласе Дж., Стэнли Дж. [33], Джеймса Маккина Кэттела.[123]) и отечественных (В.С.Аванесов[2], В.П.Беспалько[14; 15], Ю.М.Нейман[71], В.А.Хлебников[71], В.И.Огорелков[76], В.Ю.Переверзев[78], В.С.Черепанов[117], М.Б.Челышкова[111] и др.) ученых показал, что педагогические тесты являются одним из наиболее мощных, надежных и объективных методов определения учебных успехов (достижений) студентов.

Исследованиями ученых изучены вопросы теорий педагогических "тестов, композиция и формы тестовых заданий, условия и процедура проведения тестов, предъявление данных и их интерпретация. Анализ научно-педагогической литературы и современной образовательной практики показал, что в настоящее время в России идет процесс становления системы тестирования в области образования, а тестовые технологии рассматриваются как одно из объективных средств контроля качества подготовки и уровня предметных достижений учащихся.

Разработка модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов

Для того чтобы оценить качество БТЗ в целом, необходимо провести экспертизу всех тестовых суждений. Для аттестационной проверки остаточных знаний студентов разрабатываются БТЗ, содержащие большое количество заданий. Просмотреть огромные массивы информации в пределах одного банка достаточно сложно по причинам различного характера. Это в первую очередь может быть технически невозможно, во-вторых, экономически неэффективно, в-третьих, такая процедура может занять довольно длительное время. Следовательно, когда на экспертизу предоставляются банки тестовых заданий большого объема, возникает задача оптимизации проверки такого банка. Наиболее эффективным способом такой оптимизации, может быть, выборочный метод[57;118]. В этом случае необходимо проанализировать определенное количество заданий из банка произвольной выборки и в случае, если выборка содержит большое количество не корректных ТЗ, то весь банк возвращается на доработку без анализа оставшихся ТЗ. Такой подход позволяет значительно экономить время проведения экспертизы банков тестовых заданий. В этом разделе будет рассмотрена методика, обосновывающая количественные характеристики выборки с заранее предъявляемыми параметрами точности и ошибки[87].

Задача экспертизы банка тестовых заданий (БТЗ) может быть сведена к задаче проверки качества партии изделий[28]. При этом из партии (генеральной совокупности) делают некоторую выборку (выборочная совокупность), анализируют ее, и на основе данных этой выборки делают утверждение о возможных характеристиках всего БТЗ в целом. Постановка такой задачи для экспертизы ПДТМ может быть следующей: по результатам выборки некоторого количества ТЗ (выборочная совокупность) из БТЗ (генеральной совокупности) необходимо определить максимальное количество тестовых заданий во всем БТЗ, которые могут не соответствовать требованиям к ТЗ при заданном уровне надежности и принятой мере точности. Под уровнем надежности понимают вероятность того, что оцениваемый в ходе выборки параметр генеральной совокупности (БТЗ) не будет отличаться от аналогичного параметра выборки на величину, превышающую принятый показатель допустимой погрешности, или точности. Под оцениваемым параметром мы будем рассматривать долю "бракованных" ТЗ, или ТЗ, не удовлетворяющих методологическим требованиям.

Общая задача может быть разделена на две части: во-первых, определяют пределы, в которых находится параметр совокупности при заданном размере выборки и уровне надежности. Для этого необходимо определить ошибку выборки. Во-вторых, определяют размер выборки при заданном, т.е. допустимом, уровне величины погрешности выборочной оценки и принятом уровне надежности. Пусть речь идет о конкретном параметре, характеризующем, долю ТЗ, которые не удовлетворяют методологическим требованиям ("бракованные" ТЗ). Можно утверждать, что доля таких заданий в генеральной совокупности (в БТЗ) находится в пределах p = w±d, где р"и w- - доля «бракованных» ТЗ в генеральной совокупности и в выборке; d - предельная ошибка выборочной доли.

Задача, таким образом, сводится к расчету ошибки выборочной доли d. Эта ошибка при собственно-случайном отборе находится следующим образом[45]: где п - размер выборки; N - размер генеральной совокупности; za - показатель кратности ошибки выборки, который вычисляется из уравнения 2Ф0{га) = \-а ; 1-а - принятый уровень надежности, обычно а принимается равным 10%, 5% или 1%; Ф0(х)- функция нормированного и центрированного нормального распределения, значения которой находятся по статистическим таблицам в любых учебниках по статистике.

Уровень надежности 1-а устанавливается в зависимости от важности экспертизы, и в соответствии с принятым уровнем надежности определяется величина параметра za. Приведем несколько взятых из стандартных таблиц [41] значений этого параметра, которые могут использоваться специалистами по экспертизе БТЗ. Формула (2.1) получена для так называемого бесповторного отбора, т.е. без возврата ТЗ обратно в исследуемую совокупность, как это и бывает на практике.

Пример. В случайном порядке отобрано 150 ТЗ, в которых обнаружено 2% не соответствующих методологическим требованиям. Объем БТЗ составляет 1000 ТЗ. Каковы пределы «бракованных» ТЗ в БТЗ, если расчет надо выполнить с надежностью 90%? Или другими словами, найти интервал, указывающий на возможный процент ошибочных заданий во всем БТЗ с надежностью 90%. Надежность можно интерпретировать так: если мы будем делать 100 попыток разных выборок, то только в 10 случаях мы можем ошибиться в оценке количества ошибочных ТЗ в генеральной совокупности.

По формуле (2.1) находим: j і ал /0,02x0,98f. 150 ЛЛ1__ , „0/ d = l,64j— — 1 «0,0173, или 1,73%. V 150 V lOOOj Таким образом, с. вероятностью 90%. можно утверждать, что количество «бракованных» ТЗ в генеральной совокупности находится в интервале 2 ±1,73%, другими словами, с надежностью 90%о можно утверждать, что в БТЗ содержится от 3 до 38 ошибочных ТЗ.

Методические рекомендации по организации разработки тестовых материалов

Некоторые специалисты пытаются перевести по возможности максимально весь процесс обучения на тестовые технологии. Создаются тесты для обучения, промежуточного и полного контроля. Все оценки выставляются по результатам тестирования, роль преподавателя практически исключается из процесса обучения. Постепенно такой максимализм достигает определенной точки и перерастает в догматизм. Это явление будем называть тестологический догматизм. Нужно понимать, что очное обучение всегда давало наилучшие и более глубокие знания именно потому, что шел непосредственный контакт преподаватель-студент, поэтому данная форма образования должна оставаться и тестовые технологии в процессе образования могут рассматриваться как серьезный, но вспомогательный материал, который ни при каких условиях не может полностью заменить традиционные методы обучения и контроля. Но как вспомогательный материал он может не только давать более объективные оценки знаний студентов и увеличивать поток обучающихся, который можно одновременно подвергнуть проверке и получить критериально- и объектно-ориентированные оценки результатов обучения, но и контролировать деятельность преподавателя в учебном процессе.

Итак, эволюцию восприятия индивидуумом теории тестов можно разделить на четыре основных этапа: тестологический примитивизм; тестологический агностицизм; "" " " гносеологический подход к восприятию тестологии; догматизм в тестологии.

Генезис сознания охватывают все четыре перечисленных этапа, если индивидуум пытается глубинно постичь тестологию. Как правило, переход в стадию тестологического догматизма обуславливается частичным непониманием аспектов этой науки, возможно полузнанием о ней. Оптимальным восприятием можно считать гносеологический подход к восприятию тестологии, который учитывает все сильные стороны этой науки и гармонично сочетает ее с другими педагогическими доктринами обучения и проверки уровня учебных достижений.

Рассмотрим в следующем разделе основные этапы проектирования качественных тестовых материалов с учетом гносеологического подхода к восприятию тестологии.

В литературе по тестологии можно увидеть достаточно много терминов таких как: формирование тестов, сочинение тестов, выдумывание и т.д. Наиболее точный термин, который может быть применен в соответствии с методологическими правилами - это конструирование тестов[2]. Без специальной подготовки, знаний и умений специалист конструировать не сможет. Он может придумывать, сочинять, формировать и т.д. Создание тестов это очень сложный творческий процесс, требующий не только знаний по предметной области, но так же знания методологии и технологии конструирования тестовых материалов, необходимо также учитывать психологические и физические данные аудитории на которую рассчитан создаваемый тест.

Прежде, чем приступать к конструированию тестовых заданий нужно продумать с какой целью, по какой теме и на какую аудиторию будет рассчитан банк тестовых заданий. Основной план создания БТЗ может быть следующим: определение цели тестирования выделение предмета тестирования; определение субъектов тестирования; подбор научно-педагогических кадров для разработки банка; выбор методологии и концепции разработки тестовых суждений.

На этом этапе обосновываются цели тестирования. Необходимо дать ответ на то, почему в качестве методики оценивания или обучения выбираются тестовые технологии. Здесь также важно уточнить, с какой целью будет разрабатываться банк. В частности, цели создания банка тестовых заданий могут быть следующими: обучение; промежуточный контроль; общий контроль; экзаменационный контроль; контроль остаточных знаний.

Тесты, разработанные для обучения имеют следующие характеристики: время теста не фиксировано, ответ моментально анализируется и выдается отчет о качестве вывода тестируемым. Если в ответе были допущены ошибки, то обучающийся получает квалифицированный вывод о том, где была допущена ошибка, и почему этот ответ не верен. Если суждение верно, то выдается вывод, о том что ответ верен и почему. В конце тестирования выдается ведомость с темами, которые были усвоены наиболее слабо. Тестируемый может проходить такой тест неопределенное количество раз, пока не решит, что достаточно хорошо усвоил материал.

Промежуточный (рейтинговый) контроль - предоставляются тестовые задания по нескольким темам из общего банка, для того чтобы выяснить степень усвоения пройденного материала по определенным темам за определенный промежуток времени. Для такого теста характерно фиксированное время, строгая иерархия вопросов (легкие, средней сложности, сложные), для того чтобы понять насколько глубоко усвоена тема и по окончанию тестирования выдаются рекомендации студентам и преподавателям о том, где есть пробелы в знаниях. Можно также сделать вывод о том, что если по определенной теме разброс в баллах студентов достаточно большой (т.е. есть отличные, хорошие удовлетворительные и неудовлетворительны оценки, приблизительно в одинаковых пропорциях), то можно оценивать, насколько высока мотивация студентов к обучению, если же разброс баллов низок и прослеживается высокий процент правильных ответов на задания легкие и средней трудности, а на сложные - процент правильных ответов низок, то, скорее всего, нужно оценивать качество преподавания.

Общий контроль знаний - предоставляются тесты в конце семестра по всему учебному материалу по одной дисциплине. Для такого теста также характерно фиксированное время, предоставляются только те тестовые суждения, которые отражают, насколько хорошо в целом материал воспринят аудиторией. Такой контроль скорее проводится для того, чтобы оценить качество преподавания (т.е. как преподаватель смог преподнести суть курса и выделить основное для дисциплины из всего учебного материала).

Разработка способов поддержки спецификации IMS QTI

Усилия разработчиков систем дистанционного образования и тестирования во всем мире направлены, на то, чтобы их ПО было[127]: интероперабельным (interoperable) - обеспечение возможности взаимодействия различных систем, что крайне важно для распределенных учебных сред; многократно используемым (reusable)- давало возможность многократного использования компонентов обучающих систем, построенных на основе информационных технологий, повышало эффективность разработки и снижало её стоимость; адаптивным (adaptable) - позволяло системам включать развивающиеся новые информационные технологии без перепроектирования систем; имело встроенные методы для обеспечения индивидуализированного обучения; долговечным (durable) - соответствовало разработанным стандартам и предоставляло возможность вносить изменения без тотального перепрограммирования; доступным (accessible) - давало возможность работать с системой из разных мест (локально и дистанционно, из учебного класса, с рабочего места или из дома); программные интерфейсы должны обеспечивать возможность работы людям разного образовательного уровня, разных физических возможностей (включая .инвалидов);. ....... . ,.„.... экономически доступным (affordable) - так как стандарты ориентируются, прежде всего, на непрерывное образование, проходящее в течение всей жизни пользователя, то разрабатываемое программное обеспечение должно быть экономически доступным.

Сейчас самым приемлемым для организации систем дистанционного обучения и тестирования является стандарт IMS по следующим причинам: Спецификации IMS направлены на их практическое внедрение и написаны на языке XML. Спецификации IMS всегда содержат практические советы по их внедрению (с примерами), например, порядок поддержки стандарта, таблицы уровней поддержки. Спецификации же других организаций содержат в себе лишь их описание. Стандарт принят ведущими организациями ДО США и Европы. Организация IMS разработала схемы отображения IEEE LTSC Metadata на свои спецификации. Стандарт IMS позиционируется как мировой стандарт обмена учебными ресурсами между различными организациями. Все спецификации IMS находятся в свободном доступе для общественности. Работа организации IMS является хорошим примером по спецификации структур данных.

Как говорилось ранее, XML - это формализованный набор правил для «разметки» документа, то есть выделения его логической структуры[125]. То, что находится внутри любого документа, совместимого с форматом XML, можно разбить на две категории: разметку и само содержание. Вся информация о разметке должна начинаться либо с символа амперсанда (&), либо с символа угловой скобки ( ). В XML существует шесть типов информации разметки: элементы, атрибуты, комментарии, инструкции обработки, ссылки на объекты и разделы CDATA.

Элементы (elements) - выделяют логические компоненты документа. Элемент состоит из содержимого, окруженного открывающим и закрывающим тегами. TITLE Это заголовок /TITLE Открывающий тег состоит из левой угловой скобки ( ), идентификатора и правой угловой скобки ( ). Закрывающийся тег строится по тем же правилам, что и открывающийся, за исключением того, что перед идентификатором должен находится символ наклонной черты (/)

В XML может быть только один элемент корневого уровня, у которого, как правило, есть вложенные элементы, внутрь которых могут быть вложены свои элементы и т.д. Структура XML - это дерево документов. У каждого элемента (контейнера) есть имя и, возможно, дополнительные характеристики (атрибуты).

В некоторых элементах может вообще не быть содержимого. Такие элементы называются пустыми. Для записи таких элементов используется немного другой формат: левая угловая скобка, затем идентификатор тега, затем наклонная черта, а затем правая угловая скобка.

IMG SRC="image.gif"/

Как правило, для пустых элементов используются атрибуты. Атрибуты (attributes). Помимо содержимого, элементы могут иметь атрибуты. Атрибуты позволяют задавать характеристики элемента. У атрибутов есть имена и значения, и их положено размещать в открывающем теге. У элемента может быть несколько атрибутов. APPLET code="my.class" height="100" width="2 00" В XML значение атрибута обязательно должно быть взято в одинарные или двойные кавычки. Комментарии (comments) - это любой текст, который будет игнорироваться процессором XML. !— текст комментария —

Инструкции по обработке (processing instructions) используются для передачи информации приложению, обрабатывающему документ XML.

Ссылки на объект (entity references) используются для того, чтобы помещать в документ зарезервированные символы или зарезервированные слова.

Раздел CD AT A (CDAT A section) - это часть документа, которая не обрабатывается, как остальные части XML, а передается приложению напрямую. Это средство может пригодиться, например, при передаче приложению какого-либо двоичного кода.

Структура документа с тестами

Корневым элементом любого документа XML, хранящего тестовые данные в формате IMS QTI, является элемент questestinterop. Он является своеобразным контейнером для элементов: assessment (тест), section (секция) и item (вопрос).

Спецификация QTI [128] не определяет строгого расположения этих элементов в документе, т.е. в одном документе могут отдельно существовать вопросы, целые секции вопросов или тесты. Это очень усложняет обработку тестов, поэтому существует договоренность между разработчиками систем обмена тестами: в документе реализовывать иерархическую структуру (см. рис.4.7). Согласно этой иерархии, корневой элемент содержит один или несколько элементов assessment (тест), внутри тестов содержится одна или более секций и уже секции содержат вопросы теста.

Разработка моделей и алгоритмов оценки качества тестовых материалов Попова Елена Дмитриевна

Формирование классической и современной теории тестов

Разработка модели выборки тестовых заданий при экспертизе программно-педагогических тестовых материалов

Методические рекомендации по организации разработки тестовых материалов

Разработка способов поддержки спецификации IMS QTI

Похожие диссертации на Разработка моделей и алгоритмов оценки качества тестовых материалов