Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Чумаков Александр Алексеевич

Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий
<
Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Чумаков Александр Алексеевич. Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий : диссертация ... кандидата психологических наук : 19.00.03.- Москва, 2007.- 219 с.: ил. РГБ ОД, 61 07-19/352

Содержание к диссертации

Введение

Глава 1. Метод тестов в образовании: историко- методологический анализ 19

1. Исторический контекст 19

2. Место тестов в системе образования 32

3. Тестирование и компетентностный подход 36

4. Преимущества и недостатки методик тестирования и проблемы их использования 39

5. Классификации тестовых методик и преимущества современных технологий тестирования 47

6. Возможные модели сочетания тестовых и традиционных технологий контроля 53

Глава 2. Современные тестовые технологии 56

1. Этапы создания тестовых методик контроля знаний 56

2. Первый этап разработки тестовой методики 58

3. Состав и типы тестовых заданий, контекст их различного применения 61

4. Психосемантические технологии в диагностике знаний 66

5. Экспертиза тестовых заданий 69

6. Апробация тестовых заданий 73

7. Показатели качества теста и тестовых заданий 74

8. Анализ трудности тестовых заданий - в классической тестологии и тестологии на базе irt 77

9. Вычисление дискриминативности тестовых заданий 79

10. Измерение общих психометрических свойств теста в целом 82

11. Стандартизация 87

12. Нормирование 88

13. Пользовательский интерфейс и функционально-технологическая схема 91

Выводы 97

Глава 3. Опыт конструирования компьютеризированного теста контроля знаний для студентов-психологов 101

1. Задачи экспериментально-методического исследования 101

2. Схема исследовательской части 103

3. Результаты первичного апробационного цикла 106

Особенности работы с данными экспертного цикла 106

Отбор заданий на основании экспертных оценок 113

Статистическая обработка результатов прохождения теста 117

Оценка трудности тестовых заданий 118

Внутренняя валидность 121

Надежность-согласованность пунктов 123

4. Результаты второго цикла апробации 124

Распределение сырых баллов и общий анализ трудности теста по субшкалам 126

Анализ трудности тестовых заданий 128

Корреляция пунктов со шкалами и дискриминативность тестовых заданий 129

Поиск внешних показателей качества теста (проверка валидности по внешнему критерию) 130

Ретестовая надежность 136

5. Проверка связи когнитивной сложности с академической успеваемостью 136

6. Примеры 142

Обсуждение результатов 145

Выводы 149

Общее заключение 151

Список использованной литературы 155

Приложения 170

Введение к работе

Актуальность исследования

Настоящий этап социально-экономического развития характеризуется значительным ростом числа компаний, ориентированных на долгосрочное сотрудничество с персоналом и, как следствие, вкладывающих существенные средства в профессиональное развитие и обучение сотрудников. Одним из важнейших направлений становятся проблемы оценки уровня профессиональной компетентности, уровня подготовленности к решению профессионально специфичных задач, эффективности профессионального обучения, а также выявление пробелов в знаниях у начинающих профессионалов и их своевременное доучивание при помощи различных методов и приемов (Смирнов, 2005). Одной из частных, но в то же время ключевых и фундаментальных задач, является внедрение комплексных технологий (в ряде случаев ориентированных на среду Интернет), целью которых является повышение качества подготовки специалиста еще на этапе обучения в профессиональных учебных заведениях.

С начала 90-х годов в российской системе высшего профессионального образования наблюдается ярко выраженное усиление интереса к методам объективного (инструментального) контроля результатов обучения, в частности к педагогическим тестам. Эти перемены являются отражением современных мировых взглядов на роль контрольно-оценочной системы в образовании, когда контроль, оценка и обучение рассматриваются как взаимосвязанные и взаимопроникающие составляющие единого образовательного процесса (Звонников, Челышкова, 2003).

Эти перемены имеют также в качестве одной из причин массовую
компьютеризацию (активное внедрение Интернет-технологий)

образовательных учреждений, а также «корпоративных университетов» -систем профессиональной переподготовки кадров внутри современных корпораций. Этот процесс создает материально-технические предпосылки для использования стандартизированных процедур (тестов) как средства автоматизации системы контроля. Прикладное применение тестов

профессиональных достижений затрагивает в настоящее время не только вузы, но и крупные производственные предприятия, вынужденные в условиях научно-технической революции постоянно заниматься процессами переподготовки персонала и самим осуществлять контроля качества переподготовки. Развитие непрерывного образования выражается в постоянной работе профессионала над своими профессиональными знаниями. Тесты профессиональных достижений в этих условиях являются одним из основных инструментов для объективной обратной связи об эффективности результатов этого непрерывного образования.

В последние два десятилетия в России тестовые технологии контроля достигли масштабов таких широко-известных общефедеральных государственных проектов как Единый государственный экзамен (ЕГЭ) для выпускников учреждений среднего образования и поступающих в вузы. Но и на уровне отдельных образовательных учреждений (отдельных школ и вузов), а также на уровне отдельных дисциплин тестовые технологии внедряются очень интенсивно. Это, по-видимому, обусловлено несколькими факторами, к числу которых можно отнести: а) переходом России к рыночной экономике, в рамках которой востребованы более объективные и одновременно более дешевые по реализации процедуры контроля за уровнем подготовки профессиональных кадров, б) глобальной микрокомпьютерной революцией и значительным ростом числа пользователей (как отдельных лиц, так и целых сообществ), использующих для решения профессиональных задач среду Интернет, позволяющей значительно ускорить и автоматизировать многие этапы разработки и применения тестовых технологий.

Вместе с тем данные процессы - процессы внедрения тестовых технологий - еще не стали в отечественной психологии предметом систематического изучения не только со стороны психометрической (математико-психологической теории измерений), но и со стороны инженерно-психологической (что требует изучение психологии пользователей тестовых технологий) и со стороны организационно-психологической составляющей (что требует изучение социально-психологических факторов и барьеров на пути внедрения).

В сфере российского образования усиление интереса к методам объективного контроля результатов обучения, в частности к педагогическим тестам, сопровождается главным образом усилиями небольшой группы тестологов по «ликвидации тестологической безграмотности» педагогических работников: в системе Минобразования и науки РФ в 2003 году создается Федеральный Институт Педагогических Измерений (ФИЛИ), учреждаются кафедры педизмерений (в таком вузе как РУДН). После известного постановления ЦК ВКБ(б) от 1936 года упущено фактически полвека в процессе формирования определенной базовой тестологической культуры. Нет сколько-нибудь единых представлений о базовых понятиях и процедурах в этой области. Отсюда возникает риск новых нарушений и извращений в ходе применения метода тестов, которые уже однажды в эпоху Советской России привели к негативной реакции на этот метод не только на уровне правящей верхушки, но и у массы российских работников образования.

В последние годы в обширной психолого-педагогической литературе все чаще акцентируется внимание на трудностях и проблемах, связанных с оценкой знаний: недостаточная сформулированность целей образования и, следовательно, критериев оценки, субъективизм производящего оценивание, отсутствие четких критериев, по которым производится оценка, и т.п. Попыткам решения с разных позиций этих проблем посвящены многие работы психологов, педагогов, методистов (Аванесов, 1998; Гильбух, 1976; Зинченко, 1982; Клайн, 1994; Майоров, 2000; Талызина, 1975; Шмелев, 1999; Gronlund, 1988). Однако, сама по себе тестовая технология, даже разработанная по всем правилам математической теории тестов, не снимает ряда психологических проблем. Возникает практическая проблема такой организации информационно-коммуникативной среды в процессе создания и применения тестов, которая бы снимала негативный эффект психологического отчуждения преподавателей (наставников на производстве) от образовательного процесса.

В работах наиболее системно-мыслящих специалистов тестовый контроль рассматривается не как изолированный инструмент, но входит в систему методов контроля - как элемент комплексной оценки качества знаний учащихся (студентов вузов, в частности). Технология комплексной оценки

качества знаний студентов включает в себя учет текущей работы студентов, результаты промежуточного и итогового контроля знаний студентов, а также учет степени сохранности полученных знаний через какое-то время после экзамена. Это может быть достигнуто интеграцией как однотипных форм контроля (тестовых), проводимых в течение определенного периода обучения, так и разнотипных форм (в качестве дополнительного средства принятия решения об уровне усвоения знаний).

Одним из актуальных направлений является проблема использования особых сетевых инструментально-измерительных технологий для оценки образовательных достижений учащихся, которая набирает новую высоту в связи, с внедрением Интернета и других информационно-коммуникационных технологий. Новые информационные технологии инициируют развитие новых подходов к технологиям обучения, включая дистанционное образование. Однако неверным было бы предполагать, что информатизация процессов контроля усвоения знаний способна автоматически решить очерченные выше проблемы. Чрезвычайно важным является вопрос разработки четкой и научно обоснованной психолого-педагогической концепции создания и внедрения компьютеризированных тестовых методик контроля знаний.

Тестирование - это быстрый и в зависимости от контекста применения эффективный способ контроля и оценки учебных достижений, позволяющий регулярно проводить мониторинг уровня освоения учебного материала студентами и своевременно обеспечивать необходимое взаимодействие между учащимися и преподавателями, направленное на повышение качества образования. В повседневной практике контроля знаний использование систем тестирования позволяет повысить качество контроля, снизить долю субъективизма в процессе контроля знаний, сократить время для проведения зачетных занятий, повысить заинтересованность студентов в результатах обучения, осуществить на практике принцип единства требований к уровню знаний, получить объективную информацию о владении студентом определенными знаниями, умениями и навыками и соотнести эти данные с задачами обучения для своевременной коррекции процесса усвоения новых знаний. Для успешного внедрения и реального содействия эффективности

учебного процесса, по мнению автора данной работы и его научного руководителя, тестовые формы контроля знаний должны не подменять, но дополнять традиционные, сложившиеся формы контроля успеваемости. При этом могут быть достигнуты, как минимум, 3 следующие методические и педагогические цели (Чумаков, 2006):

  1. Получение объективных статистических данных о результативности учебных курсов и трудностях в усвоение определенных элементов содержания образования.

  2. Повышения мотивации и ответственности в отношении студентов к контролю их образовательных достижений.

  3. Совершенствование традиционной схемы приема экзаменов - в случае обнаружения резких расхождений между оценками экзаменаторов и оценкам студентов по тестам следует производить, как минимум, дополнительное устное собеседование экзаменаторов с экзаменуемым по материалам курса.

Преимущества и недостатки методик тестирования и проблемы их использования

В настоящем параграфе обсуждаются преимущества тестовых форм контроля знаний, их проблемы и ограничения при использовании. Понятие «педагогический тест» нужно рассматривать в двух существенных смыслах: — как метод педагогического измерения (Белова, 1996; Бурлачук, Морозов, 1999; Гайда, Захаров, 1982; Майоров, 1996; Морев, 2004; Холодная, 1990). — как результат измерения, состоящего из ограниченного множества заданий (Анастази, Урбина, 2001; Gronlund, 1998; Mehren, Lehmann, 1991; Rudner, 1983, Straetmans, Eggen, 1998). Удивительно, что тексты на русском языке тяготеют к первому смыслу, в то время как в большинстве работ западных авторов понятие тест чаще, чем в России, рассматривается во втором смысле, потому что осмысленный, а не дословный перевод научного понятия (а не слова) «тест» означает, что тест - это: 1) метод; 2) результаты правильного применения теста; и 3) интерпретация полученных результатов (Аванесов, 2002).

Тест в педагогике и психологии имеет сходное технологическое (операциональное) определение, но несколько различное применение. Тест в психодиагностике — это инструмент, состоящий из квалиметрически выверенной системы тестовых заданий, стандартизированной процедуры проведения и заранее спроектированной технологии обработки и анализа результатов, предназначенный для измерения качеств и свойств личности, изменение которых возможно в процессе систематического обучения (Бурлачук, Морозов, 1999). Направленность педагогического теста - это не качества и свойства личности, а т.н. ЗУН - знания, умения и навыки, а по технологической сути педагогический тест весьма сходен с психодиагностическим. Используя приведенное определение: тест в качестве составляющих должен иметь, по крайней мере, три элемента — систему заданий, зафиксированную документально технологию предъявления и отработанную систему проверки обработки и анализа результатов, которые должны составлять единство (Майоров, 1996).

Одним из важных моментов, на которые нам бы хотелось обратить внимание, - это разграничение тестов знаний и тестов профессиональных достижений. Тесты знаний предназначены для того, чтобы оценить успешность овладения конкретными знаниями или отдельными разделами учебных дисциплин. Тесты же профессиональных достижений применяются прежде всего для измерения эффективности обучения или тренировок, для отбора персонала на наиболее отвественные должности, где требуются хорошие профессиональные знания, для определения уровня квалификации работников (Смирнов, 2005), то есть для оценки уровня развития конкретных знаний и навыков, требуемых для признания человка специалистом в той или иной области. В нашем исследовании мы всесторонное рассматриваем процесс разработки и проведения теста для оценки уровня знаний у выпускников психологического факультета, для которых данное испытание является одним из ключевых этапов признания их в качестве специалистов в области психологии.

Проблемам внедрения тестов в образовательной среде и факторам, препятствующим внедрению, мы, так или иначе, посвящаем данную работу. Эту тему мы будем развивать чуть дальше и анализировать ее различные аспекты в контексте определенных шагов при построении нашей технологической модели на материале конкретного теста. Сейчас же остановимся на сопоставлении традиционной и тестовой форм контроля знаний, что, в свою очередь, даст нам первые ориентиры на пути осознания комплексной проблемы включения тестов как в систему российского образования в целом, так и в систему работы отдельного образовательного учреждения, в частности.

Критики недостатков традиционных способов аттестации учащихся приведено достаточно много (Аванесов, 1998; Плавинский, 2001; Равен, 1999; Шмелев, 1999; Clegg, Cashin, 1986, Dressel, 1976; Feinberg, 1990; Hymes, Chafin, Gonder, 1991). Основной недостаток - низкая объективность оценивания, о которой говорится уже много лет. При использовании тестовых методик контроля знаний этой и многих других проблем, на наш взгляд, можно избежать. Мы выделяем следующие положительные стороны тестовой формы контроля знаний (Шмелев, 1987).

Во-первых, тесты оказываются значительно более объективным способом оценивания. Во-вторых, тесты — более объемный инструмент — выполняя тестовую работу, каждый ученик выполняет задания, используя знания по всем темам, изучение которых предусматривала программа. На устный экзамен обычно выносится 2-4 темы, на письменный несколько больше. Именно «объемность» соответствует тому свойству метода тестов, который выше мы обозначили несколько метафорическим термином «широта».

Третьим существенным отличием тестов является то, что это более мягкий инструмент, большая часть учащихся получает оценки в середине тестовой шкалы, а не на ее полюсах; тесты ставят всех учащихся в равные условия, используя единую процедуру и единые критерии оценки со многим числом градаций, именно применение дифференцированных оценочных шкал с большим числом градация приводит к снижению предэкзаменационных нервных напряжений. Тест — широкий инструмент и с точки зрения интервала оценивания: он дифференцирует и учащихся, размещающихся на высоком полюсе шкалы (так называемая «высокая группа»), и учащихся, размещающихся на низком полюсе шкалы.

Можно отметить и гуманизм тестирования, который заключается в том, что всем предоставляются равные возможности, а широта теста дает возможность ученику показать свои достижения на широком поле материала. Таким образом, ученик при решении отдельного задания получает некоторое право на ошибку, которого он при традиционном способе оценивания фактически не имеет.

Привлекательными оказываются тесты и с точки зрения управления. Они дают широкую возможность для варьирования сложности тестового материала, широты охвата, целевой направленности, включения в тест нескольких компонентов структуры знаний.

Кроме этого, тесты эффективны с экономической точки зрения. При тестировании основные затраты приходятся на составление качественного инструментария, то есть носят разовый характер их легче скалькулировать. А на этапе проведения тесты гораздо экономичнее традиционных методов.

Помимо указанных преимуществ тесты обладают еще двумя свойствами, которые делают их более удобной формой контроля знаний учащихся: удобная, количественная форма выражения результатов дает возможность сравнивать уровень достижений различных учащихся и количественно описывать прогресс или регресс в качестве образования; при определенных условиях тесты обладают высокой степенью защиты от фальсификации (хотя такую защиту обеспечивают фактически только компьютерные процедуры тестирования).

Состав и типы тестовых заданий, контекст их различного применения

В данном параграфе обсуждаются основные типы тестовых заданий, их содержание, требования к основным видам тестовых заданий, которые применяются в тестах учебных достижений, а также некоторые аспекты возможности их применения в зависимости от контекста.

В самом общем виде тестовые задания должны (Майоров, 1996; Клайн, 1994; Cheung, Bucat, 2002; Burton at al., 1991; Frary, 1996; Kahoe, 1995): быть составлены с учетом соответствующих правил; соответствовать содержанию учебного материала; быть проверены на практике (апробированы); иметь рассчитанные показатели качества — трудность и дискриминативность (способность задания разделять испытуемых в соответствии с успешностью их деятельности); быть достаточно краткими, ясными испытуемому. Минимальные требования к составу тестового задания состоят в наличии трех частей (нами были разработаны краткие рекомендации авторам тестовых заданий, ознакомиться с которыми можно в Приложении 22): 1. Инструкции. 2. Текста задания (вопроса) - содержательного наполнения задания: стимулирующего материала, введения, собственно вопроса. 3. Правильного ответа (или оценочной схемы - для открытых заданий). 4. Дистракторы (в случае заданий с выбором ответа из готовых вариантов). Основное требование к тестовым заданиям в дидактических тестах -тестовое задание должно иметь однозначный правильный ответ. Надо отметить, что в ряде случаев это требование представлено в более слабой форме - иметь однозначный наилучший ответ (см. работы И.Д. Рудинского, 2003, который обосновал возможность применения аппарата нечетких множеств для учета вклада различных ответов в тестовый балл, что, впрочем, учитывается во многих западных алгоритмах, основанных на IRT, а также в разработках специалистов Федерального центра тестирования - Ю.М. Нейман, В.А. Хлебников, 2000). Данное требование необходимо пояснить. Часто понятие однозначности ответа трактуется как требование единственности или наличия предполагаемого образца. В данном случае речь идет об однозначной, с точки зрения пользователя, возможности оценки результата выполнения тестового задания, как возможности любого пользователя на основе сравнения ответа учащегося и правильного ответа (схемы анализа), предложенного разработчиком, сделать однозначный вывод о том, выполнил данный ученик это задание верно или нет. Поэтому правильный ответ разработчика может заключаться не только в эталонном ответе, но и в описании схемы анализа, содержать конструкции «и ... и», «...или...», описывать вариант неправильного ответа, считая все остальные правильным. Рассмотрим типы тестовых заданий и выделим требования к ним. В литературе чаще всего выделяют шесть типов (Аванесов, 1998; Кэйс, Свенсон, 1996; Майоров, 2000; Морев, 2004): 1. Задания с бинарными ответами (верно-неверно, правильно неправильно) Такого типа задания являются самыми простыми, но не самыми распространенными при составлении тестов. Взятые отдельно вопросы такого типа не очень эффективны, а вот длинные серии таких вопросов дают определенные преимущества. Ответы на них обычно не занимают много времени, и есть возможность охватить весь материал по предмету, задавая как можно больше вопросов по нему. В такой форме эти задания в большей степени подходят, например, для выявления уровня овладения сложными определениями, схемами и т.д. 2. Задания множественного выбора Это основной тип заданий, применяемый в тестах достижений. Такого типа задачи предполагают наличие вариативности в выборе, то есть испытуемый должен выбрать один из предложенных вариантов, среди которых чаще всего только один правильный. Оптимальное количество альтернатив -это 3 или 4. Поскольку, имея две альтернативы, экзаменуемый начнет догадываться о правильном ответе, особенно, если альтернативы похожи друг на друга. Однако обычно трудно найти более 4 интересных и оригинальных альтернатив. К тому же более чем 4 альтернативы, значительно увеличивает время ознакомления тестируемого собственно с вариантами ответа, что, в конечном счете, может привести к утомлению и ухудшению результатов прохождения тестирования. Задания с множественным ответом - испытуемый может выбрать из набора несколько правильных ответов. 3. Задания на восстановление соответствия Задания соответствия, в которых необходимо найти или приравнять части, элементы, понятия - конструкциям, фигурам, утверждениям; восстановить соответствие между элементами двух списков. На наш взгляд, применимость такого типа задач не всегда является оправданной, поскольку очень часто при сопоставлении двух групп понятий или элементов очень часто проявляется логическое следствие одного элемента из другого, что в данном случае будет являться подсказкой. Подобного рода ошибки можно избежать при достаточной однородности структуры предложенных заданий, однако, в таком случае задание станет излишне громоздким и потребует достаточно много времени для его изучения и будет трудно воспринимаемым. 4. Задания на восстановление последовательности Такого типа задания рассматриваются, как вариант заданий на восстановление соответствия, когда одним из рядов является время, расстояние или иной континуальный элемент, который подразумевается в виде ряда.

Однако, при всей краткости и простотой проверки эти задания не находят широкого применения. Для нашего исследования прослеживается подобная тенденция, поскольку вопросы подобного рода будут иметь слишком ограниченное применение. Не так часто для итогового и текущего контроля необходимо иметь представление о хронологической последовательности каких-либо фактов, хотя вопросы на знание хронологии все же встречаются в системе психологического образования, но при этом либо их количество ничтожно мало, либо составляет узкую, специфичную область знаний, для которой создание отдельной методики тестирования не имело бы особого смысла.

Измерение общих психометрических свойств теста в целом

В настоящем параграфе мы рассмотрим основные критерии оценки пользовательского интерфейса программных средств экспертизы измерительных материалов и проведения тестирования, а также предложим варианты технологических решений.

Большое внимание при разработке пользовательского интерфейса уделяется стандартизации. Существуют как общепринятые официальные стандарты, например, ISO 9241-11 (ISO 9241-11:1998), стандарты различных министерств и ведомств, например, министерств обороны США и Великобритании US DoD (DoD TAFIM (1996)), UK Mod Defence Standard 00-25 (UK Mod Defence Standard 00-25), в России активно развиваются разработки в рамках стандарта IMS (Internet Multimedia Subsystem) для создания сетевых программ, так и внутренние стандарты компаний, работающих в сфере информационных технологий, которые касаются разработки как программ, так и информационных ресурсов Интернета, регламентирующие как внешний вид, так и стандартные сценарии, паттерны взаимодействия с пользователем. Например, это компании Microsoft (The Windows User Experience. Official Guidelines for User Interface Developers and Designers, Windows XP Visual Guidelines, 2001), Apple (Apple Web Design Guide; Aqua Human Interface Guidelines; Mac OS 8 Human Interface Guidelines) и другие. Отметим здесь, что существуют и отечественные разработки подобных внутрикорпоративных стандартов (Перевалов, 2002). Все эти стандарты в значительной мере опираются на устоявшиеся принципы и традиции в проектировании пользовательских интерфейсов (Fowler and Stanwick, 1998; Hix and Hartson, 1993; Preeceetal. 1989).

Выделяются следующие характеристики, которыми обладает графический интерфейс пользователя (Мандел, 2001): 1. имеет растровый дисплей с высокой разрешающей способностью; 2. имеет указывающее устройство, как правило, манипулятор типа «мышь»; 3. поддерживает идею совместимости между программами; 4. представляет графические изображения и текст на экране в том виде, в каком они будут распечатаны; 5. следует концепции интерактивного взаимодействия «объект -действия»; 6. позволяет перемещать информацию между программами; 7. предоставляет возможность прямого манипулирования объектами и информацией на экране; 8. предлагает стандартные элементы интерфейса (меню и диалоговые окна); 9. обеспечивает визуальное отображение информации и объектов (иконки и окна); 10. обеспечивает визуальную обратную связь по ходу выполнения пользователями действий и задач); 11. дает визуальное отображение действий пользователя/системы, а также режимов (меню, палитры); 12. использует графические управляющие элементы, позволяющие пользователям делать выбор и вводить данные; 13. дает пользователям возможность настроить и персонализировать интерфейс и интерактивные действия. Существуют следующие этапы проектирования (Салвенди, 1990). Во-первых, это предварительное проектирование: 1) принципы проектирования диалога; 2) совместимость - минимизация количества информации, обрабатываемой пользователем; 3) согласованность - минимизация различий в диалоге как в пределах отдельных интерфейсов, так и в рамках всей информационной системы; 4) наличие памяти - минимизация количества информации, которую пользователь должен запоминать; 5) понятность структуры - организация помощи пользователю в понимании структуры системы для эффективной работы с пользовательским интерфейсом; 6) обратная связь - обеспечение пользователя обратной связью и возможностью исправления ошибок; 7) умеренная нагрузка - поддержание умственной нагрузки пользователя в разумных пределах; 8) индивидуализация - сглаживание индивидуальных различий между пользователями посредством автоматической адаптации и подстройки интерфейса под пользователя. Вторым этапом в проектировании является формальное оценивание, заключающееся в экспертизе полученного промежуточного продукта проектирования специальными методами, часто с применением математической обработки. И третий этап - это итоговое оценивание, которое осуществляется уже после выпуска окончательного полноценно функционирующего экземпляра проекта. Пользовательские интерфейсы программ, работающих под операционной системой Microsoft Windows, должны быть основаны на стандартах проектирования, разработанных корпорацией Microsoft (The Windows User Experience. Official Guidelines for User Interface Developers and Designers, 2000 и др.), то есть использовать стандартные элементы и стандартные способы решения однотипных задач. Соблюдение данного требования способствует быстрому и эффективному внедрению таких компьютерных программ, быстрейшему обучению пользователей. В нашей работе пользовательские интерфейсы процедур тестирования и экспертизы, связанных с использованием сети Интернет, для простоты и удобства освоения мы (вместе с работающими с нами разработчиками из лаборатории «Гуманитарные технологии») реализуем по аналогии с Интернет-страницами (меню прокрутки, чек-боксы, строка ввода, выпадающие подсказки и т.д.). Для процедур компьютерного тестирования, проводимого локально, без использования сети Интернет, наши программные оболочки представляют собой диалоговую модель линейного автоматизированного алгоритма реализации бланкового тестирования. При построении функциональной модели педагогического он-лайн теста нам следует вспомнить основные этапы разработки тестов, но применительно не столько к содержательной стороне, сколько к процессуальной: ? Разработка первоначальной версии теста (избыточной по набору вопросов). ? Проведение пилотажного тестирования в режиме диалога (как экспертного, так и пользовательского). ? Анализ результатов, включая анализ тестовых вопросов, отсев «неработающих» заданий. ? Коррекция ключей и набора вопросов, создание новой (как правило, сокращенной) версии. ? Построение системы интерпретации результатов и сообщений на основе тестовых норм и введенных оценочных критериев. ? Сдача теста в эксплуатацию с использованием дополнительных возможностей диалогового режима для контроля психометрических характеристик теста и качества старых, а также новых поступающих в банк тестовых заданий. Итак, рассмотрим схему, приведенную в приложении 1 (в этом параграфе используется разработанное научным руководителем данной работы описание модели компьютерной системы тестирования «Телетестинг», защищенной патентом №2186423 в агентстве «Роспатент», приоритет от 15.12.1998). На ней показано взаимодействие между собой четырех основных блоков непосредственно тестовой оболочки: «Подготовки» - блок, подготавливающий варианты, в зависимости от задач тестирования на основе анализа статистической трудности тестовых заданий (т.н. генерация вариантов). «Тестирования» - блок, отвечающий за фиксацию текущего поведения тестируемого (фиксация ответов, связь с банком заданий для предоставления информации при формировании динамических вариантов в случае адаптивного тестирования).

Поиск внешних показателей качества теста (проверка валидности по внешнему критерию)

Как видно из диаграммы, задания по психологии памяти оказались для пятикурсников наиболее легкими, а задания по психологии мышления -самыми тяжелыми. Опыт знакомства с этими курсами подтверждает полученные нами данные: традиционно в процессе обучения курс психология памяти дается учащимся гораздо легче, чем психология мышления.

При анализе диаграммы (приложение 15) нетрудно заметить практически полное отсутствие очень трудных или очень легких заданий. Это может быть объяснено в первую очередь тем, что второй цикл апробации проходил непосредственно перед сдачей государственного экзамена, поэтому общий уровень подготовленности и мотивация к прохождению были неизбежно выше, чем у учащихся, которые проходили тест на добровольных началах на первом апробационном этапе. Большинство заданий находится в диапазоне средней трудности и если мы вычислим среднюю трудность тестовых заданий, то мы получаем число порядка -0,11 баллов, что наглядно свидетельствует о чуть большем смещении в сторону легких заданий по сравнению со средней трудностью (0,05) в первом апробационном цикле. Также следует отметить возросшую сбалансированность по трудности тестовых заданий: если в первом апробационном цикле стандартное отклонение имело значение порядка 1,44 балла, то во втором этот показатель составил уже 1,12 балла.

Из таблицы (см. приложение 16) видно, что вопросы по-прежнему работаю в большинстве случаев либо не только на свои, либо вообще не на свои шкалы. Это факт может быть прежде всего объяснен высокой сцепленностью и взаимосвязанностью знаний из различных разделов общей психологии, наблюдаемую при анализе данных взаимной корреляции шкал в обоих апробационных циклах (приложения 13 и 17). Поэтому в случае заведомо предполагаемой высокой внутренней корреляции шкал мы, как уже отмечалось ранее, рекомендуем ориентироваться при отборе работающих заданий в большей степени на дифференцирующую способность.

Напомним, что в IRT, методы которой мы используем для расчета показателей дискриминативности, значение индекса дискриминативности, принадлежит интервалу [-1; 1]. В качестве критического числа, ниже которого не должен опускаться значения дискриминативности, большинство специалистов рекомендуют использовать 0,2 (Клайн, 1994; Челышкова, 2001; Cracker, Algina, 1986).

На диаграмме (приложение 18) заметен значительный подъем в распределении дискриминативности тестовых заданий, а при анализе данных таблицы (приложение 19) получается что более половины заданий (141 задание) имеют показатель дискриминативности больший 0,2 и еще 57 заданий находятся в позитивном интервале [0; 0,2]. Для последней группы заданий необходим тщательный анализ содержания, в результате которого могут последовать доработки, способные повысить их дискриминативность. И всего лишь 17 заданий (менее десяти процентов) имеют отрицательный показатель дискриминативности, то есть это те задания, которые «сильные» учащиеся выполнили в большинстве случаев неверно, а «слабые» - верно. По нашему мнению, именно высокая дифференцирующая способность тестовых заданий обуславливает высокие показатели критериальной валидности, которые мы далее предлагаем рассмотреть.

Поиск внешних показателей качества теста (проверка валидности по внешнему критерию) Как мы уже отмечали во второй главе работы одним из наиболее важных и, как правило, наиболее трудных для получения являются показатели валидности. Из них нам особенно интересна валидность по критерию. В рамках валидности по критерию выделяют два основных вида: текущая (диагностическая, конкурентная) — характеристика теста, отражающая его способность различать испытуемых на основании того признака, который является объектом выявления в данной методике. Именно этот вид валидности в большей степени подходит под общее определение валидности тестового инструментария; прогностическая — информация о том, с какой степенью точности мы можем судить о выявленном в результате тестирования качестве спустя определенное время после измерения, то есть определяет временной интервал, в течение которого результаты и выводы могут иметь силу.

Валидизация теста по критерию состоит в сравнении результатов (в нашем случае - общий балл по тесту), полученных испытуемыми за решение теста, с данными по критерию и вычислении коэффициента корреляции тестового результата с внешним критерием. В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест. В качестве критерия нами были выбраны следующие показатели (полный массив коррелируемых данных представлен в приложении 20):

Похожие диссертации на Методика конструирования тестов профессиональных достижений с использованием Интернет-технологий