Главная страница «Первого сентября»Главная страница журнала «Биология»Содержание №24/2008

Курсы повышения квалификации

А. Г. Козленко

Информационная культура и/или компьютер на уроке биологии

Окончание. См. № 17, 18, 19, 20, 21, 22, 23/2008

Учебный план курса

№ газеты

Учебный материал

17

Лекция 1. Информационная культура учителя как высокое искусство авторизации

18

Лекция 2. Уровни работы с текстом на уроке биологии

19

Лекция 3. Математика в биологии: культура числовых заданий

Контрольная работа № 1

20

Лекция 4. Образ и звук: управление мультимедиа на уроке

21

Лекция 5. Биологическое видео: источники и цели применения

Контрольная работа № 2

22

Лекция 6. 3D-модели в биологии: оценка эффективности, анализ альтернатив

23

Лекция 7. Интерактивность на уроке биологии: уровни решений

24

Лекция 8 Оценивание как тест на информационную культуру

Итоговая работа

Лекция 8. Оценивание как тест на информационную культуру

Проверка знания дат может предполагать и проверку умения соотносить события. Например, такое задание: «23 года отделяют друг от друга два события. Одно произошло в Англии, другое во Франции. Какие это события?» (Владыкин В.Ж., Владыкина Е.В., 1997. С.118). Какими словами учитель будет разубеждать ученика, уверяющего, что в апреле 1783 года у одного крестьянина в Вандее (Франция) сдохла корова, а в апреле 1806 года один рабочий в Манчестере (Англия) потерял гвоздь? Неужели станет требовать указания событий большой общественной значимости, повлиявших на судьбы человечества, повернувших мировую историю? Так, во-первых, такого требования в тексте задачи нет, а во-вторых, значимость событий, названных учеником, просто никто не просчитывал. Что случилось, «потому, что в кузнице не было гвоздя», или бабочку Рея Бредбери помните? Этот пример хорошо иллюстрирует некорректное понимание латентных ассоциаций составителем задачи и вытекающее отсюда неумение пользоваться этим тонким механизмом.

В.В. Гузеев. Теория и практика интегральной образовательной технологии

Приведенный в эпиграфе частный пример показывает, как важна информационная культура в оценивании. Но все гораздо сложнее: учителю приходится держать в информационной системе (голове) актуализированными одновременно несколько пластов информации: об изученном материале и его структуре, о важности отдельных аспектов, о возможных (и уже использовавшихся) формах контроля, о личных качествах обучаемых и т.д. Иными словами, существует некая модель предметной области, возможно, функционирующая в виде графа с узлами-понятиями и линиями-связями (отношениями) между ними; есть обобщенная модель ученика класса с более детально проработанными подмоделями 2–3 сильных и 2–3 (редко больше) проблемных учеников и группами (кластерами) остальных; есть набор правил внешнего соответствия (стандарты, правила внутришкольного распорядка, исключения из них). Значительная часть информации в этих моделях не только не формализована, но даже не осознаваема и подчас противоречива.

В школьном обучении, которое тоже несет многие свойства игры (см. лекцию 1), понимание правил этой игры – важный элемент получения удовольствия от нее, потому и правила оценивания должны быть прозрачными и понятными, а сам процесс не может не включать активную роль учеников.

Представляется полезным разграничение понятий «оценка» и «отметка». Оценка – это процесс, деятельность (или действие) оценивания, осуществляемая человеком. Отметка (балл) является результатом процесса оценивания, его условно-формальным отражением. Отождествлять оценки и отметки – все равно что отождествлять процесс решения задачи с полученным ответом. Педагогическим стимулом, средством мотивации, условием формирования критического мышления etc. является отметка, зачастую приобретающая ненужные ей функции поощрения и наказания, по словам Л.С. Выготского, страшные вещи. Процесс же оценивания (оценка) обычно скрыт от учеников черепной коробкой педагога. Именно это «темное» действие, не очищенное от субъективизма, является причиной значительной части конфликтов и стрессов. Среди незамечаемых повседневных личностных проколов выставления отметок можно выделить ряд типичных:

великодушие (или снисходительность): выставление завышенных отметок (взяточничество по терминологии К.Прайор (Прайор, 1995, см. список рекомендуемой литературы);
ореол (шлейф): стремление завышать отметки тем, к кому относятся положительно, и занижать тем, к кому отрицательно;
центральная тенденция: стремление избежать крайних отметок;
близость: сложно после очень плохой отметки сразу поставить очень хорошую;
логика: соотнесение отметок с разными психологическими свойствами и характеристиками, которые кажутся логически связанными (например, разные баллы для непоседливого и усидчивого ученика).

«Перечисленные субъективные тенденции оценивания обучающихся в социальной психологии часто называют ошибками, бессознательно допускаемыми всеми людьми. Осознанное, преднамеренное искажение оценок следует рассматривать по-другому: как способ стимулирования обучающегося»1.

Еще одним источником ошибок (или способом стимулирования обучающегося) могут стать присущие любой деятельности личностные свойства, накладывающиеся на успешность выполнения учебных заданий. Например такая форма проведения занятия.

«Активный игровой вариант итогового занятия «Биологический Царь горы». Как в старину на ледяной горке – один наверху, другие его стараются оттуда столкнуть; кому удалось, сам стал царем. Так и в классе: ставятся 2–3 стула у доски, приглашаются первые цари, а одноклассники начинают задавать вопросы по изученной теме (требующие короткого, в одну-две фразы, ответа). Кто не смог ответить – ушел, его место занял автор удачного вопроса. Учителю остается фиксировать количество правильных ответов и хороших (сменяющих царя) вопросов, чтобы потом поставить оценки и контролировать сложность и корректность вопросов. Для большего динамизма можно царя, ответившего, скажем, на семь вопросов подряд, наградить почетным титулом и отправить на пенсию, дав возможность другим бороться за трон».

Несмотря на кажущуюся объективность полученного расчета, существенную роль играет честолюбие, стремление покрасоваться перед сверстниками, лидерство (впрочем, последнее рассматривается сейчас как важная компетенция и как особая одаренность).

Часто несправедливо дискриминируют обучаемых с дефектами речи, и, что особенно интересно, сейчас среди преуспевающих топ-менеджеров и руководителей довольно много людей с затрудненной речью (правополушарных?).

«Оценки учителей с разным типом функциональной асимметрии полушарий значительно расходятся для 74% мальчиков и для 50% девочек. Это так называемый закон нейропсихологического соответствия учителя и ученика. Левополушарный учитель в 82% случаев лучше оценивает детей своего типа, правополушарный и равнополушарный учитель в 73% случаев дает положительную оценку детям своего типа»2.

Задание 8.1. Обратите внимание на приведенные в цитате значения. Какие из четырех цифр связаны между собой и как? Какие еще цифры (проценты) негласно присутствуют в приведенных соответствиях?

Из-за такого наслоения, переносимого на оценку с отметки, оценивание в последнее время часто называют педагогическим измерением. Измерение является также основой одного из направлений стратегического менеджмента в бизнесе – сбалансированной системе показателей3 (ССП, или Balanced Scorecard – BSC). ССП – это механизм формулирования (и последовательного доведения до персонала) стратегических целей компании и контроль их достижения через так называемые ключевые показатели эффективности (КПЭ, или Key Performance Indicator – KPI). КПЭ являются характеристиками эффективности бизнес-процессов, и достижение определенного их уровня (например, уменьшение времени обслуживания клиента на 10% или увеличение охвата подростков района спортивными секциями на 5%) – задача ССП. Основной принцип этой технологии управления – управлять можно только тем, что можно измерить. Иначе говоря, цели можно достигнуть только в том случае, если существуют поддающиеся числовому измерению показатели, показывающие управленцу, что именно нужно делать (какого числа достичь) и правильно ли с точки зрения достижения цели он делает то, что делает (влияют ли действия на достижение нужного уровня). Впрочем, некоторым это напоминает известный анекдот о пьяном, который ищет потерянные ключи под фонарем не потому, что там потерял, а потому, что там светло…

Как вариант выхода из ситуации, когда абсолютный знаниевый (или навыковый) уровень неизвестен или недостижим, предлагается оценивать не сам уровень знаний (навыков, компетентностей), а его изменение, приращение за единицу времени, X/t, так сказать… Этот подход – из дидактической эвристики (педагогической теории, согласно которой образование строится на основе творческой самореализации учащихся и педагогов в процессе создания ими образовательных продуктов в изучаемых областях знаний и деятельности).

«Принцип образовательного приращения, или принцип продуктивности обучения: главным ориентиром обучения является личное образовательное приращение обучающегося, которое складывается из его внутренних продуктов учебной деятельности (умения, способности, способы деятельности и т. п.) и внешних (версия, текст, рисунок и т.п.)»4.

Реально мы имеем дело с неким двух-трех-(много?)мерным пространством – континуумом5 подготовленности, и как в нем расположены факты, знания, интеллектуальные процедуры и умения – очень большой вопрос. Оценивание – это попытка найти проекции и принципы, дающие представление о континууме, как физическая карта местности дает представление (с оговоренным кругом искажений и обозначений) об участке поверхности Земли.

Задание 8.2. Обратитесь к лекциям 3 и 6 и предложите вариант визуализации континуума подготовленности старшеклассника (а также шкалы, по которым планируете представлять данные, возможные взаимозависимости и др.).
Пришлите получившийся вариант автору.

Может ли процесс оценивания быть вынесен из головы педагога вовне и стать частью процесса (взаимо)обучения? Этому, собственно, и будет посвящен весь дальнейший разговор. Первый шаг к эффективному оцениванию – коррекция недостатков самих отметок, и наиболее простой путь – повышение их дифференцированности.

Задание 8.3. Просмотрите лекции и найдите все балльные системы, применявшиеся для оценивания разных параметров.

Интересно отметить, что в упорядочении подходов к педагогическим измерениям большую роль сыграли информационные технологии: усилия по построению компьютерных обучающих систем (КОС), включающих свободные от субъективизма и максимально формализованные процедуры оценивания, привели к тому, что ряд сформулированных для электронных образовательных ресурсов правил и положений (см. например, Башмаков А.И., Башмаков И.А., 2002, в списке рекомендуемой литературы) вполне могут быть возвращены в аналоговую образовательную практику. Возьмем, например, такой трудно формализуемый (и потому обычно измеряемый на глазок), но важный для оценивания показатель, как сложность учебно-тренировочного задания (УТЗ), и обратимся к чеканным формулировкам первоисточника.

«Под сложностью понимается характеристика УТЗ, пропорциональная объему знаний и интеллектуальным усилиям, требуемым для ее решения.

Назовем основные факторы, влияющие на сложность УТЗ:

– близость искомого результата (ответа) или данных, требуемых для его получения, к содержанию учебного материала;
– полнота и характер представления в условии задачи информации, необходимой для ее выполнения (подобные сведения выражаются в виде рекомендаций, указаний, советов, ссылок, наводящих вопросов и т.д.);
– объем информации, которая должна быть привлечена для выполнения УТЗ, ее распределение по содержанию курса, а также сложность воспроизведения ее по памяти;
– сложность метода решения (число его этапов, характер переходов между ними, количество исключений из правил и др.);
– состав и характер отношений, связывающих проверяемые положения учебного материала, которые должны быть учтены при выполнении УТЗ;
– форма представления условия и результата (с точки зрения их наглядности);
– характер диалога, включая взаимодействие с моделями»6.

Конечно, в компьютерных обучающих системах наиболее удобными для автоматизированной обработки и хранения результатов оценивания являются тесты с закрытой формой заданий (табл. 8.1); впрочем, они любимы и в аналоговой форме (особенно на бланках программируемого контроля, если кто помнит такое словосочетание). Но даже в оценивании тестовых ответов УТЗ демонстрируют полезное многообразие балльных шкал (рис. 8.1), в т.ч. с использованием отрицательной области.

Рис. 8.1. Варианты оценивания учебно-тренировочных заданий (УТЗ) в компьютерных обучающих системах

Рис. 8.1. Варианты оценивания учебно-тренировочных заданий (УТЗ) в компьютерных обучающих системах. Цифрами в скобках обозначены: (1) – поощрение за выполненную часть; (2) – штраф за невыполненную часть УТЗ или допущенные погрешности; (3) – комбинация поощрения и штрафа путем добавления к оценке ошибки поощрительных баллов или вычитанию из оценки верного ответа штрафных баллов; (4) – штраф за невыполненную часть УТЗ или допущенные погрешности, вычитаемый из оценки верного ответа. (По: Башмаков А.И., Башмаков И.А., 2002, с изм.)
Таблица 8.1. Недостатки заданий закрытой формы и меры по их устранению

Недостаток

Пути коррекции

Правильные ответы на разные вопросы оцениваются одинаково

A. Ранжирование вопросов по сложности и введение весовых коэффициентов для каждого вопроса. Для тестов применяется редко – в них вопросы подбираются (по крайней мере, в рамках одного блока) равносложными.
Б. Присвоение весовых коэффициентов (по сложности) группам вопросов.

Два неправильных ответа на один и тот же вопрос оцениваются одинаково

А. Ранжирование вариантов ответов по степени неправильности: «в корне неправильно»; «скорее неправильно, чем правильно»; «не совсем правильно» и т. д. с разными баллами за каждый вариант.
Б. Использование отрицательной (минусовой) шкалы, снятие баллов или штрафные баллы.
В. Абсурдный ответ, который оценивается в минусовой шкале

Неполные ответы оцениваются одинаково

Использование дифференцированных оценок за полноту ответа, системы призов и штрафов (разные варианты для вопроса с выбором нескольких правильных ответов).
В открытых тестах – добавление призовых баллов, например за тщательность: ответ на каждый вопрос оценивается каким-то количеством баллов (не выше максимального); при проверке подсчитывается сумма «сырых» баллов и % от максимального количества баллов за те вопросы, на которые даны ответы; рейтинговый балл складывается из суммы «сырых» баллов и призовых баллов за качество, численно равных 0,1% от выполнения заданий )7

Угадывание ответов

А. Увеличение числа вариантов ответов (оптимально 5–7 вариантов). Впрочем, при большом количестве вариантов (больше трех) подобрать равно правдоподобные формулировки сложно, и один-два дистрактора в любом случае будут иметь устойчиво низкую выбираемость. Обычная ошибка – правильным является самый длинный ответ.
Б. Введение для каждого вопроса теста вопроса-дублера, который в завуалированной форме повторяет содержание основного вопроса (оцениваются одним баллом, только если оба ответа правильные).
В. Ввод дополнительного «коэффициента уверенности»8: на каждый вопрос теста даются собственно варианты ответов и варианты уверенности в ответе (например, в виде десятичной дроби – 0,1 и т.п. или %); итоговый результат – сумма произведений баллов за ответ на коэффициент уверенности. Имеет смысл правильный ответ оценивать как «+1», а неправильный – как «–1»

Списывание

Компьютерное тестирование с генерированием последовательности ответов (или создание батарей тестов в текстовом процессоре с распечаткой большого числа вариантов)

 

Задание 8.4. Предложите вопрос (по биологии) в форме тестового задания с выбором нескольких правильных ответов и систему оценивания возможных вариантов ответа на него, максимально использующую описанные в таблице 8.1 и показанные на рис. 8.1 приемы и подходы.
Пришлите получившийся вариант автору.

Наиболее распространена классификация закрытых тестовых заданий по типам выполняемых действий:

1) выбор одного варианта из нескольких предложенных, альтернативный выбор (текст);
2) выбор нескольких вариантов из предложенных, многоальтернативный выбор (текст);
3) выбор одного или нескольких вариантов из предложенных на изображении;
4) сортировка элементов списка по заданному признаку (текст или изображения);
5) классификация, установление соответствия элементов по группам (текст или изображения);
6) вставка выбранной строки в фразу, вопрос на подстановку (текст);
7) ввод слова, строки (текст);
8) ввод числа и др.

Задания с вводом слова или числа отнесены к закрытым потому, что при проверке ответ соотносится с эталоном, обычно посимвольно: лишний пробел или неправильный регистр буквы могут трактоваться как ошибка (в лучшем случае могут учитываться грамматические формы слов, но никак не семантика; например: выбор синонимичного термина – органоиды или органеллы). Варианты 1–2 и 4–5 наиболее часто используются в КОС, причем к первому варианту обычно относятся максимально неуважительно (хотя и используют чаще всего). Впрочем, было показано, что наличие самых примитивных тестов после теоретического материала в КОС повышает эффективность усвоения материала на 17%, и никакие дальнейшие усложнения процедур не дают сопоставимого по соотношению «усилия/эффективность» результата.

Содержание тестов важно не менее их формы. Так, негосударственная профессиональная служба-разработчик тестовых вопросов для системы образования (университетов, школ) в США (Education Testing Services) различает achievement-тесты (на знание фактов, на память, измеряет прошлые достижения) и ability-тесты (когнитивные, оценивающие способность мыслить, т.е., будущие достижения); и по разные стороны от Миссисипи берут в университеты по тестам разных типов. Приведем пример теста с альтернативным выбором.

Задание 8.5. Выполните тест с выбором ответа: ошибка содержится в первом простом предложении (А), во втором (Б), в связи между предложениями (В) или все правильно (Г).
1. Генетический код митохондрий отличается от клеточного, так как большинство митохондриальных белков кодируется в генах, находящихся в ядре клетки.
2. Двойной (тройной) кроссинговер в хромосомах невозможен, поэтому в некоторых случаях расстояние между генами, измеренное с помощью гибридологического метода, может превышать 100 Морганид.
3. Аллопуринол, препарат, который используется для лечения подагры, облегчает состояние больного благодаря «самоубийственному ингибированию» фермента, который принимает участие в окислении пиримидиновых оснований до мочевой кислоты.
4. При эпистазе соотношения генотипов у гибридов F2 отличаются от стандартного из-за того, что аллель (аллели) одного гена угнетают дейст-вие определенных аллелей другого гена.

Для полной коррекции угадывания в таком задании останется предложить указать, в чем именно состоит ошибка (но при этом задание перестанет быть закрытым).

Уже первые компьютеры показали удобство автоматической проверки батарей тестов при помощи тестирующих программ (позволивших убрать эту рутинную процедуру из деятельности учителя). Еще более удобно в этом плане сетевое тестирование в компьютерном классе: возможность одновременно протестировать много учеников (особенно в сочетании с назначением заданий и выбором уровня сложности); мгновенная проверка и коррекция (работа над ошибками): можно распечатать каждому его ошибки и предложить исправить; решение проблемы списывания: тестирующие программы генерируют как последовательность вопросов, так и порядок ответов. Реальный уровень оснащенности классов (обусловленный ограничениями СанПиН) приводит к основному минусу программируемого сетевого контроля: ученикам придется работать в 2–3 потока со всеми вытекающими проблемами. Возможно, когда мобильные компьютерные классы (или персональный школьный ноутбук за 100–200 долларов) будут нормой жизни, тогда вопрос одновременного тестового опроса 30–35 человек будет снят. Пока же для этого пробуют применять средства оперативного контроля/голосования, входящие в поставки интерактивных досок (Interwrite GTCO, Promethean и др.), которые, возможно, сменит электронная бумага…

В компьютерном варианте возможно (и реализуемо) адаптивное тестирование, при котором уровень сложности следующего вопроса зависит от успешности выполнения предыдущего (и его уровня сложности). Путем последовательных приближений такой тест позволяет оценить уровень учебных достижений участника теста, причем за меньшее число заданий.

Основные требования к тестирующим программам:

– типы поддерживаемых тестовых заданий: считается, что чем больше типов поддерживается, тем лучше;

– функциональность редактора тестовых заданий: копирование и перемещение тестовых заданий, разделов; возможность печати тестовых заданий, в т.ч. с ответами; использование в формулировке тестового задания и/или ответе графических, звуковых, видеофайлов, интерактивных объектов; назначение баллов за правильный ответ, за частично правильный ответ; выбор шкалы оценок (до многобалльных); задание количества попыток ответа на тестовое задание;

– процедура тестирования: аутентификация (персональный вход); сетевое тестирование в локальной/глобальной сети одновременно максимального количества обучаемых; вывод всех тестовых заданий списком (для свободного перемещения по тесту); выдача тестовых заданий в случайном порядке; перемешивание ответов тестового задания, выдача тестовых заданий по мере повышения их трудности; ограничение времени на весь тест и/или отдельное тестовое задание, показ оставшегося времени;

– обработка результатов тестирования: отчет с ответами (всеми или только ошибочными) и баллами тестируемого, в т.ч. по всему сеансу тестирования; экспорт данных в Excel; накопление статистических данных по тестируемым, по тестовым заданиям;

– административные функции: хранение сведений о тестируемых, ведение электронного журнала тестирования или экспорт в журнал.

На рынке представлен ряд тестирующих программ, как бесплатных (Hot Potatoes), так и платных (Test Commander9, WebQuiz XP10, Конструктор тестов фирмы Keepsoft11. Цена последней программы зависит от количества пользователей в локальной сети, которое предполагается охватить; тестирующие программы входят также во все системы дистанционного обучения, LMS.

Hot Potatoes12 (рис. 8.2) – инструментальная программа-оболочка, предоставляющая преподавателям возможность самостоятельно создавать интерактивные задания без знания языков программирования (или привлечения специалистов в области программирования). С помощью программы можно создать 10 типов упражнений (вопросы с выбором ответа разных типов, заполнение пропусков, установление соответствий, кроссворд и восстановление последовательности) с использованием текстовой, графической, аудио- и видеоинформации.

Рис. 8.2. Окно создания тестового задания в программе Hot Potatoes

Рис. 8.2. Окно создания тестового задания в программе Hot Potatoes

Особенностью этой программы является то, что созданные задания сохраняются в стандартном формате web-страницы: для их использования обучающимся необходим только web-браузер (например, Internet Explorer) и не нужна сама программа Hot Potatoes, которая требуется только преподавателям для создания и редактирования упражнений. Все упражнения выполняются в режиме тренировки (режим тестирования предусмотрен только для вопросов с множественным выбором ответа). Результат выполнения заданий оценивается в процентах; неудачные попытки приводят к снижению оценки.

Шестая версия программы содержит также дополнительный блок Masher, который позволяет объединять созданные упражнения и другие учебные материалы в тематические блоки, уроки и учебные курсы. Плюс – экспорт в оболочку дистанционного образования Moodle13. Программа широко используется во всем мире; в Финляндии она рекомендуется для освоения школьным учителям.

В решеньи задачи, по общему мненью,
Вся соль, но я полагаю иначе:
Искусство в том, чтобы, зная решение,
Найти подходящую задачу.

П.Хайн. Груки

Применение обеспечивающих доказательность статистических методов в педагогическом эксперименте описано в литературе (см. Новиков Д.А. Статистические методы в педагогических исследованиях (типовые случаи). – М.: МЗ-Пресс, 2004 и компьютерная программа «Статистика в педагогике»14).

Возможна ли «доказательная педагогика»? Термин «доказательная медицина» (Evidence-Based Medicine – буквально «медицина, основанная на доказательствах») впервые был предложен группой канадских ученых из университета Мак Мастер в 1990 г. без четкого определения, но быстро прижился и был растиражирован в англоязычной научной среде и литературе. Evidence-Based Medicine – это совокупность методологических подходов к проведению клинических исследований, оценке и применению их результатов; предполагает поиск, сравнение, обобщение и широкое распространение полученных доказательств для использования в интересах больного. Основой методологии клинических испытаний в идеологии доказательной медицины являются стандартизация условий (опытная и контрольная группы различаются только одним фактором – выбранным терапевтическим приемом, лекарственным препаратом), рандомизация (обеспечение случайности выборки пациентов, участвующих в эксперименте, и отсутствие различий между контрольной и экспериментальной группами) и «ослепление» исследований (проводящий их врач не знает, кто из пациентов получает исследуемый препарат, а кто – плацебо). В узком смысле «доказательная медицина» – это разновидность медицинской практики, когда врач, леча пациента применяет только те методы, полезность которых доказана в достоверных исследованиях.

Попытка введения, по аналогии, термина «доказательная педагогика»15 прошла незамеченной.

Однако достоверность различий в повседневной практике учителя, в отличие от научного исследования, не есть самоцель: важно понимать, есть ли прогресс и чем он вызван. Поэтому доказательность необходима именно в тонких местах, не видимых не вооруженным статистикой глазом. Например, чтобы показать различия между средним баллом и наиболее ожидаемой оценкой для данного классного коллектива – более реальной, чем средний балл, величиной (к тому же разграничивающей учеников на «сильных», «средних» и «слабых»), но получаемой в результате более сложной процедуры.

Сложным вопросом является и интерпретация результатов тестирования. В 1960–1980 гг. на вооружении исследователя (в т.ч. думающего учителя) появилась теория педагогических измерений Item Response Theory – IRT. В этом направлении активно трудятся B.C. Аванесов (Аванесов, 1994; Аванесов, 2001 – см. список рекомендуемой литературы), В.П. Беспалько и др. мэтры.

Рис. 8.3. Дифференцирующая способность вопросов по IRT- статистике

Рис. 8.3. Дифференцирующая способность вопросов по IRT- статистике

Рассмотрим рис. 8.3. График показывает, как зависит количество баллов, набранное за конкретный вопрос (ось Y) от общей оценки за тест (выраженной в долях от единицы, как и доля ответивших на вопрос). Идеальный вопрос – такой, который позволил бы четко разграничить тех, кому по силам справиться с заданием, от тех, кто этого сделать не в состоянии (А): все ученики с баллом за весь тест меньше 0,3 задачу не решили, все с баллом 0,3 – решили. Очевидно, что таких вопросов (особенно если собирается статистика по большой выборке отвечавших) не бывает: кто-то описался, кто-то угадал… Вариант Б, когда вероятность ответа на вопрос равномерно возрастает, кажется более реальным, но такой вопрос плох с точки зрения задач педагогического измерения: ведь на выходе нужно получить отметку, разделяющую обучаемых на классы (кластеризовать), вопрос Б для этого непригоден. Вопрос В отличается лучшей дифференцирующей способностью: доля ответивших на него с общим баллом за тест менее 0,6 не превысила 20%, тогда как справившихся с тестом на уровне 0,8–1 более 90%. Напротив, вопрос Г составлен так, что сильные ученики отвечают на него хуже, чем слабые (набравшие меньший общий балл); такой вопрос должен отбраковываться (проблема лишь в том, что найти его можно только с помощью IRT-статистики и собрав данные с большого числа отвечавших). Увы, даже тестирующие комплексы профессиональных LMS не ведут такой статистики, не говоря уже о простых тестирующих программах, – хотя польза компьютера в этом случае предельно очевидна.

Задание 8.6. В файле _my_rash.xls16, в котором собраны данные об ответах 13 студентов (строки, № 1–13) на 10 вопросов (столбцы, X1–X10), изменяя значения набранных обучаемыми баллов на 5-й вопрос (в т.ч. дифференцируя, вводя десятичные дроби), поэкспериментируйте, чтобы получить разные нужные кривые рисунка 8.3.

Впрочем, двойное слепое рандомизированное плацебоконтролируемое исследование остается в педагогике недостижимой мечтой именно из-за невозможности (по крайней мере, сложности) «ослепления» и неясности с плацебо…

«Характерно, что в классно-урочной системе педагог вынужден в итоге ориентироваться на общегрупповую совокупность результатов, представляющую собой накопительное (не функциональное) множество воспринятых учебных сообщений и выборку из них элементов низшего порога трудности.» [Лобашев В.Д. Частные функции дидактического материала.]

Основное значение понятия рейтинг – индивидуальный числовой показатель популярности или успешности (политического деятеля, организации, спортсменов, вузов и т.п.), который выводится на основе итогов какого-то измерения: голосования, социологических опросов и др. Свойствами рейтинга являются:

– числовой показатель, для получения которого проводится некая математическая обработка «сырых» баллов;
– ранжирование, место в классификационном списке;
– возможность применения адекватных математических моделей и, как результат, получения более точных показателей для описываемого явления (ср. с модой, медианой и средним в 3-й лекции).

Все многообразие рейтинговых систем, спонтанно возникавших в 1990-е гг., в педагогической практике может быть сведено к двум основным вариантам.

В первом из них рейтинг получается в результате суммирования баллов за разные виды деятельности на протяжении какого-то периода времени или фрагмента материала (тема, модуль, четверть, семестр). Такой рейтинг можно назвать накопительным, так как происходит постепенное накопление учениками баллов после выполнения определенных задач (рис. 8.4). Отметки, которые суммируются в ходе накопления рейтинга, могут быть в стандартной четырехбалльной шкале скорректированы с использованием весовых коэффициентов, пропорциональных сложности заданий или вообще не привязаны к стандартной оценке. Эта система особенно эффективна на элективных курсах и факультативах, где каждое задание оценивается определенным баллом, зависящим только от сложности самой задачи. Накопительный рейтинг – компонент кредитно-модульной системы, внедряемой в вузах в рамках Болонского процесса.

Рис. 8.4. Диаграмма, отражающая рост суммы баллов учащихся при накопительном рейтинге

Рис. 8.4. Диаграмма, отражающая рост суммы баллов учащихся при накопительном рейтинге

Второй вариант, представляющий собой развитие идеи среднего балла с учетом разного весового коэффициента форм деятельности, назван делительным рейтингом. Например, при выставлении итоговой (тематической) отметки каждая текущая отметка за разные виды работ (по обычной четырехбалльной системе или дифференцированная за счет введения десятых и сотых долей балла) подытоживается с учетом своего рейтингового коэффициента (например: 0,5 – для отметок за ведение тетрадей, простых домашних и урочных письменных работ, 1 – для ответов возле доски и тестовых работ, 1,5 – для разноуровневых самостоятельных работ, 2–2,5 – для отметок за самостоятельную работу). Сумма произведений отметок на весовые коэффициенты, отнесенная к общему количеству отметок (точнее, на сумму весовых коэффициентов), дает рейтинговый балл, уже привязанный к обычной системе оценивания («от двух до пяти»). Делительный рейтинг можно использовать и при подведении итогов работы класса за большой промежуток времени (семестр, учебный год). В таком итоговом рейтинге вводятся весовые коэффициенты для каждого тематического оценивания (введенные на глазок или пропорциональные продолжительности тем по программе); также целесообразно ввести призовые баллы за места в верхней части рейтинга отдельных тем (например, 0,006 – за 1-е место, 0,005 – за 2-е и т.п.). Рассчитывать итоговый рейтинг лучше вместе с учениками во время последнего урока (предварительно просчитав в MS Excel).

Рейтинговые коэффициенты могут рассчитываться не только для разных заданий, но и для отдельных учеников как вклад каждого из членов группы в общий результат (коэффициент индивидуального участия17). «Чистый» балл, который получат ученики за такую работу, получается путем перемножения группового балла (оценки работы группы) на личный рейтинговый коэффициент.

Следующий логичный шаг – превращение учеников в экспертов, которые осуществляют взаимооценивание (и самообоучение в ходе взаимооценивания). Хотя такие задачи требуют больше времени, чем простое тестирование, эффективность ряда решений уже доказана на значительных группах испытуемых.

Экспертные процедуры могут быть разделены на подвиды.

По процедуре

1. Процедура с личными контактами между экспертами (традиционная «дискуссия за круглым столом» – в форме комиссий, «судебного заседания», мозгового штурма и др.). В ходе дискуссии эксперт имеет возможность неоднократно высказывать суждения, учитывая точки зрения других участников (действует перманентная и неконтролируемая обратная связь). Прямые контакты зачастую приводят к проявлениям конформизма со стороны экспертов, присоединяющих свое мнение к мнению более компетентных и авторитетных экспертов даже при наличии противоположной собственной точки зрения.

2. Многотуровые (итеративные) процедуры без личных контактов и с контролируемой обратной связью (метод Делфи, генетический консилиум). Эксперты изолированы друг от друга, а процедура реализуется за несколько разделенных во времени туров (итераций). На каждом туре эксперт получает по обратной связи обезличенную информацию о суждениях других членов группы (часто выраженную количественно). Как правило, достаточно трех-четырех этапов для получения хорошо согласованных оценок экспертов.

По образовательным целям

1. Оценивание ответов, рефератов, проектов (бланковая экспертная оценка, эксперт-семинар18, метод Делфи).

2. Генерирование новых, зачастую творческих решений (мозговой штурм, ТРИЗ – теория решения изобретательских задач); они достаточно хорошо описаны в литературе и здесь не рассматриваются подробно.

3. Сочетание генерирования решений с оценкой (генетические алгоритмы, коллективное принятие решений с отслеживанием и рейтингованием).

По форме

1. Аналоговый вариант – устная дискуссия, обмен текстами на бумаге.

2. Сетевой ИКТ-вариант (локальный или глобальный) – размещение файлов на открытом сетевом ресурсе, рассылка по электронной почте; обсуждение в чатах и форумах, голосовых и видеоконференциях. Для совместной работы над документами могут привлекаться средства и возможности Microsoft Office и специальных продуктов для компьютерной поддержки совместной работы.

Задание 8.7. Создайте в Excel бланк для экспертной оценки: реферата, проектной работы, творческой работы (на разных листах книги), выбрав шкалу для оценки и задав весовые коэффициенты для разных критериев.

Одним из модных сейчас направлений является эволюционный менеджмент – технология решения оптимизационных задач и коллективного принятия решений на основе генетических алгоритмов19. Одно из конкретных образовательных применений теории получило название генетического консилиума [Протасов и др., 2006 – см. список рекомендуемой литературы]. Понять принципы генетического консилиума лучше на конкретных примерах, один из которых будет аналоговым, а второй – на основе ИКТ (с обязательным использованием локальной сети).

1. Коллективное решение тестовых заданий при подготовке к ЕГЭ. В этом случае работа идет с закрытыми заданиями – для вопросов есть однозначные правильные ответы. Для занятия необходимо большое количество (примерно в 8–10 раз больше, чем учеников в классе) бланков для ответов на тесты и сами задания для каждого ученика. Каждому ученику присваивается индивидуальный номер, который указывается на бланке вместе с номером этапа работы. На первом этапе (итерации) каждый ученик отвечает на вопросы самостоятельно, записывает ответы на двух бланках и отдает модератору (учителю) – это, пользуясь дарвиновским языком, этап первичного накопления изменчивости. Модератор перемешивает полученные ответы и раздает каждому по два чужих бланка с ответами. Начинается рекомбинация и отбор: полученные варианты ответов сравниваются с собственными; в результате заполняются следующие два бланка с новыми вариантами правильных ответов (размножение). Модератор собирает и перераспределяет эти бланки для следующей итерации (важно отметить, что бланки первой итерации также надо собрать – они дадут первичные баллы каждого ученика, относительно которых будет оценено приращение). Пока процесс повторяется 3–4–5 раз, у учителя есть возможность оценить первые ответы; после завершения работы итоговые ответы проверяются и сравниваются с первичными.

Задание 8.8. Как вы думаете, можно ли считать полученные таким образом высокие баллы реально отражающими уровень (приращение) знаний обучаемых? Как это проверить?

Хотя эта технология в чем-то сходна с методом мозгового штурма Осборна, есть ряд существенных отличий (см. таблицу 8.2).

Таблица 8.2. Сравнительная характеристика технологий коллективного принятия решений
 

Мозговой штурм Осборна

Генетические алгоритмы (В.И. Протасов и др., 2006)

Роль модератора в ходе занятия

Активная, очень важна – направляет поиск, фактически от таланта модератора зависит успех процедуры

Пассивная, минимальная – сводится к перемешиванию вариантов и их перераспределению, может быть полностью автоматизирована.

Авторство

Все идеи лишаются авторства

Авторство прослеживается в течение всей деятельности, авторское право закрепляется.

Отбор идей

Отдельно, специальной группой критиков

Параллельно с генерированием ответов, теми же участниками.

Возможность оценивания

Низкая

Высокая, в т.ч. разные аспекты: генерирование идей – отбор и оценка – развитие идей.

Область применения

Художественное творчество (совместное написание сценариев), генерирование оригинальных решений

Решение учебных задач высокой сложности, в т.ч. открытых, с неограниченным количеством правильных ответов.

2. Открытая проблемная биологическая задача. Значительно более сложный, как организационно, так и содержательно, процесс. В качестве примера можно привести текстовую («Назовите изменения, которые могут произойти у животных определенной систематической группы при переходе к фотосинтезу») и графическую («Покажите связь предложенных факторов антропогенеза между собой») задачи. Первую логично выполнять в MS Word в специально заготовленной таблице, представляющей уровни изменений и системы органов, которые они затрагивают; вторую – в MS Visio, позволяющем устанавливать связи между факторами в виде стрелок, добавлять текстовые пояснения к каждой связи, перемещать факторы друг относительно друга по рабочей плоскости. Обе программы позволяют отслеживать и выделять вносимые на каждой итерации изменения.

Общие правила нумерации файлов (с указанием номеров экспертов/групп и номеров итераций) и отдельных положений внутри файлов (также с указанием номеров экспертов и итераций; атомарность идей объемом в одно предложение), включающими, например, при копировании решений ряда разных авторов всей цепочки идей, как и в мозговом штурме, оглашаются и вывешиваются заранее. Далее процесс идет либо путем публикации своих файлов в общей сетевой папке и выборе из нее двух файлов других групп, либо отсылкой по электронной почте модератору, который пересылает на следующей итерации каждому по два файла других экспертов. Роль модератора, таким образом, сводится к определению правил работы (в первую очередь – количества групп; оптимальным считается 8–10 участников, индивидуальных или коллективных), синхронизации работы экспертов или групп и обмену файлами между ними, а также итоговой оценке. Причем в отличие от первого примера в работе можно отслеживать как динамику появления новых идей, в т.ч. по итерациям, так и принятия/отметания решений других экспертов. Важно отметить, что возможны несколько разных стратегических линий решения (фотосинтез за счет водорослей-симбионтов в клетках, симбиотических пластид или модификации других органоидов, например митохондрий; формирование органов и сопутствующие проблемы), и учитель осуществляет итоговую проверку решений на непротиворечивость. Можно облегчить модерационную функцию, предложив в конце итерации заполнить форму:

Было своих решений: ____
Чужих добавлено: ____
Чужих отвергнуто: ____
Своих (новых) добавлено: ____
Своих (старых) отвергнуто: ____

Исходя из этой информации и принятых для каждой итераций весовых коэффициентов (здесь – поле для экспериментирования), подсчитываются баллы, полученные каждым участником, и определяются рейтинги: как генераторов идей (по количеству идей, прошедших в своем – и чужих – вариантах) и как экспертов (по количеству отметенных чужих и своих идей).

Задание 8.9. Какие недостатки данной формы занятия (кроме трудоемкости и времяемкости) вы можете назвать?
Пришлите, пожалуйста, автору свои комментарии (в т.ч. для размещения на сайте курса).

 

Задание 8.10. (Образная рефлексия.) Выполнив все предыдущие задания, оцените (в долях от единицы) и нарисуйте в предложенной системе координат параллелепипед полезности для вас данного занятия:

– по оси Х отложите новизну и полезность для вас теоретического материала лекции;
– по оси Y отложите новизну и полезность практических заданий (рост ИКТ-компетентности);
– по оси Z отложите собственное предметное приращение: свои идеи и возможные способы применения материала в урочной практике, возникшие у вас в ходе работы с лекцией (изменения в информационной культуре).

Достройте параллелепипед.

Рекомендуемая литература

Аванесов В.С. Научные проблемы тестового контроля знаний. – М., 1994. Сайт В.С. Аванесова – http://www.testolog.narod.ru.

Аванесов В.С. Тесты: теория и методика их разработки // Приложение к газете «Первое сентября». 2001. N 32.

Башмаков А.И., Башмаков И.А. Разработка компьютерных учебников и компьютерных обучающих систем. – М.: Филинъ, 2002.

Хуторской А.В. Дидактическая эвристика. Теория и технология креативного обучения. – М.: Изд-во МГУ, 2003.

Прайор К. Не рычите на собаку. О дрессировке животных и людей. – М.: «Селена+», 1995; http://lib.ru/DPEOPLE/nerychite.txt

Протасов В.И., Витиска Н.И., Михайлов Л.В., Марухина М.В. Оценивание знаний студентов при использовании метода генетического консилиума // Актуальные проблемы социальной работы, экономики, образования и культуры / Под ред. В.С. Кукушина. – Ростов-на-Дону: Новый бизнес, 2006. С.128–132. См. также http://www.keldysh.ru/pages/BioCyber/RT/Protasov.htm, http://www.sciteclibrary.ru/rus/catalog/pages/4468.html, http://www.altruism.ru:8080/sengine.cgi/5/7/8/12/42

Ответы

Задание 8.5.

1. – В: оба выражения правильные, различия обусловлены автономной, изолированной эволюцией митохондриального генома, в значительной мере независимой от эволюции генома клетки.

2. – А: двойной и тройной кроссинговер возможны (собственно, расстояние больше 100 Морганид и есть результат множественного кроссинговера).

3. – Б: Фермент осуществляет окисление пуриновых оснований (см. «аллопуринол»).

4. – А: при любом взаимодействии неаллельных генов соотношения генотипов у гибридов F2 не отличается от стандартного (отличается лишь соотношение фенотипов).


1 http://old.kspu.ru/ffec/psych/ps17.html

2 Сиротюк А.Л. Нейропсихологическое и психофизиологическое сопровождение обучения. – М.: ТЦ «Сфера», 2003.

3 Каплан Р., Нортон Д. Организация, ориентированная на стратегию. Как в новой бизнес-среде преуспевают организации, применяющие сбалансированную систему показателей (The Strategy-Focused Organization: How Balanced Scorecard Companies Thrive in the New Business Environment). – M.: Олимп-Бизнес, 2005.

4 Хуторской, А.В. Развитие одаренности школьников: Методика продуктивного обучения: Пособие для учителя. – М.: ВЛАДОС, 2000.

5 От лат. continuum – непрерывное, сплошное; в частности, в физике – сплошная материальная среда, свойства которой изменяются в пространстве непрерывно; растительный континуум – свойство растительности существовать в виде непрерывного покрова.

6 Башмаков А.И., Башмаков И.А., 2002. С. 310.

7 Рейтинговая самоиндивидуализирующаяся самостоятельная работа – http://www.kozlenkoa.narod.ru/rating1.htm

8 Кириличев Б.В., Рабинович П.Д., Рабинович А.Е. К вопросу о коррекции угадывания при ответе на задания закрытой формы // Труды международной научно-технической конференции «Теория и практика имитационного моделирования и создания тренажеров». – Пенза, 1999.

9 http://www.etestingsystems.com/

10 http://www.smartlite.it/en2/products/webquiz

11 http://www.keepsoft.ru/

12 http://hotpot.uvic.ca/

13 http://moodle.org/

14 http://www.mtas.ru/uploads/stat.zip (3 Мб);   краткое из-ложение книги – http://www.mtas.ru/second.php?ID=228

15 Васильев О.С. Доказательная педагогика // Физкультура в профилактике, лечении и реабилитации. 2006. № 5–6 (14–15); http://centre-mir.narod.ru/article/sante_scolaire.html)

16 http://www.kozlenkoa.narod.ru/docs/_my_rasch.xls, этот пример и теория подробно описаны в статье В.С. Аванесова «Item Response Theory: основные понятия и положения» – http://testolog.narod.ru/Theory59.html

17 Коефіцієнт особистої участі як вимірник результатів групової навчальної діяльності учнів // «Біологія і хімія в школі». 2001. № 6 – http://www.kozlenkoa.narod.ru/docs/kou.doc

18 Козленко А.Г. Эксперт-семинар // Биология в школе. 1996. № 5 – http://www.kozlenkoa.narod.ru/seminar.htm

19 См.: Холланд Дж.Х. Генетические алгоритмы // В мире науки. 1993. № 9–10.

Рейтинг@Mail.ru