Все кейсы
Education / EdTech · оценка знаний

Adaptive Examiner

Не «случайный набор вопросов», а Item Response Theory (3PL-модель): каждый вопрос откалиброван на discrimination/difficulty/guessing. После каждого ответа Bayesian-update оценки ability θ → выбор следующего вопроса с **maximum Fisher information** для текущего θ. На 8-10 вопросах фиксируется precision как у 30-вопросного классического теста.

30 → 10
вопросов при той же точности
0.91
test-retest reliability
2 нед
цикл item-calibration
θ ± 0.3
precision ability scoring
Что это даёт

Классический 30-вопросный тест выматывает студента и измеряет неэффективно (большинство вопросов либо too easy, либо too hard для данного студента). Adaptive testing — это золотой стандарт psychometrics (используется в GRE, GMAT, MCAT, иммиграционные тесты). На 10 вопросах ability-оценка ничуть не хуже, чем на 30 — но в 3× меньше времени и в 3× больше удовольствия.

Главное преимущество

IRT + maximum Fisher information — золотой стандарт psychometrics

Adaptive testing — это не «случайный набор сложных вопросов». Это математически обоснованный выбор каждого следующего вопроса так, чтобы он давал maximum information для текущей оценки ability. Это методология, используемая в GRE, GMAT, USMLE — мы даём её как product, готовый к встраиванию в вашу LMS за 8 недель.

Как работает

Пошаговая архитектура

01

Item bank calibration

Один раз: все вопросы прогоняются через pilot-cohort (минимум 200 студентов). 3PL-параметры (a — discrimination, b — difficulty, c — guessing) калибруются через MML (Marginal Maximum Likelihood) в py-irt.

02

Initial ability estimate

Студент стартует с prior θ=0 (mean). Первый вопрос — средней difficulty.

03

After each answer — Bayesian update

MCMC через PyMC обновляет posterior θ. После 3 ответов — point estimate + 95% credible interval.

04

Next item selection

Из остатка банка выбирается вопрос с **maximum Fisher information** для текущего θ. Это psychometric-grounded оптимум.

05

Stopping criterion

Тест останавливается когда SE(θ) < threshold (default 0.3) или max-items reached. Адаптивно: «sure» студенты заканчивают за 7 вопросов, «borderline» — за 12-15.

06

Final score + interpretation

Ability θ + percentile + sub-scores по domains (если многомерная модель). Item-by-item review с правильными ответами и explanations.

07

Item-generation via LLM (ongoing)

Для расширения банка — LLM генерирует кандидатов на новые вопросы по domain-spec. Auto-pre-test определяет IRT-параметры новых items perfunctorily (full calibration — позже через pilot).

Под капотом

Стек, который не запирает

py-irt или Mirt (через R-bridge) для 3PL IRT-калибровки

PyMC для MCMC Bayesian-update ability estimates

GigaChat / YandexGPT для item-generation (с проверкой quality через psychometric pre-test)

PostgreSQL для item-bank + test-history

Web-UI для тестируемого + admin-dashboard для psychometric review

Опц.: REST API для интеграции в существующую LMS (Moodle, ILIAS, проприетарные)

Кому подходит

Идеально для

  • EdTech-платформы с массовым тестированием (Skyeng, Skillbox, Geekbrains)
  • Корп-обучение — сертификации сотрудников
  • Exam-провайдеры (тестирование специалистов: ИТ-сертификации, медицина, финансы)
  • Рекрутинг — cognitive testing для отбора кандидатов
Чего НЕ делает

Границы кейса

  • Не работает с essay-questions без specialized grader (это другой кейс)
  • Не калибрует item-bank без pilot-cohort (минимум 200 студентов для нового банка)
  • Не обнаруживает cheating (cheating-detection — отдельный addon)
  • Не подходит для high-stakes exams без regulatory-approval (но мы готовим документацию)
FAQ

Частые вопросы

IRT работает, но adaptive преимущество меньше. На 50 вопросах adaptive даёт ~30% reduction in items vs 60% на банке 500+. Recommended: банк начинается with 200+ items.

Adaptive Examiner

Покажем на ваших данных
за 1-2 недели

Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.