Adaptive Examiner
Не «случайный набор вопросов», а Item Response Theory (3PL-модель): каждый вопрос откалиброван на discrimination/difficulty/guessing. После каждого ответа Bayesian-update оценки ability θ → выбор следующего вопроса с **maximum Fisher information** для текущего θ. На 8-10 вопросах фиксируется precision как у 30-вопросного классического теста.
Классический 30-вопросный тест выматывает студента и измеряет неэффективно (большинство вопросов либо too easy, либо too hard для данного студента). Adaptive testing — это золотой стандарт psychometrics (используется в GRE, GMAT, MCAT, иммиграционные тесты). На 10 вопросах ability-оценка ничуть не хуже, чем на 30 — но в 3× меньше времени и в 3× больше удовольствия.
IRT + maximum Fisher information — золотой стандарт psychometrics
Adaptive testing — это не «случайный набор сложных вопросов». Это математически обоснованный выбор каждого следующего вопроса так, чтобы он давал maximum information для текущей оценки ability. Это методология, используемая в GRE, GMAT, USMLE — мы даём её как product, готовый к встраиванию в вашу LMS за 8 недель.
Пошаговая архитектура
Item bank calibration
Один раз: все вопросы прогоняются через pilot-cohort (минимум 200 студентов). 3PL-параметры (a — discrimination, b — difficulty, c — guessing) калибруются через MML (Marginal Maximum Likelihood) в py-irt.
Initial ability estimate
Студент стартует с prior θ=0 (mean). Первый вопрос — средней difficulty.
After each answer — Bayesian update
MCMC через PyMC обновляет posterior θ. После 3 ответов — point estimate + 95% credible interval.
Next item selection
Из остатка банка выбирается вопрос с **maximum Fisher information** для текущего θ. Это psychometric-grounded оптимум.
Stopping criterion
Тест останавливается когда SE(θ) < threshold (default 0.3) или max-items reached. Адаптивно: «sure» студенты заканчивают за 7 вопросов, «borderline» — за 12-15.
Final score + interpretation
Ability θ + percentile + sub-scores по domains (если многомерная модель). Item-by-item review с правильными ответами и explanations.
Item-generation via LLM (ongoing)
Для расширения банка — LLM генерирует кандидатов на новые вопросы по domain-spec. Auto-pre-test определяет IRT-параметры новых items perfunctorily (full calibration — позже через pilot).
Стек, который не запирает
py-irt или Mirt (через R-bridge) для 3PL IRT-калибровки
PyMC для MCMC Bayesian-update ability estimates
GigaChat / YandexGPT для item-generation (с проверкой quality через psychometric pre-test)
PostgreSQL для item-bank + test-history
Web-UI для тестируемого + admin-dashboard для psychometric review
Опц.: REST API для интеграции в существующую LMS (Moodle, ILIAS, проприетарные)
Идеально для
- EdTech-платформы с массовым тестированием (Skyeng, Skillbox, Geekbrains)
- Корп-обучение — сертификации сотрудников
- Exam-провайдеры (тестирование специалистов: ИТ-сертификации, медицина, финансы)
- Рекрутинг — cognitive testing для отбора кандидатов
Границы кейса
- Не работает с essay-questions без specialized grader (это другой кейс)
- Не калибрует item-bank без pilot-cohort (минимум 200 студентов для нового банка)
- Не обнаруживает cheating (cheating-detection — отдельный addon)
- Не подходит для high-stakes exams без regulatory-approval (но мы готовим документацию)
Частые вопросы
IRT работает, но adaptive преимущество меньше. На 50 вопросах adaptive даёт ~30% reduction in items vs 60% на банке 500+. Recommended: банк начинается with 200+ items.
Что ещё может пригодиться
Покажем на ваших данных
за 1-2 недели
Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.