Education / EdTech · оценка знаний

Adaptive Examiner

Не «случайный набор вопросов», а Item Response Theory (3PL-модель): каждый вопрос откалиброван на discrimination/difficulty/guessing. После каждого ответа Bayesian-update оценки ability θ → выбор следующего вопроса с **maximum Fisher information** для текущего θ. На 8-10 вопросах фиксируется precision как у 30-вопросного классического теста.

Открыть прототип Связаться

30 → 10

вопросов при той же точности

0.91

test-retest reliability

2 нед

цикл item-calibration

θ ± 0.3

precision ability scoring

Что это даёт

Классический 30-вопросный тест выматывает студента и измеряет неэффективно (большинство вопросов либо too easy, либо too hard для данного студента). Adaptive testing — это золотой стандарт psychometrics (используется в GRE, GMAT, MCAT, иммиграционные тесты). На 10 вопросах ability-оценка ничуть не хуже, чем на 30 — но в 3× меньше времени и в 3× больше удовольствия.

Главное преимущество

IRT + maximum Fisher information — золотой стандарт psychometrics

Adaptive testing — это не «случайный набор сложных вопросов». Это математически обоснованный выбор каждого следующего вопроса так, чтобы он давал maximum information для текущей оценки ability. Это методология, используемая в GRE, GMAT, USMLE — мы даём её как product, готовый к встраиванию в вашу LMS за 8 недель.

Как работает

Пошаговая архитектура

Item bank calibration

Один раз: все вопросы прогоняются через pilot-cohort (минимум 200 студентов). 3PL-параметры (a — discrimination, b — difficulty, c — guessing) калибруются через MML (Marginal Maximum Likelihood) в py-irt.

Initial ability estimate

Студент стартует с prior θ=0 (mean). Первый вопрос — средней difficulty.

After each answer — Bayesian update

MCMC через PyMC обновляет posterior θ. После 3 ответов — point estimate + 95% credible interval.

Next item selection

Из остатка банка выбирается вопрос с **maximum Fisher information** для текущего θ. Это psychometric-grounded оптимум.

Stopping criterion

Тест останавливается когда SE(θ) < threshold (default 0.3) или max-items reached. Адаптивно: «sure» студенты заканчивают за 7 вопросов, «borderline» — за 12-15.

Final score + interpretation

Ability θ + percentile + sub-scores по domains (если многомерная модель). Item-by-item review с правильными ответами и explanations.

Item-generation via LLM (ongoing)

Для расширения банка — LLM генерирует кандидатов на новые вопросы по domain-spec. Auto-pre-test определяет IRT-параметры новых items perfunctorily (full calibration — позже через pilot).

Под капотом

Стек, который не запирает

py-irt или Mirt (через R-bridge) для 3PL IRT-калибровки

PyMC для MCMC Bayesian-update ability estimates

GigaChat / YandexGPT для item-generation (с проверкой quality через psychometric pre-test)

PostgreSQL для item-bank + test-history

Web-UI для тестируемого + admin-dashboard для psychometric review

Опц.: REST API для интеграции в существующую LMS (Moodle, ILIAS, проприетарные)

Кому подходит

Идеально для

EdTech-платформы с массовым тестированием (Skyeng, Skillbox, Geekbrains)
Корп-обучение — сертификации сотрудников
Exam-провайдеры (тестирование специалистов: ИТ-сертификации, медицина, финансы)
Рекрутинг — cognitive testing для отбора кандидатов

Чего НЕ делает

Границы кейса

Не работает с essay-questions без specialized grader (это другой кейс)
Не калибрует item-bank без pilot-cohort (минимум 200 студентов для нового банка)
Не обнаруживает cheating (cheating-detection — отдельный addon)
Не подходит для high-stakes exams без regulatory-approval (но мы готовим документацию)

FAQ

Частые вопросы

IRT работает, но adaptive преимущество меньше. На 50 вопросах adaptive даёт ~30% reduction in items vs 60% на банке 500+. Recommended: банк начинается with 200+ items.

Похожие кейсы

Что ещё может пригодиться

MAX Orchestra

Чат в MAX-боте → роутер-агент → 4 специалиста (продажи, поддержка, знания, эскалация) → RAG по товарам и регламентам → собранный ответ обратно в MAX

Multi-agentАгентыLLM+4

Открыть кейс

Sales Arsenal

Бриф → готовое КП в фирменном шаблоне за 35 минут

АгентыLLMRAG+2

Открыть кейс

Inbox Warden

Сторож общего info@ / sales@ — FAQ-автоответ + sales-lead extraction с СПАРК-обогащением

КлассификацияRAGГенерация+2

Открыть кейс

Adaptive Examiner

Покажем на ваших данных
за 1-2 недели

Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.

Обсудить PoC +7 (495) 287-16-66

Adaptive Examiner

IRT + maximum Fisher information — золотой стандарт psychometrics

Пошаговая архитектура

Item bank calibration

Initial ability estimate

After each answer — Bayesian update

Next item selection

Stopping criterion

Final score + interpretation

Item-generation via LLM (ongoing)

Стек, который не запирает

Идеально для

Границы кейса

Частые вопросы

Что ещё может пригодиться

MAX Orchestra

Sales Arsenal

Inbox Warden

Покажем на ваших данныхза 1-2 недели

Покажем на ваших данных
за 1-2 недели