Regs RAG
Не «ещё один RAG над PDF», а инженерный инструмент: понимает иерархию пунктов (§6.4.6 — это чанк, а не page), различает редакции (2016 vs 2020 — с diff'ом), строит граф перекрёстных ссылок между ГОСТами. Опционально подключается к Техэксперт / Кодекс / НормаЦС через их API.
Полка из 2000 PDF-документов и поиск по filename'у — это не работающий поиск. Regs RAG отличается от обычного корпоративного RAG тремя вещами: (1) special chunker уважает структуру нормативки — один пункт §6.4.6 = один чанк с полной иерархией заголовков; (2) versioning на уровне метаданных — поиск по умолчанию идёт в актуальную редакцию, но `/diff` показывает что изменилось со старой; (3) граф перекрёстных ссылок — клик на пункт показывает, какие ГОСТы на него ссылаются, и куда он ведёт сам.
Diff редакций — увидите ровно то, что изменилось
Это то, что обычный RAG не делает: команда `/diff СП-60.13330.2020 СП-60.13330.2016 §6.4` показывает side-by-side с подсвеченными изменениями + краткий LLM-комментарий «вот эти 3 изменения изменят ваш проект отопления». Незаменимо для переобучения проектировщиков и аудита уже выпущенных РД на актуальность.
Пошаговая архитектура
Корпус (свой или Техэксперт)
PDF/DOCX любых нормативных документов либо коннектор к Техэксперт / Кодекс / НормаЦС через их API на ваших credentials.
Special chunker
Парсит заголовки разделов / подразделов / пунктов. §6.4.6 — отдельный чанк, с полной иерархией («Раздел 6 → 6.4 Темп. режим → §6.4.6») в метаданных.
Versioning через метаданные
Чанки одного документа разных редакций живут параллельно. Тег `superseded_by` связывает устаревшие с актуальной.
Hybrid search → reranker
BM25 + vector embeddings (BGE-M3) → cross-encoder reranker → top-5 чанков.
/diff между редакциями
Команда `/diff СП-60.13330.2020 СП-60.13330.2016 §6.4` — side-by-side с LLM-комментарием «что главное поменялось».
Граф перекрёстных ссылок
Парсер выявляет упоминания других ГОСТов в тексте → строит directed-graph. Клик по пункту → видны связи входящие/исходящие.
Стек, который не запирает
Custom chunker, уважающий иерархию пунктов ГОСТ (раздел.подраздел.пункт)
BGE-M3 embeddings + bge-reranker для multilingual поиска
YandexGPT или GigaChat для генерации
Versioning через метаданные на чанках — поиск автоматически выбирает актуальную редакцию
Diff-engine: Python difflib + LLM-summary изменений
Интеграция с Техэксперт / Кодекс / НормаЦС через их API (опц.)
Идеально для
- Проектные институты и бюро (промгражданское, инженерное проектирование)
- Эксплуатирующие организации (BMS-команды, главные инженеры)
- Надзорные органы (внутренний compliance в строительстве)
- Учебные центры — ассистент для аттестации специалистов
Границы кейса
- Не даёт юридически обязывающих заключений (это работа экспертизы)
- Не пишет проектную документацию
- Не следит за изменениями в законодательстве (это контур legal-monitoring)
- Не работает с проприетарными регламентами без явной загрузки
Частые вопросы
Webhook от Техэксперт (если интегрировано) или ручное обновление через админку. Новая редакция индексируется, старая остаётся доступна.
Что ещё может пригодиться
Покажем на ваших данных
за 1-2 недели
Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.