Knowledge Copilot
Подключите источники — PDF, Confluence, Notion, Jira, транскрипты встреч — и получите чат-ассистента, который отвечает на естественном языке и всегда показывает откуда взял.
«Спроси у Васи» — паттерн, который ломается на 50-м сотруднике. Wiki не отвечает, поиск по filename'у не работает, новые сотрудники тратят первую неделю на «где это лежит». Knowledge Copilot — корпоративный wiki, который отвечает на естественном языке и обязательно указывает источник. Модель не отвечает «по памяти». Каждый ответ строится только из найденных чанков ваших документов.
ACL на уровне чанков — один ассистент, разные документы
Каждый чанк в Chroma имеет метаданные `acl_groups`. Юрист с group `legal` физически не видит чанки с тегом `engineering` — даже в retrieval-выдаче они не появятся, не то что в финальном ответе. AD/LDAP-группы синхронизируются при логине, правда не leak'ается между ролями.
Пошаговая архитектура
Подключение источников
PDF/DOCX/HTML, Confluence, Notion, Jira, MS Teams транскрипты, GitHub-репозитории, IMAP-архивы.
Индексация
Semantic chunker → BGE-M3 embeddings → Chroma. Multi-tenant ACL по группам — юрист видит юр-док, инженер видит инж-док.
Hybrid search
BM25 + vector search → fusion → top-30 → cross-encoder reranker → top-5 чанков для LLM.
Streaming-ответ
Текст с inline-цитатами [1], [2]. Под ответом — карточки источников с прыжком на конкретный абзац PDF.
Стек, который не запирает
Hybrid search: BM25 + vector embeddings (BGE-M3) + cross-encoder reranker
LLM: YandexGPT или GigaChat на нашем vLLM, либо managed-вариант в облаке — выбирается под нагрузку
Chroma для векторов, обновляется автоматически при изменении источников
Multi-tenant ACL: один ассистент видит разные документы для юриста и инженера — через метаданные на чанках
Connectors: Confluence, Notion, GitBook, Jira, MS Teams, IMAP, GitHub, S3
Versioning: при обновлении документа старая версия остаётся в индексе с timestamp
Идеально для
- Service-desk: первая линия отвечает из БЗ без эскалации
- HR: онбординг, политика, льготы, регламенты
- Инженерная поддержка: техдок, troubleshooting playbooks
- Sales enablement: продуктовые карточки, скрипты, объекции
- Compliance: внутренние политики, регламенты ИБ
Границы кейса
- Не отвечает «из общих знаний» — только из вашего корпуса
- Не генерирует контент (он копилот, не writer)
- Не управляет правами на документы — использует существующий ACL
- Не делает actions / transactions (это agentic-сценарии — отдельные кейсы)
- Не работает с нормативкой по точным пунктам ГОСТ/СНиП/СП — для этого Regs RAG со special chunker и diff между редакциями
Частые вопросы
Тестировано на 500K чанков (≈100K страниц текста) в одном Chroma-инстансе. Дальше — горизонтальное шардирование.
Что ещё может пригодиться
Покажем на ваших данных
за 1-2 недели
Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.