AI-мониторинг инженерной инфры
Сервис, который сидит над метриками MCS, инженерных систем и инфраструктуры (k8s/PostgreSQL/Niagara), детектирует аномалии классическими ML-методами (Isolation Forest, Prophet) и проксирует находку через LLM, которая объясняет «что случилось / почему / куда смотреть» на естественном языке. Алерт превращается в готовый incident-report.

О продукте
Задача: оператор BMS и DevOps-инженер тонут в алертах. Grafana говорит «температура подачи 58°C», но не объясняет — это норма для этого AHU в этот час, артефакт перезапуска чиллера, или предвестник аварии. Мы автоматизируем шаг «человек смотрит на график → формирует гипотезу» — отдаём аномалию LLM с контекстом и получаем готовый текст для оператора.
Pipeline: ingestion (Telegraf / Vector / прямые пуши из MCP-сервера) → TimescaleDB → ML-детекторы (Isolation Forest для unsupervised, Prophet для seasonality + holidays, простые z-score правила для быстрых сигналов) → если аномалия → LLM-explainer получает: метрику + 7 дней контекста + соседние метрики + последние 10 алармов + change-log деплоев. Возвращает: краткое объяснение + классификацию (норма/деградация/инцидент) + recommended action.
LLM-провайдеры: GigaChat API для production-инцидентов (лучшее качество reasoning), локальная LLM на нашем vLLM для рутины (стоимость / privacy). Маршрутизация по severity. Все объяснения проходят через eval-suite на test-set реальных инцидентов — ловим регрессии модели.
Output: алерт в Slack/MAX/Mattermost с готовым explanation-блоком, инцидент в Jira с автозаполненными полями (description, root-cause hypothesis, suggested actions), вебхук в наш [[mcp-mcs-server]] для acknowledgement-флоу. Через Grafana datasource — встроенные AI-аннотации поверх любого графика.
Развёртывание — Docker Compose на Proxmox VE: TimescaleDB (метрики и аномалии), Redis (очередь LLM-задач), vLLM на GPU (опц. локальная модель), Grafana (готовые дашборды), Caddy. Для on-premise — тот же compose, никакой привязки к облаку.
Ключевые возможности
Multi-detector ML
Isolation Forest для unsupervised, Prophet для seasonality + holidays, z-score / EWMA для быстрых сигналов. Маршрутизация детектора по типу метрики.
LLM-explanation
Аномалия + контекст (7 дней + соседние метрики + алармы + change-log) → LLM возвращает explanation, classification, recommended action. Latency < 30 сек.
Severity routing
Production-инциденты — GigaChat API (лучшее reasoning). Рутина — локальная LLM на нашем vLLM (стоимость + privacy). Маршрутизация по severity-policy.
Source-agnostic ingestion
Telegraf / Vector / Prometheus remote-write / прямые пуши из MCP-сервера. Метрики MCS, k8s, PostgreSQL, Niagara, кастомных приложений — в одном месте.
Готовые интеграции
Slack / MAX / Mattermost для алертов. Jira / Linear для инцидентов. Webhook в наш MCP-сервер. Grafana datasource — AI-аннотации на любом графике.
Eval-suite
Regression-тесты LLM-объяснений на test-set реальных инцидентов. Ловим деградацию модели после смены провайдера или промпта.
Audit + traces
Каждое explanation сохраняется с входным контекстом, моделью, latency, оценкой оператора (👍/👎). OpenTelemetry traces всего pipeline.
Технологический стек
- Telegraf
- Vector
- Prometheus remote-write
- Webhook (MCP-сервер)
- PostgreSQL 16 + TimescaleDB
- Hyperchunks по метрикам
- S3-compatible (MinIO) для context-bundle
- Isolation Forest (scikit-learn)
- Prophet (Meta)
- z-score / EWMA
- PyOD (детекторы)
- GigaChat API (production)
- Локальная LLM на vLLM (рутина)
- OpenTelemetry traces
- Eval-suite на реальных инцидентах
- Slack / MAX / Mattermost
- Jira / Linear
- Grafana datasource (AI-аннотации)
- Webhook → MCP-сервер
- Docker Compose
- Proxmox VE
- Caddy reverse-proxy
- Self-hosted, on-premise
Что под капотом
- ML-детекторы (Isolation Forest, Prophet, z-score) маршрутизируются по типу метрики — не один молоток на всё
- LLM-explanation получает контекст (7 дней + соседи + алармы + change-log) — не просто «значение выше нормы»
- Severity routing: critical → GigaChat API (качество reasoning), routine → локальная LLM на vLLM (privacy + $0)
- Eval-suite на реальных инцидентах ловит регрессии при смене модели или промпта
- Готовые интеграции: Slack / MAX / Jira / Grafana — алерт превращается в incident-report со структурой
- Webhook в наш [[mcp-mcs-server]] — оператор может квитировать через approval-flow того же стека
- Деплой одной командой docker compose up — TimescaleDB+Redis+vLLM+Grafana+Caddy на Proxmox или у заказчика
- Снижение false-positive до 70% за счёт объясняющего фильтра — оператор видит только то, что реально требует внимания
Посмотреть вживую
Нужна похожая разработка?
Обсудим задачу, соберём команду под стек и сроки, предложим прозрачную оценку.