Программное обеспечение

AI-мониторинг инженерной инфры

Сервис, который сидит над метриками MCS, инженерных систем и инфраструктуры (k8s/PostgreSQL/Niagara), детектирует аномалии классическими ML-методами (Isolation Forest, Prophet) и проксирует находку через LLM, которая объясняет «что случилось / почему / куда смотреть» на естественном языке. Алерт превращается в готовый incident-report.

Метрик в pipeline
10K+ /мин
Time-to-explain
< 30 сек
False-positive reduction
до 70%
AI-мониторинг инженерной инфры

О продукте

Задача: оператор BMS и DevOps-инженер тонут в алертах. Grafana говорит «температура подачи 58°C», но не объясняет — это норма для этого AHU в этот час, артефакт перезапуска чиллера, или предвестник аварии. Мы автоматизируем шаг «человек смотрит на график → формирует гипотезу» — отдаём аномалию LLM с контекстом и получаем готовый текст для оператора.

Pipeline: ingestion (Telegraf / Vector / прямые пуши из MCP-сервера) → TimescaleDB → ML-детекторы (Isolation Forest для unsupervised, Prophet для seasonality + holidays, простые z-score правила для быстрых сигналов) → если аномалия → LLM-explainer получает: метрику + 7 дней контекста + соседние метрики + последние 10 алармов + change-log деплоев. Возвращает: краткое объяснение + классификацию (норма/деградация/инцидент) + recommended action.

LLM-провайдеры: GigaChat API для production-инцидентов (лучшее качество reasoning), локальная LLM на нашем vLLM для рутины (стоимость / privacy). Маршрутизация по severity. Все объяснения проходят через eval-suite на test-set реальных инцидентов — ловим регрессии модели.

Output: алерт в Slack/MAX/Mattermost с готовым explanation-блоком, инцидент в Jira с автозаполненными полями (description, root-cause hypothesis, suggested actions), вебхук в наш [[mcp-mcs-server]] для acknowledgement-флоу. Через Grafana datasource — встроенные AI-аннотации поверх любого графика.

Развёртывание — Docker Compose на Proxmox VE: TimescaleDB (метрики и аномалии), Redis (очередь LLM-задач), vLLM на GPU (опц. локальная модель), Grafana (готовые дашборды), Caddy. Для on-premise — тот же compose, никакой привязки к облаку.

Ключевые возможности

Multi-detector ML

Isolation Forest для unsupervised, Prophet для seasonality + holidays, z-score / EWMA для быстрых сигналов. Маршрутизация детектора по типу метрики.

LLM-explanation

Аномалия + контекст (7 дней + соседние метрики + алармы + change-log) → LLM возвращает explanation, classification, recommended action. Latency < 30 сек.

Severity routing

Production-инциденты — GigaChat API (лучшее reasoning). Рутина — локальная LLM на нашем vLLM (стоимость + privacy). Маршрутизация по severity-policy.

Source-agnostic ingestion

Telegraf / Vector / Prometheus remote-write / прямые пуши из MCP-сервера. Метрики MCS, k8s, PostgreSQL, Niagara, кастомных приложений — в одном месте.

Готовые интеграции

Slack / MAX / Mattermost для алертов. Jira / Linear для инцидентов. Webhook в наш MCP-сервер. Grafana datasource — AI-аннотации на любом графике.

Eval-suite

Regression-тесты LLM-объяснений на test-set реальных инцидентов. Ловим деградацию модели после смены провайдера или промпта.

Audit + traces

Каждое explanation сохраняется с входным контекстом, моделью, latency, оценкой оператора (👍/👎). OpenTelemetry traces всего pipeline.

Технологический стек

Ingestion
  • Telegraf
  • Vector
  • Prometheus remote-write
  • Webhook (MCP-сервер)
Хранение
  • PostgreSQL 16 + TimescaleDB
  • Hyperchunks по метрикам
  • S3-compatible (MinIO) для context-bundle
ML / Anomaly
  • Isolation Forest (scikit-learn)
  • Prophet (Meta)
  • z-score / EWMA
  • PyOD (детекторы)
LLM
  • GigaChat API (production)
  • Локальная LLM на vLLM (рутина)
  • OpenTelemetry traces
  • Eval-suite на реальных инцидентах
Output / Integrations
  • Slack / MAX / Mattermost
  • Jira / Linear
  • Grafana datasource (AI-аннотации)
  • Webhook → MCP-сервер
Инфраструктура
  • Docker Compose
  • Proxmox VE
  • Caddy reverse-proxy
  • Self-hosted, on-premise

Что под капотом

  • ML-детекторы (Isolation Forest, Prophet, z-score) маршрутизируются по типу метрики — не один молоток на всё
  • LLM-explanation получает контекст (7 дней + соседи + алармы + change-log) — не просто «значение выше нормы»
  • Severity routing: critical → GigaChat API (качество reasoning), routine → локальная LLM на vLLM (privacy + $0)
  • Eval-suite на реальных инцидентах ловит регрессии при смене модели или промпта
  • Готовые интеграции: Slack / MAX / Jira / Grafana — алерт превращается в incident-report со структурой
  • Webhook в наш [[mcp-mcs-server]] — оператор может квитировать через approval-flow того же стека
  • Деплой одной командой docker compose up — TimescaleDB+Redis+vLLM+Grafana+Caddy на Proxmox или у заказчика
  • Снижение false-positive до 70% за счёт объясняющего фильтра — оператор видит только то, что реально требует внимания

Посмотреть вживую

Нужна похожая разработка?

Обсудим задачу, соберём команду под стек и сроки, предложим прозрачную оценку.