Программное обеспечение

AI-мониторинг инженерной инфры

Сервис, который сидит над метриками MCS, инженерных систем и инфраструктуры (k8s/PostgreSQL/Niagara), детектирует аномалии классическими ML-методами (Isolation Forest, Prophet) и проксирует находку через LLM, которая объясняет «что случилось / почему / куда смотреть» на естественном языке. Алерт превращается в готовый incident-report.

Метрик в pipeline

10K+ /мин

Time-to-explain

< 30 сек

False-positive reduction

до 70%

О продукте

Задача: оператор BMS и DevOps-инженер тонут в алертах. Grafana говорит «температура подачи 58°C», но не объясняет — это норма для этого AHU в этот час, артефакт перезапуска чиллера, или предвестник аварии. Мы автоматизируем шаг «человек смотрит на график → формирует гипотезу» — отдаём аномалию LLM с контекстом и получаем готовый текст для оператора.

Pipeline: ingestion (Telegraf / Vector / прямые пуши из MCP-сервера) → TimescaleDB → ML-детекторы (Isolation Forest для unsupervised, Prophet для seasonality + holidays, простые z-score правила для быстрых сигналов) → если аномалия → LLM-explainer получает: метрику + 7 дней контекста + соседние метрики + последние 10 алармов + change-log деплоев. Возвращает: краткое объяснение + классификацию (норма/деградация/инцидент) + recommended action.

LLM-провайдеры: GigaChat API для production-инцидентов (лучшее качество reasoning), локальная LLM на нашем vLLM для рутины (стоимость / privacy). Маршрутизация по severity. Все объяснения проходят через eval-suite на test-set реальных инцидентов — ловим регрессии модели.

Output: алерт в Slack/MAX/Mattermost с готовым explanation-блоком, инцидент в Jira с автозаполненными полями (description, root-cause hypothesis, suggested actions), вебхук в наш [[mcp-mcs-server]] для acknowledgement-флоу. Через Grafana datasource — встроенные AI-аннотации поверх любого графика.

Развёртывание — Docker Compose на Proxmox VE: TimescaleDB (метрики и аномалии), Redis (очередь LLM-задач), vLLM на GPU (опц. локальная модель), Grafana (готовые дашборды), Caddy. Для on-premise — тот же compose, никакой привязки к облаку.

Ключевые возможности

Multi-detector ML

Isolation Forest для unsupervised, Prophet для seasonality + holidays, z-score / EWMA для быстрых сигналов. Маршрутизация детектора по типу метрики.

LLM-explanation

Аномалия + контекст (7 дней + соседние метрики + алармы + change-log) → LLM возвращает explanation, classification, recommended action. Latency < 30 сек.

Severity routing

Production-инциденты — GigaChat API (лучшее reasoning). Рутина — локальная LLM на нашем vLLM (стоимость + privacy). Маршрутизация по severity-policy.

Source-agnostic ingestion

Telegraf / Vector / Prometheus remote-write / прямые пуши из MCP-сервера. Метрики MCS, k8s, PostgreSQL, Niagara, кастомных приложений — в одном месте.

Готовые интеграции

Slack / MAX / Mattermost для алертов. Jira / Linear для инцидентов. Webhook в наш MCP-сервер. Grafana datasource — AI-аннотации на любом графике.

Eval-suite

Regression-тесты LLM-объяснений на test-set реальных инцидентов. Ловим деградацию модели после смены провайдера или промпта.

Audit + traces

Каждое explanation сохраняется с входным контекстом, моделью, latency, оценкой оператора (👍/👎). OpenTelemetry traces всего pipeline.

Технологический стек

Ingestion

Telegraf
Vector
Prometheus remote-write
Webhook (MCP-сервер)

Хранение

PostgreSQL 16 + TimescaleDB
Hyperchunks по метрикам
S3-compatible (MinIO) для context-bundle

ML / Anomaly

Isolation Forest (scikit-learn)
Prophet (Meta)
z-score / EWMA
PyOD (детекторы)

LLM

GigaChat API (production)
Локальная LLM на vLLM (рутина)
OpenTelemetry traces
Eval-suite на реальных инцидентах

Output / Integrations

Slack / MAX / Mattermost
Jira / Linear
Grafana datasource (AI-аннотации)
Webhook → MCP-сервер

Инфраструктура

Docker Compose
Proxmox VE
Caddy reverse-proxy
Self-hosted, on-premise

Что под капотом

ML-детекторы (Isolation Forest, Prophet, z-score) маршрутизируются по типу метрики — не один молоток на всё
LLM-explanation получает контекст (7 дней + соседи + алармы + change-log) — не просто «значение выше нормы»
Severity routing: critical → GigaChat API (качество reasoning), routine → локальная LLM на vLLM (privacy + $0)
Eval-suite на реальных инцидентах ловит регрессии при смене модели или промпта
Готовые интеграции: Slack / MAX / Jira / Grafana — алерт превращается в incident-report со структурой
Webhook в наш [[mcp-mcs-server]] — оператор может квитировать через approval-flow того же стека
Деплой одной командой docker compose up — TimescaleDB+Redis+vLLM+Grafana+Caddy на Proxmox или у заказчика
Снижение false-positive до 70% за счёт объясняющего фильтра — оператор видит только то, что реально требует внимания

Посмотреть вживую

AI / ML MCS Platform

Нужна похожая разработка?

Обсудим задачу, соберём команду под стек и сроки, предложим прозрачную оценку.

Обсудить проект Следующий кейс