DevOps · observability AI

Log Sage

Не «вот error spike» — а «вот цепочка: latency-rise в DB-pool → connection-timeout в payment-service → 5xx-spike на checkout-page». Causal inference через PCMCI (causal graph induction) + кросс-источниковая корреляция Loki/Prometheus/Jaeger + LLM-генерация root-cause hypotheses.

Открыть прототип Связаться

6 мин

time-to-root-cause

0.78

точность root-cause @ top-3

5 источников

data fusion

−35%

MTTR (Mean Time To Recovery)

Что это даёт

Инцидент production: SRE/on-call видит alert «5xx errors up». На самом деле причина — конкретный change в DB pool config 3 часа назад, который начал давать timeout'ы только сейчас при пиковой нагрузке. Standard observability показывает symptom (errors), не cause. Log Sage делает causal analysis: трассирует от symptom через graph причинных связей к root cause.

Главное преимущество

Causal graph induction — не «correlation», а реальные причинные связи

Стандартная observability показывает «error_rate up + latency up» — но не «latency caused errors» или «errors caused both». PCMCI применяет formal causal-discovery: учитывает временные лаги, conditional independence, контролирует за известными confounders. На выходе — directed acyclic graph с edge-strengths, который SRE может trust как objective. И это reproducible — две runs на тех же данных дадут одинаковый graph.

Как работает

Пошаговая архитектура

Multi-source ingestion

Подключение к Prometheus (metrics), Loki/ELK (logs), Jaeger/Tempo (traces). Realtime streams через webhooks или pull-based от scrape-endpoints.

Log clustering (Drain3)

Drain3 алгоритм — template extraction из лог-строк. 10M raw logs → 500-2000 unique templates. Drastically снижает search space.

Anomaly detection

Isolation Forest на metrics + template-frequency anomalies в logs + trace-latency tail. Output — anomaly_score per signal per time-window.

Causal graph induction (PCMCI)

Tigramite/PCMCI алгоритм находит causal links между time-series. «Latency_DB drove Errors_payment-service after lag 2 minutes». Granger causality + non-linear tests.

Trace-graph integration

Distributed-tracing data даёт service-call-graph (структура). Causal-graph даёт edge-weights (что drove что). Merge даёт «directed graph причин».

LLM root-cause hypothesis

GigaChat / YandexGPT с context: graph + recent changes (git/deploys) + on-call notes. Output — top-3 hypotheses с reasoning paths: «X drove Y because A and B happened together».

Remediation suggestion

По known root-cause-pattern lookup'у: «такая же history раньше fixилась через rollback X / scale-up Y / restart Z». С confidence по historical-fix-success.

Под капотом

Стек, который не запирает

Drain3 для log template extraction

Isolation Forest + autoencoder для anomaly detection

Tigramite / PCMCI для causal graph induction (Granger causality + non-linear tests)

GigaChat для NL-генерации root-cause hypotheses

Coupling с git/deploy systems (GitHub, GitLab, ArgoCD) для recent-changes context

Integrations с Grafana / PagerDuty / OpsGenie для alert routing

Кому подходит

Идеально для

SaaS-компании с production-инфраструктурой и 24/7 on-call
Телекомы (множество сервисов, complex dependencies)
Банки (regulated uptime, audit-trail требования)
E-com маркетплейсы (revenue-impact каждой минуты downtime)

Чего НЕ делает

Границы кейса

Не предотвращает инциденты (это chaos engineering / SRE practices)
Не делает auto-remediation (только предлагает — final action за SRE)
Не работает с low-volume systems (<10K events/hour) — causal-discovery требует data density
Не подменяет on-call SRE — это co-pilot, не replacement

FAQ

Частые вопросы

Работает, но качество ниже. Best результаты — все три источника (logs + metrics + traces). На logs-only — 60-70% от full accuracy.

Похожие кейсы

Что ещё может пригодиться

Compliance Sentinel

10 ранжированных алертов вместо 200 ежечасных — с LLM-объяснением

АномалииГрафовый анализАгенты+1

Открыть кейс

PR Reviewer

PR → архитектурный AI-review с security-флагами, не nitpicks

LLMEmbeddingsКлассификация+1

Открыть кейс

Pharmacy Advisor

Лекарства + анамнез → knowledge graph drug-interactions + замены + дозировка по возрасту

Knowledge GraphLLMПоиск+1

Открыть кейс

Log Sage

Покажем на ваших данных
за 1-2 недели

Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.

Обсудить PoC +7 (495) 287-16-66

Log Sage

Causal graph induction — не «correlation», а реальные причинные связи

Пошаговая архитектура

Multi-source ingestion

Log clustering (Drain3)

Anomaly detection

Causal graph induction (PCMCI)

Trace-graph integration

LLM root-cause hypothesis

Remediation suggestion

Стек, который не запирает

Идеально для

Границы кейса

Частые вопросы

Что ещё может пригодиться

Compliance Sentinel

PR Reviewer

Pharmacy Advisor

Покажем на ваших данныхза 1-2 недели

Покажем на ваших данных
за 1-2 недели