AI / ML

Искусственный интеллект для бизнеса и цифровые сотрудники

Внедряем ИИ-агентов и LLM-решения on-premise: GigaChat + RAG, function-calling, multimodal, цифровые сотрудники, MLOps. Развёртывание под ключ на вашем сервере, без выгрузки данных в облако.

40+
ML-моделей в продакшене
1M
токенов контекста (GigaChat)
x10
ускорение процессов
100%
данных у вас, не в облаке

Что мы делаем

Полный спектр услуг для решения ваших задач

Цифровые сотрудники

Цифровые сотрудники

AI-агенты на GigaChat с tool-use и долговременной памятью. Обрабатывают заявки, готовят отчёты, консультируют клиентов 24/7.

GigaChatTool useMemoryRAG
RAG и работа с корпоративной базой знаний

RAG и работа с корпоративной базой знаний

Семантический поиск по документам, чертежам, регламентам. Embeddings в pgvector / Qdrant, гибридный rerank, цитаты-источники в каждом ответе.

pgvectorQdrantLangGraphRerank
Multimodal: vision + text

Multimodal: vision + text

GigaChat / YandexGPT разбирают чертежи, схемы, фото оборудования. Распознавание дефектов, контроль качества, OCR с пониманием контекста.

MultimodalOCRYOLOTensorRT
Предиктивная аналитика

Предиктивная аналитика

Прогноз отказов оборудования и потребления по 200+ параметрам. Time-series с aномалиями, ML-модели на TimescaleDB.

TimeSeriesAnomalyForecastingProphet
MLOps & LLMOps

MLOps & LLMOps

Полный цикл: эксперименты, версионирование, A/B-тесты, мониторинг качества и стоимости промптов. Observability на LangFuse/Langsmith.

MLflowDVCLangFuseEvals
On-premise LLM на вашем сервере

On-premise LLM на вашем сервере

GigaChat / YandexGPT на 2×A100 или RTX 6000 Ada. vLLM / TGI с PagedAttention, function-calling, structured outputs. Никаких данных в облаке.

vLLMGigaChatGGUFStructured outputs

Как мы работаем

Прозрачный процесс от первого звонка до запуска

1

Discovery

Анализ бизнес-задачи, оценка данных, выбор стека (managed GigaChat vs локальная модель), метрики ROI.

1-2 недели
2

PoC / Прототип

Working PoC за 2-4 недели на реальных данных. Развёртываем на нашем Proxmox, заказчик пробует.

2-4 недели
3

Разработка и обучение

RAG-pipeline / fine-tuning / агентные сценарии. Eval-suite на корпоративных кейсах. Достижение целевых метрик.

4-8 недель
4

Деплой и интеграция

Docker Compose / K8s на on-premise GPU-сервере. REST/WS API в существующие системы, SSO.

2-3 недели
5

Observability и развитие

LangFuse + Grafana: качество ответов, токен-стоимость, latency. Дообучение, расширение базы знаний.

Постоянно

Кейсы

Реальные проекты и результаты наших клиентов

Контроль качества с CV на конвейере
Производство

Контроль качества с CV на конвейере

Задача

Визуальный контроль вручную: пропуск 15% дефектов, 3 оператора в смену.

Решение

YOLO v8 + TensorRT с камерами на 4 точках контроля + GigaChat для классификации редких дефектов с обоснованием.

Результат

Обнаружение 99.2% дефектов, замена 9 операторов, окупаемость за 4 месяца.

YOLOTensorRTVision-LLM
AI-second-pilot для оператора BMS
BMS / Автоматизация зданий

AI-second-pilot для оператора BMS

Задача

Дежурный диспетчер ТЦ получает по 200 алармов в смену, не успевает разбирать причины и эскалировать.

Решение

GigaChat с RAG по схемам систем + history алармов. Каждый аларм получает объяснение «что, где, к чему ведёт» и рекомендованное действие.

Результат

Median time-to-action упал с 12 до 2 минут, false-positive алармы группируются автоматически.

GigaChatRAGMCS
Предиктивное обслуживание турбин
Энергетика

Предиктивное обслуживание турбин

Задача

Незапланированные простои турбин обходились в 2 млн ₽/день.

Решение

ML-модель на TimescaleDB по 200+ параметрам с горизонтом 14 дней + LLM-объяснение причины каждого алерта.

Результат

Снижение незапланированных простоев на 80%, экономия 50 млн ₽/год.

TimeSeriesTimescaleDBPredictive

Технологический стек

Инструменты и технологии, которые мы используем

LLM Frontier

GigaChat MaxGigaChat ProYandexGPTGigaChat SDK

Open-source LLM

GigaChatYandexGPTHermes 3

Inference / Serving

vLLMTGI (HuggingFace)Ollamallama.cppTriton

RAG / Agents

LangGraphLlamaIndexpgvectorQdrantOutlines

CV

YOLO v8/v11TensorRTDeepStreamDetectron2OpenCV

MLOps / Observability

MLflowDVCW&BLangFuseGrafana

Инфраструктура

NVIDIA A100 / RTX 6000 AdaDocker ComposeProxmox VEKubernetes
Для on-premise решений используем vLLM с PagedAttention для serving + GGUF-квантизованные модели для edge-сценариев. Frontier-задачи — GigaChat API с prompt caching (90% экономии токенов). Всё разворачивается на нашем Proxmox VE одной командой docker compose up.

Готовы внедрить AI?

Проведём бесплатный discovery-воркшоп и покажем, где AI принесёт максимальный ROI. PoC за 2-4 недели на нашем сервере.

Бесплатный discovery-воркшоп
PoC за 2-4 недели на нашем Proxmox
Все модели и данные — у вас on-premise