Данные точно не уходят наружу?

Да. Модель, векторная база и все пайплайны работают в вашем контуре; интернет-доступ им не нужен, возможна работа в полностью изолированной сети.

Локальные модели хуже ChatGPT?

Для типовых корпоративных задач — поиск по документам, классификация, ответы по базе знаний, извлечение данных — современные открытые модели дают сопоставимый результат. Проверяем это на пилоте с вашими данными до внедрения, а не после.

Что с 152-ФЗ и персональными данными?

Данные не покидают вашу инфраструктуру — это снимает основной риск трансграничной передачи и передачи третьим лицам. Юридическую оценку под ваш случай даёт ваш юрист, мы обеспечиваем техническую сторону.

Сколько это стоит?

Зависит от задачи и железа. Аудит и оценка — бесплатно; после аудита даём фиксированное предложение на пилот.

Мы уже пробовали облачный ИИ, что переносится?

Промпты и сценарии в основном переносимы; заменяем облачный API на локальный endpoint, добавляем ваш контур данных. Пилот покажет, что сохраняется как есть, а что нужно адаптировать.

А если мы готовы работать через облако?

Тогда задача решается дешевле и быстрее: подключаем российские сервисы (GigaChat, YandexGPT) с обработкой данных в российской юрисдикции. Локальное развёртывание нужно там, где данные нельзя отдавать наружу вообще.

model = load_local("qwen2.5-32b", device="cuda")
tokenizer = AutoTokenizer.from_pretrained(path)

async def infer(prompt: str, ctx: list[Doc]) -> str:
    chunks = retriever.search(prompt, top_k=6)
    system = build_prompt(chunks, tenant=ctx.tenant)
    out = await model.generate(
        system + prompt,
        max_tokens=1024,
        temperature=0.2,
    )
    return out.text  # никуда не уходит за периметр

@router.post("/rag/query")
async def query(q: Query, user: User):
    docs = await vec.similarity(q.embed, filter=user.acl)
    return await infer(q.text, docs)

vec = PGVector(dsn=LOCAL_DSN, dim=1024)
whisper = WhisperModel("large-v3", device="cuda")

model = load_local("qwen2.5-32b", device="cuda")
tokenizer = AutoTokenizer.from_pretrained(path)

async def infer(prompt: str, ctx: list[Doc]) -> str:
    chunks = retriever.search(prompt, top_k=6)
    system = build_prompt(chunks, tenant=ctx.tenant)
    out = await model.generate(
        system + prompt,
        max_tokens=1024,
        temperature=0.2,
    )
    return out.text  # никуда не уходит за периметр

@router.post("/rag/query")
async def query(q: Query, user: User):
    docs = await vec.similarity(q.embed, filter=user.acl)
    return await infer(q.text, docs)

vec = PGVector(dsn=LOCAL_DSN, dim=1024)
whisper = WhisperModel("large-v3", device="cuda")

AI / ML

Локальный ИИ: данные не покидают ваш контур

Разворачиваем LLM, RAG и ML-модели на вашем сервере — или привозим своё железо. Без облака, без оплаты за токены, без утечек. Сами работаем на этом: наши компании живут на нашем же локальном ИИ. Нужно решение под ключ — вы на месте; нужен open-source стек в руки вашей команде — это раздел «Агентные платформы».

Сначала пилот на ваших данных. Модель, которая хорошо отвечает на демонстрационных примерах, может не справиться с вашими документами. Проверяем до внедрения, а не после.

100%

on-premise, данные в контуре

15+

Лет опыта команды

Собственные платформы в проде

№23767

Реестр российского ПО

Обсудить проект Смотреть кейсы

Редактор сценариев голосовой платформы AIRA

Когда к нам приходят

«Безопасность не пустила ChatGPT в прод»

Пилот на облачном API показал пользу, но СБ и юристы запретили отправлять данные наружу: коммерческая тайна, персональные данные, NDA с заказчиками.

«Зарубежные API — это риск»

Оплата через посредников, VPN, который отваливается, блокировки аккаунтов. Для процесса, который должен работать каждый день, это не инфраструктура.

«Токены съедают бюджет»

При росте нагрузки счёт за облачный ИИ растёт линейно и бесконечно. Локальная модель — это CAPEX вместо вечного OPEX: заплатили за железо один раз.

«Нужен ИИ по нашим документам»

Регламенты, договоры, техдокументация. Отдавать корпоративную базу знаний в чужое облако — не вариант.

«Облако могут просто выключить»

Провайдер меняет условия, блокирует регион, повышает цены. Локальную модель не отключит никто, кроме вас.

«Сервер купили — ИИ не появился»

Железо под локальные модели взяли, а дальше упёрлось: какую модель ставить, как подключить документы, кто будет поддерживать. Оборудование простаивает.

Что мы делаем

Полный спектр услуг для решения ваших задач

Локальные LLM под ключ

Разворачиваем открытые модели (Qwen, Llama, DeepSeek и другие) через Ollama или vLLM — на вашем сервере или поставляем вместе с железом. Подбираем модель под задачу и бюджет GPU: не «самую большую», а ту, что решает вашу задачу за разумные деньги.

OllamavLLMQwenLlama

RAG: ИИ отвечает по вашим документам

Векторная база и пайплайн поиска — целиком в вашем контуре. Нейросеть отвечает по регламентам, договорам и техдокументации со ссылками на источник. Права доступа: кто не видит документ — не получит и ответ по нему.

RAGpgvectorПрава доступаЦитаты

Цифровые сотрудники с function-calling

Агент не болтает, а делает: создаёт документы в 1С, ставит задачи, отвечает клиентам по данным из ваших систем. Интеграция вглубь — доработка конфигураций 1С своими руками, а не «через Zapier».

Function-calling1САгенты

Здравствуйте, можно записаться на завтра?

Да! На какое время удобно — утро или вечер?

→ free_slots(date="2026-01-16")

На завтра свободно 10:00 и 18:30.

Давайте в шесть тридцать.

→ create_booking(slot="18:30") ✓

Записал на 18:30. Ждём вас!

Голосовые агенты

Телефонная автоматизация на Asterisk: агент понимает речь, ходит в ваши данные и выполняет действия. Речевые движки подбираем под проект — от российских облачных сервисов до размещения в вашем контуре. Собственная платформа AIRA — в проде.

AsteriskASRAIRA

Смотреть платформу AIRA

Edge ML: ИИ на устройстве

ONNX-модели прямо на контроллере, панели или промышленном ПК (C++/Python/Java). Без облака и даже без сервера — для задач, где важна автономность.

ONNXEdgeC++Python

Адаптация моделей под ваш домен

Настройка промптов, дообучение на ваших примерах, оценка качества на ваших данных до и после — чтобы модель говорила на языке вашей отрасли.

Fine-tuningПромптыОценка качества

Компьютерное зрение и детекция

Модели детекции и распознавания (OpenCV, ONNX) на ваших изображениях и видеопотоке: контроль качества, распознавание маркировки, подсчёт объектов. Работают на вашем сервере или прямо на устройстве — видео не уходит в облако.

OpenCVONNXДетекцияOCR

Предиктив по данным мониторинга

Модели на телеметрии оборудования: отклонения параметров, деградация узлов, ранние признаки отказа. Опираемся на собственный продукт мониторинга и опыт инженерных объектов.

ТелеметрияАномалииPredictive

Смотреть MCS Facility

Сначала пилот на ваших данных

Модель, которая хорошо отвечает на демонстрационных примерах, может не справиться с вашими документами. Проверяем до внедрения, а не после.

Данные

Смотрим, что за документы и в каком виде: форматы, объём, права доступа, что считается верным ответом.

Без проверки: Модель отвечает уверенно и неправильно

Модель

Подбираем под задачу и бюджет GPU — не самую большую, а ту, что решает вашу задачу за разумные деньги.

Без проверки: Платим за мощность, которая не нужна

Пилот

Разворачиваем в вашем контуре, на ваших данных, с критериями успеха, о которых договорились заранее.

Без проверки: Внедрили то, что не работает на ваших документах

Как мы работаем

Прозрачный процесс от первого звонка до запуска

Аудит задачи

Что автоматизируем, какие данные, какие системы задействованы.

Бесплатно

Подбор стека

Модель, железо (ваше или наше), способ интеграции. Фиксируем критерии успеха пилота.

Засчитывается в проект

Пилот на ваших данных

Рабочий прототип в вашем контуре, замер качества на реальных кейсах.

В вашем контуре

Внедрение

Интеграция с 1С и другими системами, права доступа, обучение команды.

Интеграция

Сопровождение

Обновление моделей, мониторинг качества, развитие сценариев.

По договору

Аудит задачи

Что автоматизируем, какие данные, какие системы задействованы.

Бесплатно

Подбор стека

Модель, железо (ваше или наше), способ интеграции. Фиксируем критерии успеха пилота.

Засчитывается в проект

Пилот на ваших данных

Рабочий прототип в вашем контуре, замер качества на реальных кейсах.

В вашем контуре

Внедрение

Интеграция с 1С и другими системами, права доступа, обучение команды.

Интеграция

Сопровождение

Обновление моделей, мониторинг качества, развитие сценариев.

По договору

Что вы получаете

Система работает на вашем железе
Не доступ к нашему сервису, а развёрнутое у вас решение.
Модель, база и данные — ваши
Остаются в периметре, включая этап пилота.
Промпты и пайплайны передаются
Вместе с описанием, как это устроено.
Команда обучена
Меняете сценарии, добавляете документы, обновляете модель без нас.

Локальный ИИ имеет смысл, только если он остаётся вашим. Мы не держим ключ от вашей системы — сопровождение это выбор, а не необходимость.

Кейсы

Реальные проекты и результаты наших клиентов

Коммерческая недвижимость

AI-аудит BMS офисного здания на Цветном бульваре

Задача

Оценить состояние инженерных систем действующего объекта на Niagara 4.8 за одну сессию, без остановки оборудования.

Решение

Автоматический съём полной конфигурации и исторических трендов, анализ компонентов и точек без ручной работы в Workbench.

Результат

57 фанкойлов и 344 компонента разобраны, выгружено 32 тренда, выявлено 6 критических проблем — включая обратный поток теплоносителя.

Niagara 4.8Анализ трендовДиагностика

Собственное внедрение (dogfooding)

Предиктив: ранний признак отказа компрессора

Задача

Заметить деградацию оборудования до отказа, а не по факту аварии.

Решение

Расчётная модель состояния по весам и коэффициентам узлов; тренды параметров за 60 дней; отклонение автоматически становится дефектом с рекомендацией и SLA-метками.

Результат

Рост тока компрессора 18→23 А зафиксирован трендом, дефект заведён с рекомендацией диагностики механической части и переведён в ремонтный наряд.

ТелеметрияМодель состоянияТОиР

Смотреть MCS Facility

Собственное внедрение (dogfooding)

AIRA — голосовой агент в собственной климатической компании

Задача

Разгрузить сотрудников, которые каждый день отвечают на одни и те же вопросы, уточняют данные клиента и вручную заводят заявки.

Решение

Голосовая платформа на Asterisk с распознаванием речи и вызовом инструментов: агент понимает суть обращения, уточняет оборудование, адрес и срочность, создаёт заявку и передаёт сотруднику в структурированном виде. Платформа развёрнута в собственном контуре, речевые движки переключаются под требования проекта.

Результат

Агент работает в четырёх каналах — голос, текст, Telegram и MAX; доля автоматизированных диалогов измеряется против целевого порога.

AsteriskFunction-callingMAX

Читать историю проекта Смотреть платформу AIRA

Все кейсы

Технологический стек

Инструменты и технологии, которые мы используем

Локальные модели

QwenLlamaDeepSeekHermes 3Mistral

Инференс и раздача

vLLMOllamaTGIllama.cppTriton

RAG и агенты

LangGraphLlamaIndexpgvectorQdrantOutlines

Компьютерное зрение

YOLO v8/v11TensorRTDeepStreamDetectron2OpenCV

MLOps и наблюдаемость

MLflowDVCW&BLangFuseGrafana

Инфраструктура

GPU-серверы (RTX / A100)Docker ComposeProxmox VEKubernetes

Разворачиваем на вашем сервере или на нашем Proxmox VE одной командой docker compose up. vLLM с PagedAttention для serving, GGUF-квантизация для edge-сценариев. GPU подбираем под задачу — от RTX до A100.

Частые вопросы

Зависит от модели и нагрузки: от одного GPU-сервера до кластера. Подберём конфигурацию под задачу; можем развернуть на вашем железе или поставить своё — вместе с софтом это программно-аппаратный комплекс.

С чего начнём

Бесплатный аудит: разберём вашу задачу, данные и контур, покажем на живом стенде, как работает локальная модель. После аудита — фиксированное предложение на пилот в вашем контуре с критериями успеха, о которых договоримся заранее. Работаем по договору с ООО, с закрывающими документами.

Готовы внедрить AI?

Проведём бесплатный discovery-воркшоп и покажем, где AI принесёт максимальный ROI. PoC на нашем сервере.

Оставить заявку Позвонить нам

Бесплатный discovery-воркшоп

PoC на нашем Proxmox

Все модели и данные — у вас on-premise

Другие направления

Цифровые сотрудники MCS Facility Агентные платформы Встраиваемое ПО

Локальный ИИ: данные не покидают ваш контур

Когда к нам приходят

«Безопасность не пустила ChatGPT в прод»

«Зарубежные API — это риск»

«Токены съедают бюджет»

«Нужен ИИ по нашим документам»

«Облако могут просто выключить»

«Сервер купили — ИИ не появился»

Что мы делаем

Локальные LLM под ключ

RAG: ИИ отвечает по вашим документам

Цифровые сотрудники с function-calling

Голосовые агенты

Edge ML: ИИ на устройстве

Адаптация моделей под ваш домен

Компьютерное зрение и детекция

Предиктив по данным мониторинга

Сначала пилот на ваших данных

Данные

Модель

Пилот

Как мы работаем

Аудит задачи

Подбор стека

Пилот на ваших данных

Внедрение

Сопровождение

Аудит задачи

Подбор стека

Пилот на ваших данных

Внедрение

Сопровождение

Что вы получаете

Кейсы

AI-аудит BMS офисного здания на Цветном бульваре

Предиктив: ранний признак отказа компрессора

AIRA — голосовой агент в собственной климатической компании

Технологический стек

Локальные модели

Инференс и раздача

RAG и агенты

Компьютерное зрение

MLOps и наблюдаемость

Инфраструктура

Частые вопросы

С чего начнём

Направления ИИ

Локальный ИИ в контуре

Агентные платформы

Голос и телефония (AIRA)

Цифровые сотрудники

Готовы внедрить AI?