Speech Actions
Каждый B2B-звонок становится структурированными данными в CRM: бюджет, ЛПР, упомянутые конкуренты, возражения, прогнозируемая стадия сделки. Менеджер не тратит время на post-call rituals — РОП получает дашборд «о чём реально обсуждалось в полевых звонках».
После каждого B2B-созвона менеджер вспоминает бюджет, заполняет CRM, отправляет follow-up — 20-30 минут руками. Часть деталей теряется, часть искажается. РОП не видит, что действительно происходит на полях: какие возражения чаще всего ломают сделки, кого из конкурентов клиенты упоминают, на каких этапах застревает pipeline. Speech Actions закрывает эти два цикла — менеджеру убирает рутину, РОПу даёт прозрачность.
Voice-prints поверх AD — узнаём «кто из наших говорил»
Один раз в onboarding'е менеджер записывает 30 секунд своего голоса (ECAPA-TDNN embedding). Дальше pyannote не просто разделяет на «спикер A / спикер B», а подставляет имя из AD. Action items в CRM получают правильного owner'а без ручной разметки.
Пошаговая архитектура
Webhook от телефонии
Mango / Sipuni / амоCRM-телефония — webhook на окончание звонка триггерит pipeline.
Диаризация + voice-prints
pyannote разделяет голоса. Если у спикера в БД есть voice-print (один раз записал 30 сек в onboarding'е) — auto-attribute по имени.
Транскрипция
faster-whisper large-v3 даёт RU/EN-транскрипт с таймкодами. Speech enhancement (RNNoise) поднимает читаемость mobile-связи.
Sales extraction
LLM с tool-call вытаскивает: бюджет (с указанием уверенности), ЛПР, конкуренты, возражения, стадия (intro / discovery / proposal / negotiation / closing), флаг готовности к demo.
CRM-diff + push
Сравнение «было / станет» в карточке сделки. Менеджер за 30 секунд аппрувит. Auto-push можно отдельно включить на доверенных аккаунтов.
Дашборд РОП
Аггрегация за неделю: топ-возражения, конкуренты-mention rate, win-rate per stage, аномалии по продажникам.
Стек, который не запирает
faster-whisper large-v3 на GPU 4090 — 4× realtime
pyannote.audio 3.x для диаризации + voice-embeddings (ECAPA-TDNN) для опознавания «кто из наших»
GigaChat или YandexGPT для structured-extraction через tool-use
n8n orchestration: webhook → audio → diarize → transcribe → extract → CRM-push
Интеграции: Mango Office, Sipuni, амоCRM, Bitrix24, HubSpot, Pipedrive
Дашборд РОП-а — отдельная страница с агрегацией по неделям и фильтрами по менеджеру/продукту
Идеально для
- B2B sales-команды с длинными циклами сделок (telecom, корпоративные продажи, финуслуги)
- Outbound-обзвон с большим потоком leads
- Customer-success teams с регулярными QBR-звонками
- B2C-консультативные продажи (страхование, недвижимость, премиальные подписки)
Границы кейса
- Не работает с многосторонними внутренними совещаниями — для этого Meeting Scribe
- Не делает live-coaching во время разговора (это будущий кейс live-coach)
- Не оценивает sentiment как KPI отдельного агента — анти-паттерн, портит мотивацию команды
- Не подменяет менеджера: финальный аппрув CRM-апдейта и решение о follow-up — за человеком
Частые вопросы
Speech enhancement (RNNoise) поднимает читаемость. WER растёт до 8–12% vs 5.8% стационарного, но sales-поля (бюджет / ЛПР / стадия) извлекаются стабильно.
Что ещё может пригодиться
Покажем на ваших данных
за 1-2 недели
Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.