Все кейсы
Privacy · compliance

Doc Redactor

Автоматическое обезличивание документов: ФИО, паспорта, контакты, адреса. NER + regex + LLM-verify + human-review. Готово к публикации, передаче третьим сторонам, обучению моделей.

F1 0.97
точность обнаружения PII в RU
2-3 сек
на страницу
−85%
времени compliance на pre-publish audit
0 leaks
пилот юр-департамента 3 месяца
Что это даёт

Перед публикацией / отправкой контрагенту / передачей в LLM-сервис документ нужно зачистить от PII. Делать это вручную — час на договор. Регулярный поток (например, перед обучением модели на корпоративных данных) — десятки часов. Doc Redactor делает это автоматически: NER + regex + LLM-verify + красивая разметка с возможностью review.

Главное преимущество

Four masking strategies

Full-mask: `Иванов Иван` → `***`. Categorize: → `[ФИО]`. Pseudonymize: → `Истец А.` (consistent across documents). Hash: → `5f4dcc3b...` (deterministic). Выбираете под use-case.

Как работает

Пошаговая архитектура

01

Загрузка

PDF / DOCX / TXT / XLSX. Batch до 50 файлов. Выбираете сценарий: legal-publish / hr-anonymize / compliance-export / research-corpus.

02

Regex pass

Документы по форматам (паспорт, ИНН по контрольной сумме, СНИЛС, телефоны).

03

NER pass

spaCy ru-core-news-lg для PERSON, ORG, LOC, GPE.

04

LLM-verify

Для каждой потенциальной PII модель подтверждает «это действительно личная информация в контексте?».

05

Review

Side-by-side: оригинал с подсветкой PII / анонимизированная версия. Click по PII → принять / отвергнуть.

06

Export

Anonymized DOCX/PDF + PII-report + reversible mapping в Vault (опционально).

Под капотом

Стек, который не запирает

Docling — layout-aware парсинг без потери таблиц и форматирования

spaCy ru-core-news-lg + custom fine-tuning для domain-specific NER

Regex с контрольными суммами — для документов и реквизитов

GigaChat или YandexGPT — для LLM-verify пасса

Cross-document consistency: одинаковые ФИО → одинаковые pseudo во всех документах

Vault для encrypted reversible storage (если нужна возможность де-анонимизировать)

Кому подходит

Идеально для

  • Юр-департаменты: типизация / обезличивание решений суда для KB
  • HR: подготовка job-offers, удаление PII перед оценкой компетенций
  • Compliance: обезличивание корпоративных данных перед research / training
  • Маркетинг — кейсы клиентов «без раскрытия личностей»
  • IT-команды: анонимизация production-data для test-environments
Чего НЕ делает

Границы кейса

  • Не верифицирует, что это действительно PII (false-positive review нужен)
  • Не работает с encrypted / DRM-protected документами
  • Не подменяет PII на «реалистичные», только маскирует / удаляет
  • Не гарантирует 100% PII coverage — это вспомогательный инструмент
FAQ

Частые вопросы

Это основной язык. ru-core-news-lg + custom training на договорах дают F1 0.97 на типовых классах.

Doc Redactor

Покажем на ваших данных
за 1-2 недели

Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.