Doc Redactor
Автоматическое обезличивание документов: ФИО, паспорта, контакты, адреса. NER + regex + LLM-verify + human-review. Готово к публикации, передаче третьим сторонам, обучению моделей.
Перед публикацией / отправкой контрагенту / передачей в LLM-сервис документ нужно зачистить от PII. Делать это вручную — час на договор. Регулярный поток (например, перед обучением модели на корпоративных данных) — десятки часов. Doc Redactor делает это автоматически: NER + regex + LLM-verify + красивая разметка с возможностью review.
Four masking strategies
Full-mask: `Иванов Иван` → `***`. Categorize: → `[ФИО]`. Pseudonymize: → `Истец А.` (consistent across documents). Hash: → `5f4dcc3b...` (deterministic). Выбираете под use-case.
Пошаговая архитектура
Загрузка
PDF / DOCX / TXT / XLSX. Batch до 50 файлов. Выбираете сценарий: legal-publish / hr-anonymize / compliance-export / research-corpus.
Regex pass
Документы по форматам (паспорт, ИНН по контрольной сумме, СНИЛС, телефоны).
NER pass
spaCy ru-core-news-lg для PERSON, ORG, LOC, GPE.
LLM-verify
Для каждой потенциальной PII модель подтверждает «это действительно личная информация в контексте?».
Review
Side-by-side: оригинал с подсветкой PII / анонимизированная версия. Click по PII → принять / отвергнуть.
Export
Anonymized DOCX/PDF + PII-report + reversible mapping в Vault (опционально).
Стек, который не запирает
Docling — layout-aware парсинг без потери таблиц и форматирования
spaCy ru-core-news-lg + custom fine-tuning для domain-specific NER
Regex с контрольными суммами — для документов и реквизитов
GigaChat или YandexGPT — для LLM-verify пасса
Cross-document consistency: одинаковые ФИО → одинаковые pseudo во всех документах
Vault для encrypted reversible storage (если нужна возможность де-анонимизировать)
Идеально для
- Юр-департаменты: типизация / обезличивание решений суда для KB
- HR: подготовка job-offers, удаление PII перед оценкой компетенций
- Compliance: обезличивание корпоративных данных перед research / training
- Маркетинг — кейсы клиентов «без раскрытия личностей»
- IT-команды: анонимизация production-data для test-environments
Границы кейса
- Не верифицирует, что это действительно PII (false-positive review нужен)
- Не работает с encrypted / DRM-protected документами
- Не подменяет PII на «реалистичные», только маскирует / удаляет
- Не гарантирует 100% PII coverage — это вспомогательный инструмент
Частые вопросы
Это основной язык. ru-core-news-lg + custom training на договорах дают F1 0.97 на типовых классах.
Что ещё может пригодиться
Покажем на ваших данных
за 1-2 недели
Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.