Patent Hunter
Specialized patent embeddings (PatentSBERTa, обученные на 10M патентных абстрактов) + claim-vs-claim matching. Не «похож ли весь патент», а «не покрывает ли claim X из приоритетного патента нашу формулу Y». Плюс auto-classification по CPC (Cooperative Patent Classification).
Патентный поверенный или R&D-engineer перед подачей заявки делает prior-art search — 8-15 часов работы. Espacenet, USPTO, Rospatent — каждая со своим интерфейсом, по keywords найти всё релевантное почти невозможно. Patent Hunter делает semantic-search по 30M+ патентному корпусу и выдаёт не «похожие патенты», а конкретные claims, которые потенциально перекрываются с заявкой.
Claim-vs-claim matching — точное место конфликта
Обычный prior-art search говорит «вот 50 похожих патентов, разбирайтесь». Patent Hunter показывает: «claim 3 патента US-1234567 (independent claim) с вероятностью 0.84 покрывает scope claim 2 вашей заявки в части X». Поверенный сразу видит, что нужно изменить в формулировке, чтобы обойти конфликт.
Пошаговая архитектура
Описание изобретения
Текстовое описание + (опц.) abstract + (опц.) первые claims. Format — patent application draft или техническое описание.
Embeddings PatentSBERTa
Модель, обученная на 10M патентных абстрактов и фигурах — понимает технический язык патентов в отличие от general-purpose embeddings.
CPC pre-classification
Параллельно: XGBoost-классификатор предсказывает CPC-классы (top-3) — это ограничивает search space и улучшает recall.
Vector retrieval
Pinecone/Qdrant с 30M-патентным индексом. Top-200 кандидатов по cosine similarity. Filter по CPC-classes.
Reranking
BGE-reranker на top-200 → top-30 наиболее релевантных.
Claim parsing
Каждый top-30 патент парсится: extraction отдельных claim'ов с structure (independent vs dependent, scope, limitations).
Claim-vs-claim matching
Pairwise comparison: claim из нашей заявки vs каждый claim из top-30 prior-art. Highlight: какие именно claims покрывают наш scope.
Стек, который не запирает
PatentSBERTa — embeddings, обученные на 10M патентных корпусов
Pinecone или Qdrant как vector-DB на 30M патентов (~400GB index)
BGE-reranker-v2-m3 для reranking
Custom claim-parser (regex + LLM) для structural extraction из patent text
CPC-classifier — XGBoost multi-label на CPC-labeled corpus
Источники: Espacenet OPS API, USPTO PEDS, Rospatent FIPS-API, WIPO PATENTSCOPE
Идеально для
- Патентные департаменты крупных компаний (R&D-IP-teams)
- Патентные поверенные / patent attorneys
- R&D-отделы pharma и tech-компаний — pre-application search
- VC-фонды — due diligence на patent landscape
Границы кейса
- Не подаёт заявку — это работа поверенного
- Не определяет patentability juridically — это финальное решение эксперта
- Не покрывает design patents и trademarks (только utility patents)
- Не работает с патентами на ML-методы без специализированного fine-tune
Частые вопросы
Espacenet (EPO, мировые), USPTO (США), Rospatent (Россия) — нативно. WIPO, CNIPA, JPO, KIPO — через bulk-download индексы. Корпоративные patent-DBs (Derwent, PatBase) — через лицензию клиента.
Что ещё может пригодиться
Покажем на ваших данных
за 1-2 недели
Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.