Все кейсы
R&D / IP · patent search

Patent Hunter

Specialized patent embeddings (PatentSBERTa, обученные на 10M патентных абстрактов) + claim-vs-claim matching. Не «похож ли весь патент», а «не покрывает ли claim X из приоритетного патента нашу формулу Y». Плюс auto-classification по CPC (Cooperative Patent Classification).

Recall@50 0.84
релевантных prior-art в top-50
8ч → 25 мин
сокращение времени prior-art поиска
30M+
патентов в индексе
0.92
точность CPC-классификации (top-3)
Что это даёт

Патентный поверенный или R&D-engineer перед подачей заявки делает prior-art search — 8-15 часов работы. Espacenet, USPTO, Rospatent — каждая со своим интерфейсом, по keywords найти всё релевантное почти невозможно. Patent Hunter делает semantic-search по 30M+ патентному корпусу и выдаёт не «похожие патенты», а конкретные claims, которые потенциально перекрываются с заявкой.

Главное преимущество

Claim-vs-claim matching — точное место конфликта

Обычный prior-art search говорит «вот 50 похожих патентов, разбирайтесь». Patent Hunter показывает: «claim 3 патента US-1234567 (independent claim) с вероятностью 0.84 покрывает scope claim 2 вашей заявки в части X». Поверенный сразу видит, что нужно изменить в формулировке, чтобы обойти конфликт.

Как работает

Пошаговая архитектура

01

Описание изобретения

Текстовое описание + (опц.) abstract + (опц.) первые claims. Format — patent application draft или техническое описание.

02

Embeddings PatentSBERTa

Модель, обученная на 10M патентных абстрактов и фигурах — понимает технический язык патентов в отличие от general-purpose embeddings.

03

CPC pre-classification

Параллельно: XGBoost-классификатор предсказывает CPC-классы (top-3) — это ограничивает search space и улучшает recall.

04

Vector retrieval

Pinecone/Qdrant с 30M-патентным индексом. Top-200 кандидатов по cosine similarity. Filter по CPC-classes.

05

Reranking

BGE-reranker на top-200 → top-30 наиболее релевантных.

06

Claim parsing

Каждый top-30 патент парсится: extraction отдельных claim'ов с structure (independent vs dependent, scope, limitations).

07

Claim-vs-claim matching

Pairwise comparison: claim из нашей заявки vs каждый claim из top-30 prior-art. Highlight: какие именно claims покрывают наш scope.

Под капотом

Стек, который не запирает

PatentSBERTa — embeddings, обученные на 10M патентных корпусов

Pinecone или Qdrant как vector-DB на 30M патентов (~400GB index)

BGE-reranker-v2-m3 для reranking

Custom claim-parser (regex + LLM) для structural extraction из patent text

CPC-classifier — XGBoost multi-label на CPC-labeled corpus

Источники: Espacenet OPS API, USPTO PEDS, Rospatent FIPS-API, WIPO PATENTSCOPE

Кому подходит

Идеально для

  • Патентные департаменты крупных компаний (R&D-IP-teams)
  • Патентные поверенные / patent attorneys
  • R&D-отделы pharma и tech-компаний — pre-application search
  • VC-фонды — due diligence на patent landscape
Чего НЕ делает

Границы кейса

  • Не подаёт заявку — это работа поверенного
  • Не определяет patentability juridically — это финальное решение эксперта
  • Не покрывает design patents и trademarks (только utility patents)
  • Не работает с патентами на ML-методы без специализированного fine-tune
FAQ

Частые вопросы

Espacenet (EPO, мировые), USPTO (США), Rospatent (Россия) — нативно. WIPO, CNIPA, JPO, KIPO — через bulk-download индексы. Корпоративные patent-DBs (Derwent, PatBase) — через лицензию клиента.

Patent Hunter

Покажем на ваших данных
за 1-2 недели

Подключаемся к ограниченной выборке, разворачиваем PoC на ваших реальных кейсах. Оценка качества, точности и UX — на вашей специфике, не на наших красивых демо.