用于生成表示专利之间相似度的低维空间的系统和方法

著录项
  • CN202080036186.X
  • 20200513
  • CN114127712A
  • 20220301
  • 雷克斯股份有限公司
  • C·哈特曼
  • G06F16/35
  • G06F16/35 G06K9/62 G06Q50/18

  • 美国俄亥俄州
  • 美国(US)
  • 20190515 US62/848,242;20200429 US16/861,834
  • 上海专利商标事务所有限公司
  • 张鑫
  • 20211115
摘要
一种计算设备生成包括具有第一特征数量的专利向量的专利特征空间。专利向量中的每个专利向量表示一个或多个相应专利的相应专利族,并且特征中的每个特征表示由专利向量表示的相应专利族的相应属性。该设备对专利特征空间执行线性降维以获得中间特征空间,该中间特征空间包括具有基于专利族的相应属性所选择的减少到第二特征数量的专利向量。计算设备对中间特征空间执行非线性降维以根据可视化偏好经由用户界面获得并呈现缩小的特征空间,该缩小的特征空间包括具有特征数量减少到基于可视化偏好所选择的第三特征数量的专利向量。
权利要求

1.一种方法,包括:

生成包括具有第一特征数量的专利向量的专利特征空间,所述专利向量中的每一个专利向量表示一个或多个相应专利的相应专利族,所述特征中的每一个特征表示由所述专利向量表示的所述相应专利族的相应属性;

对所述专利特征空间执行线性降维以获得中间特征空间,所述中间特征空间包括具有减少到基于所述专利族的所述相应属性所选择的第二特征数量的特征数量的所述专利向量;

对所述中间特征空间执行非线性降维以获得缩小的特征空间,所述缩小的特征空间包括具有减少到基于可视化偏好所选择的第三特征数量的特征数量的所述专利向量;以及

根据所述可视化偏好,经由用户界面呈现所述缩小的特征空间的可视化。

2.如权利要求1所述的方法,其特征在于,所述专利族中的每一个专利族的所述属性包括用于给定专利分类的相应的加权分类值,所述加权分类值包括以下各项的和:

1,如果所述专利族中专利中的至少一个专利被分配到所述给定专利分类,

0,如果所述专利族中没有专利被分配到所述给定专利分类,以及

以下各项的比例:

所述专利族中引用另一专利族中的专利的专利数量,所述另一专利族中具有至少一个专利被分配到所述给定专利分类,与

除具有被所述专利族中的所述专利中的至少一个专利引用的专利的所述相应专利族外的所有专利族的数量。

3.如权利要求1所述的方法,进一步包括选择所述第二特征数量,所述选择包括:

根据所述专利分类的相应频率选择专利分类的频率列表,所述频率列表中的所述专利分类中的每一个专利分类的所述相应频率包括具有至少一个专利被分配到所述专利分类的所述专利族的数量;

获得所述频率列表中具有不小于所述频率列表中的所述专利分类之中具有最高相应频率的专利分类的所述相应频率的阈值百分比的相应频率的专利分类的计数;以及

基于获得的专利分类的计数选择所述第二特征数量。

4.如权利要求3所述的方法,其特征在于:

所述阈值百分比为15%,并且

基于所述获得的专利分类的计数选择所述第二特征数量包括选择比所述获得的专利分类的计数多一作为所述第二特征数量。

5.如权利要求3所述的方法,其特征在于,基于所述获得的专利分类的计数选择所述第二特征数量包括基于所述获得的专利分类的计数选择10到120(包含在内)之间的特征数量作为所述第二特征数量。

6.如权利要求3所述的方法,其特征在于,专利分类的所述频率列表包括国际专利分类(IPC)、合作专利分类(CPC)、美国专利分类(USPC)和德国专利分类(DPK)中的至少一种。

7.如权利要求1所述的方法,其特征在于,所述线性降维包括奇异值分解(SVD)降维或主成分分析(PCA)降维。

8.如权利要求1所述的方法,其特征在于,所述非线性降维包括统一流形逼近和投影(UMAP)降维、t分布随机邻域嵌入(t-SNE)降维或多维缩放(MDS)降维。

9.如权利要求1所述的方法,其特征在于,所述第三特征数量包括1到3(包含在内)之间的特征数量。

10.一种计算设备,包括:

处理器;以及

非瞬态计算机可读存储介质,所述非瞬态计算机可读存储介质包括指令,当由所述处理器执行时,使得所述计算设备:

生成包括具有第一特征数量的专利向量的专利特征空间,所述专利向量中的每一个专利向量表示一个或多个相应专利的相应专利族,所述特征中的每一个特征表示由所述专利向量表示的所述相应专利族的相应属性;

对所述专利特征空间执行线性降维以获得中间特征空间,所述中间特征空间包括具有减少到基于所述专利族的所述相应属性所选择的第二特征数量的特征数量的所述专利向量;

对所述中间特征空间执行非线性降维以获得缩小的特征空间,所述缩小的特征空间包括具有减少到基于可视化偏好所选择的第三特征数量的特征数量的所述专利向量;以及

根据所述可视化偏好,经由用户界面呈现所述缩小的特征空间的可视化。

11.如权利要求10所述的计算设备,其特征在于,所述专利族中的每一个专利族的所述属性包括用于给定专利分类的相应的加权分类值,所述加权分类值包括以下各项的和:

1,如果所述专利族中专利中的至少一个专利被分配到所述给定专利分类,

0,如果所述专利族中没有专利被分配到所述给定专利分类,以及

以下各项的比例:

所述专利族中引用另一专利族中的专利的专利数量所述另一专利族中具有至少一个专利被分配到所述给定专利分类,与

除具有被所述专利族中的所述专利中的至少一个专利引用的专利的所述相应专利族外的所有专利族的数量。

12.如权利要求10所述的计算设备,其特征在于,所述指令进一步使得所述计算设备:

根据所述专利分类的相应频率选择专利分类的频率列表,所述频率列表中的所述专利分类中的每一个专利分类的所述相应频率包括具有至少一个专利被分配到所述专利分类的所述专利族的数量;

获得所述频率列表中具有不小于所述频率列表中的所述专利分类之中具有最高相应频率的专利分类的所述相应频率的阈值百分比的相应频率的专利分类的计数;以及

基于获得的专利分类的计数选择作为第二数量的特征数量。

13.如权利要求12所述的计算设备,其特征在于:

所述阈值百分比为15%,并且

基于所述获得的专利分类的计数选择所述第二特征数量的所述指令包括使得所述计算设备选择比所述获得的专利分类的计数多一作为所述第二特征数量的所述指令。

14.如权利要求12所述的计算设备,其特征在于,所述指令基于所述获得的专利分类的计数选择所述第二特征数量,所述指令时的所述计算设备基于所述获得的专利分类的计数选择10到120(包含在内)之间的特征数量作为所述第二特征数量。

15.一种方法,包括:

生成包括具有第一特征数量的专利向量的专利特征空间,所述专利向量中的每一个专利向量表示一个或多个相应专利的相应专利族,所述特征中的每一个特征表示由所述专利向量表示的所述相应专利族的相应属性;

对所述专利特征空间执行线性降维以获得中间特征空间,所述中间特征空间包括具有减少到基于所述专利族的所述相应属性所选择的第二特征数量的特征数量的所述专利向量;

根据所述专利分类的相应频率生成专利分类的频率列表,所述频率列表中的所述专利分类中的每一个专利分类的所述相应频率包括具有至少一个专利被分配到所述专利分类的所述专利族的数量;

获得所述频率列表中的具有不小于所述频率列表中的所述专利分类之中具有最高相应频率的专利分类的所述相应频率的阈值百分比的相应频率的专利分类的计数;

对所述中间特征空间执行非线性降维以获得缩小的特征空间,所述缩小的特征空间包括具有减少到基于获得的专利分类计数所选择的第三特征数量的特征数量的所述专利向量;以及

根据可视化偏好,经由用户界面呈现所述缩小的特征空间的可视化。

16.如权利要求15所述的方法,其特征在于:

所述阈值百分比为15%,并且

选择等于所述获得的专利分类的计数多一的特征数量作为所述第三特征数量。

17.如权利要求15所述的方法,其特征在于,选择10到120(包含在内)之间的特征数量作为第三特征数量。

18.如权利要求15所述的方法,其特征在于,专利分类的所述频率列表包括国际专利分类(IPC)、合作专利分类(CPC)、美国专利分类(USPC)和德国专利分类(DPK)中的至少一种。

19.如权利要求15所述的方法,其特征在于,所述专利族中的每一个专利族的所述属性包括用于给定专利分类的相应的加权分类值,所述加权分类值包括以下各项的和:

1,如果所述专利族中专利中的至少一个专利被分配到所述给定专利分类,

0,如果所述专利族中没有专利被分配到所述给定专利分类,以及

以下各项的比例:

所述专利族中引用另一专利族中的专利的专利数量,所述另一专利族中具有至少一个专利被分配到所述给定专利分类,与

除具有被所述专利族中的所述专利中的至少一个专利引用的专利的所述相应专利族外的所有专利族的数量。

20.如权利要求15所述的方法,其特征在于,所述非线性降维包括统一流形逼近和投影(UMAP)降维、t分布随机邻域嵌入(t-SNE)降维或多维缩放(MDS)降维。

说明书
技术领域

本公开大体上涉及系统、计算设备和由系统和设备执行的方法,并且更具体地,涉及用于呈现包括一个或多个专利的表示的低维专利特征空间的可视化的系统、设备和方法。

在开发或推出新产品之前,公司通常期望了解产品商业化的机会,这反过来可能会告知公司是否继续进一步开发产品的决定。商业化的一个风险是竞争对手可能声称存在专利,以阻碍产品的销售或制造。因此,公司寻求对可能造成此类风险的专利的认识。

鉴于目前有效的数百万项专利以及每项专利的众多潜在属性,识别相关专利可能是一项艰巨的任务。一种选项可以是识别与给定产品密切关系的一个或多个专利,这些专利然后可用于寻具有与已识别专利的属性密切相关的属性的其他相关专利。然而,现有系统无法以高效且易于理解的方式识别和传达专利(和专利属性)之间的关系。

本公开的实施例采用一种方法的形式,该方法包括生成包括具有第一特征数量的专利向量的专利特征空间。专利向量中的每个专利向量表示一个或多个相应专利的相应专利族,并且特征中的每个特征表示由专利向量表示的相应专利族的相应属性。该方法进一步包括对专利特征空间执行线性降维以获得中间特征空间,该中间特征空间包括具有减少到基于专利族的相应属性所选择的第二特征数量的特征数量的专利向量。该方法还包括对中间特征空间执行非线性降维以获得缩小的特征空间,该缩小的特征空间包括具有减少到基于可视化偏好所选择的第三特征数量的特征数量的专利向量。该方法进一步包括根据可视化偏好,经由用户界面呈现缩小的特征空间的可视化。

另一实施例采用具有处理器和包括指令的非瞬态计算机可读存储介质的计算设备的形式。当由处理器执行时,指令使得计算设备生成包括具有第一特征数量的专利向量的专利特征空间。专利向量中的每个专利向量表示一个或多个相应专利的相应专利族,并且特征中的每个特征表示由专利向量表示的相应专利族的相应属性。指令进一步使得计算设备对专利特征空间执行线性降维以获得中间特征空间,该中间特征空间包括具有减少到基于专利族的相应属性所选择的第二特征数量的特征数量的专利向量。指令还使得计算设备对中间特征空间执行非线性降维以获得缩小的特征空间,该缩小的特征空间包括具有减少到基于可视化偏好所选择的第三特征数量的特征数量的专利向量。指令进一步使得计算设备根据可视化偏好,经由用户界面呈现缩小的特征空间的可视化。

进一步的实施例采用一种方法的形式,该方法包括生成包括具有第一特征数量的专利向量的专利特征空间。专利向量中的每个专利向量表示一个或多个相应专利的相应专利族,并且特征中的每个特征表示由专利向量表示的相应专利族的相应属性。该方法进一步包括根据专利分类的相应频率生成专利分类的频率列表。列表中专利分类中的每个专利分类的相应频率采用(或包括)具有至少一个专利被分配到专利分类的专利族的数量的形式。附加地,该方法包括获得频率列表中的具有不小于频率列表中的专利分类之中具有最高相应频率的专利分类的相应频率的阈值百分比的相应频率的专利分类的计数。该方法进一步包括基于获得的专利分类计数,对专利特征空间进行降维以获得低维特征空间,该低维特征空间包括具有减少到第二特征数量的特征数量的专利向量。该方法附加地包括经由用户界面呈现低位特征空间的可视化。

鉴于下面的详细描述,结合附图,将更充分地理解本公开的实施例提供的这些和另外的特征。

在附图中阐述的实施例在性质上是说明性和示例性的,并不意图限制本公开。当结合以下附图阅读时,可以理解对说明性实施例的以下详细描述,其中,用相似的附图标记指示相似的结构,并且其中:

图1描绘了根据本文示出和描述的一个或多个实施例的系统的框图;

图2描绘了根据本文示出和描述的一个或多个实施例的计算设备的框图;

图3a描绘了根据本文示出和描述的一个或多个实施例的专利的框图;

图3b描绘了根据本文示出和描述的一个或多个实施例的专利文件的框图;

图4描绘了根据本文示出和描述的一个或多个实施例的专利分类和引用专利;

图5描绘了根据本文示出和描述的一个或多个实施例的专利族;

图6描绘了根据本文示出和描述的一个或多个实施例的方法的流程图;

图7描绘了根据本文示出和描述的一个或多个实施例的专利特征空间;

图8描绘了根据本文示出和描述的一个或多个实施例的用于生成专利特征空间的数据流;

图9描绘了根据本文示出和描述的一个或多个实施例的中间特征空间;

图10a、图10b和图10c共同描绘了根据本文示出和描述的一个或多个实施例的专利特征空间的奇异值分解;

图11描绘了根据本文示出和描述的一个或多个实施例的方法的流程图;

图12描绘了根据本文示出和描述的一个或多个实施例的相似度矩阵;

图13描绘了根据本文示出和描述的一个或多个实施例的用于生成和呈现缩小的特征空间的数据流;以及

图14a和14b描绘了根据本文示出和描述的一个或多个实施例的缩小的特征空间的相应可视化。

本文公开了用于呈现包括一个或多个专利的表示的低维专利特征空间的可视化的系统、计算设备和方法。在一些实施例中,计算设备生成包括具有第一数量的特征的专利向量的专利特征空间。专利向量中的每个专利向量表示一个或多个相应专利的相应专利族,并且特征中的每个特征表示由专利向量表示的相应专利族的相应属性。计算设备对专利特征空间执行线性降维以获得中间特征空间,该中间特征空间包括具有特征数量减少到基于专利族的相应属性所选择的第二数量的特征的专利向量。计算设备对中间特征空间执行非线性降维以获得缩小的特征空间,该缩小的特征空间包括具有特征数量减少到基于可视化偏好所选择的第三数量的特征的专利向量。计算设备根据可视化偏好,经由用户界面呈现缩小的特征空间的可视化。通过对专利特征空间执行线性降维到基于专利族的相应属性所选择的给定数量,然后执行基于可视化偏好所选择的非线性降维,即使在将高维专利特征空间变换为低维空间进行可视化时,也可以保留专利族之间的相似度(或不相似度),如由表示专利族的相应专利向量之间的距离所反映的。现在将参考附图详细描述用于呈现包括一个或多个专利的表示的低维专利特征空间的可视化的系统、计算设备和方法的各种实施例。

图1描绘了根据本文示出和描述的一个或多个实施例的系统的框图。如图所示,系统100包括计算设备102、数据库104和用户终端106,其中的每一者都经由网络108和相应的通信链路110通信地连接。应当理解,尽管计算设备、数据库和用户终端被示出为单独的实体,但其中的任何一者或多者可以组合成单个实体或分离成附加实体。例如,除其他可能性外,计算设备102可与数据库104组合,并且计算设备和数据库两者都可与用户终端组合。

计算设备102可采用能够执行本文描述的计算设备功能的任何设备的形式。因此,计算设备可采用个人计算机、工作站、终端、服务器计算机、主机、虚拟机或这些或其他计算设备的任何组合的形式。计算设备可从数据库104接收表示一个或多个专利文件、专利文件的特征、向量、模型或其他数据的数据,并且例如可将这些数据发送到数据库。计算设备可向用户终端106的用户界面发送表示三维(或其他低维)空间的模型的数据以供用户界面显示,并且例如可从用户界面接收表示用户输入的数据。计算设备也可采用其他形式。

例如,数据库104可采用数据存储器、计算设备、关系数据库管理系统(RDBMS)、表、平面文件、数据存储器的文件系统中的数据、堆文件、B+树、哈希表、哈希桶或它们的任何组合的形式。数据库可被配置为存储例如表示专利文件的数据,并将数据发送到一个或多个其他实体,诸如计算设备102和/或用户终端106。附加地,数据库本身可采用计算设备的形式。数据库还可以接收并存储来自一个或多个其他实体的数据。本领域技术人员将理解,数据库可采用其他形式而不脱离本公开的范围。

用户终端106可以是能够执行本文描述的用户终端功能的任何部件,并且可采用(或包括)工作站、终端、个人计算机、平板设备、智能电话或它们的任何组合的形式(仅作为几个示例)。用户终端可包括被配置为接收来自用户的输入、向用户输出信息或两者都有的用户界面。用户输入可经由键盘、鼠标或与通用计算机通信的另一部件来实现。作为另一可能性,可经由智能电话或平板设备的触摸屏显示器来实现输入。可经由计算机监视器或扬声器(诸如计算机扬声器)提供输出,也可通过通信方式连接到通用计算机。一些部件可提供输入和输出两者,诸如上述触摸屏显示器。在实施例中,用户终端被配置为向计算设备102提供经由用户界面接收的输入(例如,使用通信接口),并且呈现经由用户界面从计算设备接收的输出。本领域技术人员将理解,用户终端106也可采用多种其他形式。

网络108可包括一个或多个计算系统和网络基础设施,该一个或多个计算系统和网络基础设施被配置为促进计算设备102、数据库104和用户终端106之间的通信。网络可以采用(或包括)一个或多个广域网(WAN)、局域网((LAN)、互联网、蜂窝网络、有线网络、无线网络或这些或其他网络的任何组合的形式。例如,网络108根据一个或多个通信协议(诸如以太网、WiFi、IP、TCP或LTE)操作。尽管网络被示出为单个网络,但是应当理解,网络可包括通信链接的多种不同网络。网络也可采用其他形式。

通信链路110可通信地将各个实体与网络108链接,以促进通信地连接到网络的实体之间的通信。通信链路110中的任何一个可以是可能在一个或多个通信链路层(诸如一个或多个物理层、网络层、传输层和/或应用层)上操作的硬件和/或软件的组合。附加地,例如,通信链路可包括一个或多个中间路径或系统。

图2描绘了根据本文示出和描述的一个或多个实施例的计算设备的框图。如图所示,计算设备102包括处理器202、数据存储器204、通信接口206和用户界面207,其中的每一者都通过通信路径208通信地连接。应当理解,计算设备102可包括不同和/或附加部件,并且给定部件的功能中的一些或全部功能可由一个或多个不同部件来执行。

处理器202可以是能够执行存储在数据存储器204中的计算机可读指令205的任何设备。处理器202可采用通用处理器(例如,微处理器)、专用处理器(例如,专用集成电路)、电子控制器、集成电路、微芯片、计算机或其中一者或多者的任何组合的形式,并且作为示例,可全部或部分地与数据存储器204或计算设备102的任何其他部件集成。

数据存储204可采用非瞬态计算机可读存储介质的形式,该非瞬态计算机可读存储介质能够存储指令205,使得指令可由处理器202访问和执行。因此,作为示例,数据存储器204可采用RAM、ROM、闪存、硬盘驱动器或其任何组合的形式。指令205可包括以任何世代(例如,1GL、2GL、3GL、4GL或5GL)的任何编程语言编写的逻辑或(多个)算法,诸如例如可由处理器202直接执行的机器语言、或汇编语言、面向对象编程(OOP)、脚本语言、微代码等,其可被编译或汇编成机器可读指令并存储在存储器204上。替代地,指令205可以硬件描述语言(HDL)(诸如经由现场可编程门阵列(FPGA)配置或专用集成电路(ASIC)或其等效物来实现的逻辑)编写。因此,本文描述的功能可以任何常规计算机编程语言,作为预编程硬件元件,或作为硬件和软件部件的组合来实现。虽然图2中描绘的实施例包括单个数据存储器,但其他实施例可以包括多于一个的数据存储器。

通信接口206可以是能够执行本文描述的通信接口功能的任何部件。因此,通信接口可包括以太网、Wi-Fi、蓝牙和/或通用串行总线(USB)接口,或者以以太网、Wi-Fi、蓝牙和/或通用串行总线(USB)接口的形式,以及许多其他可能性。

用户界面207可以是能够执行本文描述的用户界面功能的任何部件。例如,用户界面可被配置为接收来自用户的输入和/或向用户输出信息。可经由计算机监视器、扬声器(诸如计算机扬声器)或计算设备102的另一部件(或通信地链接到计算设备102)来提供输出。用户输入可经由键盘、鼠标或通信地链接到驾驶员计分设备的另一部件来实现。作为另一可能性,可经由以智能电话或平板设备形式的驾驶员计分设备的触摸屏显示器来实现输入。一些部件可提供输入和输出两者,诸如上述触摸屏显示器。本领域技术人员将理解,用户界面207也可采用多种其他形式。

通信路径208可由能够传输信号的任何介质形成,例如,导线、导电迹线、光波导等。通信路径208还可以是指其中电磁辐射及其相对应的电磁波横穿过的范围。此外,通信路径208可由能够传输信号的介质的组合形成。在实施例中,通信路径208包括导电迹线、导线、连接器和总线的组合,它们合作以允许向计算设备102的各个部件传输电数据信号以及从计算设备102的各个部件发射电数据信号。因此,通信路径208可包括总线。附加地,应当注意术语“信号”是指能够跨过介质行进的波形(例如,电波形、光波形、磁波形、机械波形或电磁波形),诸如DC、AC、正弦波、三角波、方波、振动等。

通信路径208可由能够传输信号的任何介质形成,例如,导线、导电迹线、光波导等。通信路径208还可以是指其中电磁辐射及其相对应的电磁波横穿过的范围。此外,通信路径208可由能够传输信号的介质的组合形成。在实施例中,通信路径208包括导电迹线、导线、连接器和总线的组合,它们合作以允许向计算设备102的各个部件传输电数据信号以及从计算设备102的各个部件传输电数据信号。因此,通信路径208可包括总线。附加地,应当注意术语“信号”是指能够跨过介质行进的波形(例如,电波形、光波形、磁波形、机械波形或电磁波形),诸如DC、AC、正弦波、三角波、方波、振动等。

图3a描绘了根据本文示出和描述的一个或多个实施例的专利的框图。专利可采用知识产权的形式,在一段有限的时间内给予专利所有人对专利所涵盖的发明的专有权,交换条件是公开允许人们(例如,在专利到期后)制造和使用该发明的发明的说明书。如本领域技术人员应该理解的,专利也可采用其他形式。

如图3a所示,专利300具有申请号302、标题304、一个或多个发明人306、申请人308、一个或多个受让人310、申请日期312和专利号314以及相对应的专利文件320。附加地,专利300可被分配到一个或多个专利分类340,并可包括一个或多个引用专利,和/或一个或多个优先权专利360。发明人306可以是专利300的发明的一个或多个发明人,并且可包括更少、不同或附加的发明人,以及其他可能性。附加地,申请日期312可以是,例如,专利300的专利申请被提交的日期,并且具体地说,是完成申请专利申请的所有要求的日期(例如,向专利局提供发明的说明书并支付专利局要求的所有费用)。

专利文件320是专利300的相对应的专利文件。专利文件可对专利申请或已授权的专利进行记录,也可采用任何其他专利文件的形式。作为示例,专利文件可包括用于允许相关技术领域的技术人员制造和使用该发明的上述说明书。作为另一示例,专利文件可包括一个或多个专利权利要求,这些权利要求限定了专利申请寻求的保护范围或由授权专利授予的保护范围。

图3b描绘了根据本文示出和描述的一个或多个实施例的专利文件的框图。如图所示,专利文件320包括(例如,记录)上述申请号302、标题304、发明人306、申请人308、受让人310、申请日期312、专利号314、分类340、引用专利350和优先权专利360。进一步地,专利文件320包括(例如,记录)公开号322、一项或多项权利要求324、具体实施方式326、背景技术328、摘要330和发明内容332。本领域技术人员将理解,专利文件320可包括不同和/或附加部分。

专利文件320可采用专利局或其他组织公开的文件的形式。例如,《专利合作条约》(PCT)要求公布根据PCT程序提交的所有专利申请。因此,世界知识产权组织(WIPO)在根据PCT程序提交专利申请后(通常)十八个月内公开该专利申请。相似地,在特定国家的专利局提交的专利申请可由相应的专利局以与公开PCT申请的方式相似的方式进行公开。如果该专利申请后来作为专利授权公告,则对专利授权公告的专利局可公开该专利。专利文件302可以是这些中的任何一种或多种的形式,以及其他可能性。

专利文件320的公开可采用电子公开的形式,例如,通过提供对已提交的专利申请文件或描述已授权的专利的电子文档的电子访问(例如,经由网站)。作为另一可能性,公开可采用印刷出版物的形式(在万维网广泛采用之前是典型的),诸如出版的期刊或公报,该期刊或公报包括由专利局授权的专利(或提交的专利申请)的说明书。例如,专利文件302可采用电子出版物、印刷出版物、任何其他出版物或它们的组合的形式。

图4描绘了根据本文示出和描述的一个或多个实施例的专利300的专利分类340和引用专利350。如图所示,专利分类340包括分类401和分类402,并且引用专利350包括专利412、专利413和专利414。

专利分类340中的分类401、分类402和/或任何其他分类可由专利局或其他机构基于专利300的主题(例如,基于说明书、权利要求或两者)进行分配。在一些情况下,可在提交申请时分配专利分类。作为示例,分类401可采用国际专利分类(IPC)类的形式的B60T 8/176,该分类适用于涉及“专门用于防止车辆减速期间车轮过度打滑的制动调节,例如ABS”的专利。专利300可基于专利的主题被分配到分类401(即,IPC类B60T 8/176)。相似地,分类402可采用IPC类B60T 8/171的形式,该分类适用于涉及“在车辆制动力的调节中使用的检测参数”和“在调节中使用的测量值”的专利,并且专利300可基于专利的主题被分配到分类402(即,IPC类B60T 8/171)。专利分类340中的任何一个或多个分类除了别的可能性之外可采用合作专利分类(CPC)、美国专利分类(USPC)、德国专利分类(DPK)、上述国际专利分类或它们的任何组合的形式。应当理解,作为示例,专利分类340可包括更少、不同或附加的分类。替代地,专利300可不被分配到任何专利分类。

引用专利350中的专利412、专利413、专利414以及任何其他专利均采用被专利300引用的相应专利的形式。在对给定专利申请进行审查期间,专利局可主张在所审查专利申请的提交日期之前提交的一项或多项其他专利申请涉及(或以其他方式公开)给定专利申请的相同或相似主题,并且专利局可将先前提交的申请的相对应的公开识别为描述相同或相似的主题。如果给定专利申请随后作为专利授权,则这些先前提交的申请(或其相对应的公开)被称为被已授权专利“引用”,并且可反映对给定专利申请授权尽管具有先前提交的专利申请的主题相同或相似的主题。如果所审查的申请由专利局公开(例如,在专利局定期出版的公报上),则该申请的文本可识别这些先前提交的申请,并且这些先前提交的申请被称为被所审查的申请“引用”。相反,所授权的专利被称为“引用”先前提交的专利申请或相对应的公开。

与专利300相似,专利412可被分配到一个或多个专利分类420,并且专利413可被分配到一个或多个专利分类440。在示出的实施例中,(专利412所分配到的)专利分类420包括分类401和分类402,并且(专利413所分配到的)专利分类440包括分类402和分类403。因此,与专利300一样,被专利300引用的专利412和413被分配到分类402。附加地,与专利300一样,专利412被分配到分类401,尽管专利413未被分配到分类401。

如图4进一步所示,专利300可被一项或多项其他专利引用。在示出的实施例中,专利415包括(引用)引用专利470,并且专利416包括(引用)引用专利490。引用专利470(被专利415引用)包括专利300和专利472,引用专利490(被专利416引用)包括专利300和专利492。因此,专利415和专利416两者都引用专利300,或者换句话说,专利300被专利415和专利416两者引用。

与专利300、412和413相似,专利415可被分配到一个或多个专利分类460,并且专利416可被分配到一个或多个专利分类480。在示出的实施例中,(专利415所分配到的)专利分类460包括分类401和分类404,并且(专利416所分配到的)专利分类480包括分类404和分类405。因此,与专利300一样,(引用专利300的)专利415被分配到分类401。然而,(专利416所分配到的)专利分类480不包括(专利300所分配到的)专利分类340中的分类。

再次参考图3a,(由专利300要求优先权的)优先权专利360可包括对一个或多个先前提交的专利申请要求优先权的一个或多个权利要求。例如,专利300可以是与专利300相关的一个或多个其他专利的专利族的一部分。例如,专利族可以包括一个或多个专利,每个专利公开相同或相似的主题,共享共同的发明人,或作为示例包括对专利族中的另一专利的优先权要求。在一些实例中,专利300可以是专利族中的唯一专利。作为另一示例,专利族还可包括除了在不同国家提交的一个或多个专利文件外的在给定国家提交的专利文件,其中每个专利文件公开相同的主题并且共享共同的发明人。作为进一步示例,专利族还可包括除了在给定国家提交的专利文件之外随后在相同国家提交的一个或多个专利文件,其中每个专利文件公开相同的主题并且共享共同的发明人。如果族包括多个专利,则该专利族中的每个专利都与该专利族中的所有其他专利相关。因此,(由专利300要求专利权的)优先权专利360可包括对一个或多个先前提交的专利申请要求优先权的一个或多个权利要求,并且可对不同专利申请分别采用多个优先权权利要求的形式。

图5描绘了根据本文示出和描述的一个或多个实施例的专利族。如图所示,专利族500包括专利300以及专利510、专利520、专利530和专利540。专利族500中的每个专利可具有各自的优先权日期。例如,在图5的实施例中,专利510的优先权日期比专利300和专利520各自的优先权日期早,而专利300和专利520各自的优先权日期又比专利530和专利540各自的优先权日期早。如图所示,(专利300要求优先权的)优先权专利360包括专利510,(专利520要求优先权的)优先权专利522也包括专利510。(专利530要求优先权的)优先权专利532包括专利300,(专利540要求优先权的)优先权专利542也包括专利300。在图5示出的示例中,专利510不要求任何其他专利的优先权,并且没有其他专利要求专利300、510、520、530或540的优先权。附加地,在示出的实施例中,专利300、520、530和540不要求除图5中所示的专利之外的任何其他专利的优先权。

在示出的实施例中,专利族500中的所有专利直接或间接地要求专利510的优先权(专利510本身除外)。具体地,由于(专利300要求优先权的)优先权专利360和(专利520要求优先权的)优先权专利522两者均包括专利510,专利510相对于专利300和520两者均采用“父”专利的形式,并且专利300和520两者相对于专利510均采用“子”专利的形式。相似地,由于(专利530要求优先权的)优先权专利532和(专利540要求优先权的)优先权专利542两者均包括专利300,专利300相对于专利530和540两者均采用“父”专利的形式,并且专利530和540两者相对于专利300均采用“子”专利的形式。附加地,由于优先权专利532和优先权专利542两者均包括专利300,专利300的优先权专利360进而包括专利510,所以专利510相对于专利530和540两者均采用“祖先”专利的形式,并且专利530和540两者相对于专利510均采用“后代”专利的形式。图5中示出的每个箭头从给定的父专利指向要求该给定的父专利的优先权的子专利。

在一些实施例中,专利族500中的专利300、专利510、专利520、专利530和专利540均针对同一发明。此外,在一些实施例中,专利族500中最早的优先权专利(例如,优先权专利360中具有最早相应的申请日期312的一个或多个专利)对于专利族中的每个专利来说是共有的。然而,应当理解,专利族500可包括不同和/或附加专利,并且在一些实例中,给定专利族中的少于所有专利(以及这些专利的相应属性)将由专利特征空间中用于该专利族的给定专利向量表示(如在下文中以附加细节详细描述的)。

本领域技术人员将理解,这只是对专利和专利申请过程的简要和部分描述,专利的形式以及申请和获得专利的过程可能取决于许多因素,包括审查专利申请的专利局所在的国家或司法管辖区。

图6描绘了根据本文描述和示出的一个或多个实施例的方法的流程图。尽管该方法被描述为由系统100执行,但本领域技术人员将理解,该方法可由系统的任何实体(诸如计算设备102)或由实体的任何组合(诸如计算设备和数据库104的组合)执行。附加地,如上所述,系统的实体中的任何一个或多个实体可组合成单个实体,并且该方法可由组合实体执行。

如图所示,方法600从步骤602开始,其中系统100生成专利向量的专利特征空间620。每个专利向量具有第一数量的特征,并且每个专利向量表示一个或多个专利的相应专利族。每个特征表示由专利向量表示的相应专利族的相应属性。

图7描绘了根据本文示出和描述的一个或多个实施例的由系统100生成的专利特征空间。如图所示,专利特征空间620包括专利向量710,并且具体地,专利向量711、712、713、714、715和716分别表示一个或多个专利的专利族f1、f2、f3、f4、f5和f6。专利特征空间620的专利向量中的每一者都具有特征720,并且具体地,特征721、722、723、724和725分别表示专利族f1到f6的属性p1、p2、p3、p4和p5。在图7所示的示例中,特征720包括五个特征——换句话说,专利特征空间620的专利向量中的每一者都具有五个特征。应当理解,专利特征空间620可包括附加或更少的专利向量(即,专利特征空间可表示附加或更少的专利族),并且专利向量可具有附加或更少的特征(即,可以针对专利向量中的每一者表示专利族的附加或更少的属性)。

在实施例中,专利特征空间620由包括多个行和多个列的特征矩阵表示(例如,采用包括多个行和多个列的特征矩阵的形式)。行中的每一者表示专利族f1至f6中相应的专利族,列中的每一者表示专利族的属性p1至p5中的相应属性。然而,本领域技术人员将理解,专利特征空间620也可以其他形式表示。

专利特征空间620可由稀疏矩阵表示(例如,采用稀疏矩阵的形式)。例如,专利特征空间620的专利向量可包括相应特征,该相应特征指示由专利向量表示的专利族的一个或多个专利文件中是否存在一百个各自不同的字。给定专利向量的大多数特征的相应值可包括极少量的1或其他非零值(与专利向量特征的零值相比)。然而,专利特征空间620不需要采用稀疏矩阵的形式,而是可以例如由密集矩阵表示(例如,采用密集矩阵的形式)。

表1列出了专利特征空间600中由专利向量610表示的各个专利族的属性p1、p2、p3、p4和p5的示例描述。专利族的给定属性可基于专利族中一个或多个单独专利的相应属性,或者基于专利族整体的属性(或这些属性的组合)。给定属性可表示为二进制数、整数和/或实数,以及本领域技术人员已知的其他可能性。

属性 描述 p1 是否有专利被分配到IPC类B60T 13/66? p2 引用专利是否包括美国专利第5,281,006号? p3 是否有引用专利被分配到IPC B60T类13/70? p4 引用被分配到IPC B60T类13/70的专利的专利的比例 p5 是否有任何专利引用IPC类B60T 13/66中的专利?

表1

在实施例中,给定属性表示给定专利族中的任何专利是否分配到给定的专利分类。例如,如表1所示,属性p1表示由相应专利向量表示的专利族中的任何专利是否被分配到IPC类B60T 13/66。如图7所示,专利向量711和713的特征721的值为1,指示专利族f1和专利族f3(分别由专利向量711和713表示)具有特性p1(由特征721表示)或p1为真,并且具体地指示专利族f1和专利族f3中的至少一个专利被分配到IPC类B60T 13/66(这是p1所表示的属性)。相反,专利向量712、714、715和716的特征721的值为-,指示专利族f2、f4、f5和f6(分别由专利向量712、714、715和716表示)不具有特性p1(由特征721表示)或p1为假,并且具体地指示这些族中的任何专利均未被分配到IPC类B60T 13/68。

在另一实施例中,专利族的属性表示专利族中任何专利的引用专利(如果有)是否包括特定专利。表示属性的特征的值为0可指示在由给定向量表示的专利族中,没有一个专利具有包括特定专利的引用专利(即,至少一个引用专利)。相似地,特征的值为1表示专利中的至少一者具有包括特定专利的引用专利。例如,如表1所示,属性p2指示给定专利族中任何专利的引用专利是否包括美国专利第5,281,006号。在图7的示例中,特征722表示由给定专利向量表示的专利族的属性p2。专利向量712的特征722的值为1,指示专利族f2中专利中的至少一者具有包括美国专利第5,281,006号的引用专利。专利向量711、713、714、715和716的特征722的值为0,指示专利族f2中没有一个专利具有包括美国专利第5,281,006号的引用专利。

在另一实施例中,专利族的属性表示专利族中任何专利的引用专利(如果有)是否包括具有包括特定的专利分类的专利分类的专利,即,专利族中任何专利的引用专利的专利分类是否包括给定的专利分类。表示属性的特征的值为0可指示在由给定向量表示的专利族中,没有一个专利具有进而具有包括特定专利分类的专利分类的引用专利。相似地,特征值为1表示专利中的至少一者具有包括特定专利分类的专利分类的引用专利。例如,如表1所示,属性p3指示给定专利族中任何专利的引用专利是否包括具有包括IPC类B60T 13/70的专利分类的专利。在图7的示例中,特征723表示由给定专利向量表示的专利族的属性p3。专利向量711和712的特征723的值为1,指示专利族f1和f2中专利的至少一者具有包括IPC类B60T 13/70的相应专利分类的引用专利。专利向量713、714、715和716的特征723的值为0,指示专利族f3、f4、f5和f6中没有一个专利具有具有包括IPC类B60T 13/70的相应专利分类的引用专利。

在附加实施例中,专利族的属性表示专利族中具有具有包括特定专利分类的专利分类的引用专利的专利的比例。表示该属性的特征的值可指示在由给定向量表示的专利族中,具有具有包括特定专利分类的专利分类的引用专利的专利的比例。例如,如表1所示,属性p4指示(给定专利族中)具有具有包括IPC类B60T 13/70的专利分类的引用专利的专利的比例。在图7的示例中,特征724表示由给定专利向量表示的专利族的属性p4。专利向量711、714和715的特征724的值为1,指示专利族f1、f3和f4中专利的所有专利都具有具有包括IPC类B60T 13/70的专利分类的引用专利。专利向量712、713和716的特征724的值为0,指示专利族f2、f3和f6中没有一个专利具有具有包括IPC类B60T 13/70的相应专利分类的引用专利。给定专利向量的特征724的值为0.75可指示由专利向量表示的专利族中专利的四分之三具有具有包括IPC类B60T 13/70的专利分类的引用专利。

在实施例中,专利族的属性表示专利族中专利的各个专利文件的说明书(或其他方面)是否包括特定单词。表示该属性的特征的值可指示由给定专利向量表示的专利族中专利的各个专利文件的说明书是否包括特定单词。例如,特征值为0可指示说明书不包括特定单词,而值为1可指示说明书确实包括特定单词。作为示例,特征可指示说明书是否包括单词“加速”:值为1可指示说明书包括单词“加速”,而值为0可指示说明书不包括单词“加速”。在实施例中,专利族的属性表示说明书或专利族中专利的各个专利文件的其他方面中特定单词的实例的数量(即,特定单词在说明书中出现的次数)。表示该属性的特征的值可指示由给定专利向量表示的专利族中专利的各个专利文件的说明书中特定单词的实例的数量。作为示例,该特征可指示说明书中单词“加速”的实例的数量。值为9可指示说明书包括9个单词“加速”的实例。

在实施例中,专利族的属性表示给定专利分类的加权分类值,其中加权分类值包括第一项和第二项的总和。如果专利族中的至少一个专利被分配到给定专利分类,则第一项为1;或者如果专利族中没有一个专利被分配到给定专利分类,则第一项为0。第二项是以下二者的比例:(i)专利族中引用具有至少一个专利被分配到给定专利分类的另一专利族中的专利的数量与(ii)除具有被该专利族中的专利的至少一者引用的专利的相应专利族外的所有专利族(即,专利特征空间620中所有专利向量的相应专利族)的数量。

图8描绘了根据本文示出和描述的一个或多个实施例的用于生成专利特征空间的数据流。如图所示,计算设备102从用户终端106接收一个或多个专利标识符802。例如,计算设备102可从用户终端106接收包括专利标识符802的指示的消息。可通过通信链路110经由网络108发送和/或接收消息(诸如包括专利标识符的指示的消息或任何其他消息),并且可采用一个或多个分组、数据报、数据结构、其他数据或这些或其他消息的任何组合的形式。专利标识符802可采用(或包括)一个或多个专利号的形式,这些专利号唯一地标识相应的专利。附加地或替代地,专利标识符802可采用(或包括)一个或多个专利分类、受让人、申请日期或可用于识别一个或多个专利的其他属性的形式。本领域技术人员将理解,许多其他示例也是可能的。

计算设备102将接收的专利标识符802提供给数据库104,并接收由数据库基于该专利标识符提供给计算设备的专利数据集804。专利数据集804可采用表的形式,该表指示由数据库104基于提供给数据库的专利标识符802所选择的一个或多个专利的相应属性。作为另一可能性,专利数据集804可采用先前由计算设备102、数据库104或另一实体生成的专利特征空间(例如,表示专利特征空间的数据)的形式。例如,数据库104可存储一个或多个专利特征空间(例如,分别用于不同或重叠的专利族集合),并且专利数据集804可采用由数据库104存储并由数据库基于提供给该数据库的专利标识符802选择的专利特征空间的形式。专利数据集804可仅包括由专利标识符802标识的专利,或者可包括附加专利,诸如其他可能性中与所标识的专利相同的专利族中的专利或者与所标识的专利相似或相关(即使没有由专利标识符802明确标识)的专利。例如,专利数据集804可经由来自数据库104的一个或多个消息通过网络108接收。

计算设备102可基于从数据库104接收的专利数据集804生成专利特征空间620。如果专利数据集804不是专利特征空间,而是包括可基于其生成专利特征空间的数据(诸如指示一个或多个专利的相应属性的数据),则计算设备102可基于该数据生成专利特征空间620。附加地,计算设备102可将生成的专利特征空间提供给数据库104以供数据库存储(例如,通过网络108发送包括表示该专利特征空间的数据的一个或多个消息)。响应于基于从计算设备102接收的相似或相同专利标识符的专利数据集的后续请求,数据库104可向计算设备提供先前生成的专利特征空间。

应当理解,图8的实施例只是用于生成专利特征空间的数据流的一个示例,并且在不脱离本公开的范围的情况下可有许多其他变型。

再次参考图6,在步骤604处,系统100对专利特征空间620执行线性降维以获得中间特征空间630。

图9描绘了根据本文示出和描述的一个或多个实施例的中间特征空间630。如图所示,中间特征空间630包括具有特征数量减少到第二数量的特征920(即特征921和922)的专利向量910(即,专利向量711至716)。在图9的实施例中,第二数量是2个,使得专利向量910具有两个特征——即特征921和922——但是应当理解,第二数量可以是不同的数量。

特征921和922可表示专利族的相应变换属性p1′和p2′。给定变换属性可表示已经折叠到变换属性中的属性p1到p5(先前参考图7描述的)中的一者或多者,使得给定变换属性的值基于属性p1到p5中的任何一者或多者。给定属性p1到p5可折叠成变换属性中的一者或多者(或无)。

在实施例中,线性降维包括奇异值分解(SVD)降维,并且系统100可基于专利特征空间620的SVD生成中间特征空间630。作为示例,专利特征空间620的SVD可采用M=UΣVT的形式,其中M表示专利特征空间620,U表示专利特征空间的左奇异向量,VT表示专利特征空间的右奇异向量的共轭转置,并且Σ表示专利特征空间的奇异值。

图10a、图10b和图10c描绘了根据本文示出和描述的一个或多个实施例的专利特征空间的SVD的各个分量。如图10a所示,矩阵1002表示专利特征空间620的左奇异向量U,矩阵1004表示专利特征空间的奇异值Σ,矩阵1006表示专利特征空间的右奇异向量的共轭转置VT。

在实施例中,系统100获得专利特征空间620的SVD,该SVD包括专利特征空间620的左奇异向量U(由矩阵1002表示)和专利特征空间的奇异值Σ(由矩阵1004表示)。接下来,系统获得矩阵Σ′,该矩阵Σ′包括与上述第二数量相等的矩阵1002的最左边列的数量。在该实施例中,第二数量(矩阵Σ′的列数)小于由矩阵1004表示的Σ的列数。例如,矩阵Σ′只包括矩阵1004最左边的两列。然后,系统100获得等于U和Σ′的点积U·Σ′的降维矩阵M′作为中间特征空间630。在图9示出的实施例中,中间特征空间630采用降维矩阵M′的形式。

本领域技术人员将理解,在步骤602处执行的线性降维也可以采用其他形式。例如,作为示例,线性降维可采用(或包括)主成分分析(PCA)降维、上述SVD降维、另一线性降维或它们的组合的形式。

在一些实施例中,中间特征空间630存储在计算设备102的存储器中,但是与专利特征空间620本身存储在计算设备的存储器中相比,其消耗更少的存储器。由于中间特征空间630的较低的存储器占用,并且由于中间特征空间630的任何附加处理可以涉及较少特征数量(与专利特征空间620作为整体的附加处理相比),系统100对中间特征空间630执行比可能对专利特征空间620执行的更复杂的变换。作为一种可能性,中间特征空间630可完全存储在存储器中。作为另一可能性,部分或全部中间特征空间630可存储在数据存储器204中,并且中间特征空间630的一部分可存储在存储器中,使得稍后可从数据存储获得中间特征空间的附加部分并将该附加部分存储在存储器中。中间特征空间630的部分或全部可存储在数据库104中。其他示例也是可能的。

在一个或多个实施例中,第二数量的特征(专利特征空间620的专利向量711-716被减少到第二数量的特征以获得中间特征空间630的)少于(在执行线性降维之前)专利特征空间中专利向量的特征数量。第二数量的特征可以是,例如,介于5和120(包含在内)之间,介于10和120(包含在内)之间,或者小于或介于其他特征数量之间,以及其他示例。

作为一种可能性,可基于经由用户终端106接收的输入来选择第二数量的特征。例如,用户可通过用户界面指示第二数量的特征应等于两个。根据线性降维包括如上所述的奇异值分解(SVD)降维的实施例,基于经由用户界面接收的指定第二数量的特征应当等于两个的输入,系统100可获得包括矩阵1004的最左边两列的矩阵Σ′,并且可获得中间特征空间630以作为矩阵1004和矩阵Σ′的点积,使得中间特征空间的专利向量具有两个特征。作为另一可能性,基于专利族的相应属性选择第二数量的特征,如下文的附加细节所述。

图11描绘了选择第二数量的特征的方法的流程图。如图所示,方法1100从步骤1102开始,其中系统100生成专利分类的频率列表。

表2是系统100在步骤1102处生成的频率列表的示例。在表2的实施例中,根据专利分类的相应频率生成频率列表。列表中专利分类中的每一者的相应频率包括具有至少一个专利被分配到专利分类的专利族的数量。专利分类列表可包括国际专利分类(IPC)、合作专利分类(CPC)、美国专利分类(USPC)和德国专利分类(DPK)中的至少一种,以及其他可能性。在表2的实施例中,专利分类是IPC类。

IPC类 族数量 A61F2/30 394 A61F13/20 282 A61N1/18 190 A61B17/58 148 A61B18/04 160 A61B18/14 164 A61B17/86 83 A61B17/17 67 A61F2/28 69 A61M35/00 59 A61B17/70 55 A61B17/80 45 A61F2/44 38 A61B17/72 25 A61B17/60 5 A61F13/22 4

表2

再次参考图11,在步骤1104处,系统100获得频率列表(在步骤1102生成)中具有相应频率不小于频率列表中的专利分类之中具有最高相应频率的专利分类的相应频率的阈值百分比的专利分类的计数。

在表2中,频率列表中专利分类之中具有最高频率的专利分类为IPC类A61F2/30,其频率为394,反映394个专利族具有至少有一个专利被分配到IPC类A61F2/30。在实施例中,阈值百分比为15%,在这种情况下,系统100将获得列表中其相应频率不小于394的15%,即频率近似为59的专利分类的计数。在该示例中,获得的计数将为10,因为频率列表中的10个专利分类具有不小于59的相应频率。

在步骤1106处,系统100基于在步骤1104处获得的计数来选择第二数量的特征。在实施例中,基于获得的专利分类计数的选择第二数量的特征包括选择比获得的专利分类的计数多一作为第二数量的特征。在此类实施例中,关于表2的示例,将选择11作为第二数量,因为11比获得的专利分类的计数多一。

在一些实施例中,基于获得的专利分类的计数选择第二数量的特征包括基于获得的专利分类的计数选择10和120(包含在内)之间的数量的特征作为第二数量的特征。例如,如果获得的计数(如上所述)是7,则可选择10而不是8(比获得的计数多一)作为第二数量,使得第二数量至少是10。作为另一示例,如果获得的计数是430,则可选择120而不是431(比获得的计数多一)作为第二数量,使得第二数量不超过120。本领域技术人员将理解,也可以使用其他数量(除10和120之外)。

在一个实施例中,执行线性降维使得获得中间特征空间作为归一化空间,使得每个专利向量的长度为1的长度。例如,可通过将中间特征空间中的每个专利向量除以其各自的欧几里德长度来获得中间特征空间作为归一化空间。在一些实施例中,系统100生成包括多个相似度向量的相似度矩阵。每个相似度向量可表示中间特征空间630的专利向量对之间的相似度。

图12描绘了根据本文描述和的示出一个或多个实施例的相似度矩阵;如图所示,相似度矩阵1200包括中间特征空间630的专利向量对之间的成对距离。行表示中间特征空间的各个专利向量,并且列同样表示中间特征空间的专利向量。矩阵的给定值Vi,j表示由行i表示的专利向量和由列j表示的另一专利向量之间的距离。因此,值V1,1表示中间特征空间的第一专利向量和中间特征空间的相同第一专利向量之间的距离,如相似度矩阵1200所示,由于专利向量是相同的专利向量,因此该值为0。值V1,3表示第一专利向量和第三专利向量之间的距离,在该示例中为1.19。给定值可表示专利向量之间的欧几里德距离,尽管也可以使用其他示例。

应当理解,相似度矩阵1200不需要包括中间特征空间630的所有专利向量对之间的成对距离。此外,即使成对距离可表示为矩阵(如在相似度矩阵1200中),成对距离或相似度也可以其他形式表示。例如,成对距离可使用KD树或Ball树的数据点来表示,并且计算设备102可查询和存储树中数据点的最近邻的给定数量。

在步骤606处,系统100对中间特征空间630执行非线性降维以获得缩小的特征空间640,该缩小的特征空间640包括具有特征数量减少到基于可视化偏好所选择的第三数量的特征的专利向量711-716。例如,缩小的特征空间640可采用低维空间的形式,该低维空间包括定位在低维空间中的专利向量711-716(具有减少到第三数量的特征的数量的特征)。例如,低维空间可以是三维空间、二维空间或一维空间。例如,低维空间可采用适合经由用户界面进行可视化的空间的形式。

非线性降维可采用(或包括)统一流形逼近(Uniform Manifold Approximation)和投影(UMAP)降维的形式。在示例中,计算设备102基于局部流形逼近和相应的局部模糊单纯形集表示(local fuzzy-simplicial-set representation)生成中间特征空间630的第一拓扑表示。附加地,计算设备102生成中间特征空间630的第二低维拓扑表示,例如,通过在第二拓扑表示内随机或任意定位表示中间特征空间630的相应专利向量910的向量。计算设备102通过经由将第一和第二拓扑表示之间的交叉熵最小化来优化第二低维拓扑表示,来生成缩小的特征空间640。该过程可表示为:

其中X={x1,…,xn}分别是中间特征空间630和中间特征空间的专利向量910,n是在逼近局部矩阵时考虑的近邻数,d是目标维数,min-dist是嵌入空间中的接近点之间的期望的分离,并且n-epochs是优化低维表示时要使用的训练历元(training epoch)的数量,以及从UMAP函数返回的Y是缩小的特征空间640。附加地,LocalFuzzySimplicialSet(X,X,n)生成局部模糊单纯形集,SpectralEmbedding(top-rep,d)执行谱嵌入,并且OptimizeEmbedding(top-rep,Y,min-dist,n-epochs)是通过将模糊集合交叉熵最小化的嵌入的优化。在一些此类实施例中,近邻数n是20,并且在一些实施例中,期望的分离min-dist是0.5。

在一些实施例中,计算设备102生成低维空间S,低维空间S包括在低维空间中随机或任意定位的专利向量。例如,低维空间可以是三维空间、二维空间或一维空间。例如,低维空间可采用适合经由用户界面进行可视化的空间的形式。专利向量表示各个专利族(例如,由专利特征空间620的各个专利向量或中间特征空间630的各个专利向量表示)。

在一个此类实施例中,计算设备102生成距离矩阵,该距离矩阵包括表示定位在低维空间S中的各个专利向量对之间的距离的距离向量。生成距离矩阵可采用与生成相似度矩阵1200相似的形式。例如,距离矩阵的行可表示定位在低维空间S中的各个专利向量,并且列可同样表示定位在低维空间S中的各个专利向量。距离矩阵的给定值Vi,j可因此表示由行i表示的专利向量和由列j表示的另一专利向量之间的距离。

在此类实施例中,计算设备102可在低维空间S中重新定位专利向量中的一者或多者,并且可基于专利向量的重新定位来更新距离矩阵。计算设备102可执行在低维空间S中重新定位专利向量中的一者或多者并基于专利向量的重新定位更新距离矩阵的一次或多次迭代。此外,计算设备102可执行迭代,使得相似度矩阵和距离矩阵之间的相似度在多个迭代中增加。在一些实施例中,相似度矩阵和距离矩阵之间的相似度在执行相应的迭代之后不增加,而是在执行多次迭代之后增加——例如,通过在执行多次迭代之后收敛到增加的相似度。在其他实施例中,相似度在执行每次相应的迭代之后增加。相似度矩阵和距离矩阵之间的相似度可基于例如相似度矩阵和距离矩阵之间的Kullback–Leibler(KL)距离,尽管其他示例也是可能的。

在上述实施例中,在计算设备102已经执行了重新定位专利向量和更新距离矩阵的一次或多次迭代之后,缩小的特征空间640(通过对中间特征空间630执行非线性降维所获得的)可采用低维空间S的形式。

如上所述,相似度矩阵本身不需要采用矩阵的形式。相反,作为示例,相似度矩阵以及距离矩阵可以使用KD树、Ball树或其他表示的数据点来表示。计算设备102可查询和存储树中数据点的给定数量的近邻,诸如上文讨论的所考虑的数量的近邻,以及许多其他可能性。

非线性降维也可采用其他形式,诸如t分布随机邻域嵌入(t-SNE)降维,其可以通过二维或三维点(或其他低维空间)对中间空间630中的专利向量910中的每一者进行建模,使得相似的专利向量由附近的点建模,而不同的专利向量由远处的点建模。例如,执行t-SNE降维可包括计算设备102在中间空间630中生成专利向量910对上的概率分布,使得相似的专利向量具有高选择概率,而不相似的专利向量具有低选择概率。计算设备102可在低维空间中的点上生成另一概率分布,并且可将相对于低维空间中的点的位置的两个分布之间的KL散度最小化。附加地或替代地,非线性降维可采用多维缩放(MDS)降维、另一非线性降维或这些的组合的形式(可能除了上述UMAP降维或t-SNE降维之外)。在不脱离本公开的范围的情况下,也可有其他示例。

图13描绘了根据本文示出和描述的一个或多个实施例的用于生成和呈现缩小的特征空间的数据流。如图所示,计算设备102从用户终端106接收可视化偏好1310,其可包括从用户终端106接收包括可视化偏好的指示的消息。计算设备102对中间特征空间630执行非线性降维以获得缩小的特征空间640,该缩小的特征空间640具有特征数量减少到基于可视化偏好1310所选择的第三特征数量的专利向量。然后,计算设备102可经由用户界面(诸如用户终端106的用户界面)呈现缩小的特征空间的可视化,如下面将进一步详细描述的。

可视化偏好1310采用(或包括或以其他方式指示)要可视化的维度数量的形式,其进而可由计算设备102在步骤606处选择为第三特征数量。例如,可在步骤606处执行非线性降维以获得包括专利向量的缩小的特征空间,缩小的特征空间具有减少到如可视化偏好1310中指示的要可视化的维度数量的特征数量。在一些实施例中,第三特征数量是1到3之间(1和3包含在内)的特征数量。例如,要可视化的维度数量可以是可经由用户界面表示的维度数量,诸如一维、二维或三维。

在步骤606处获得的缩小的特征空间640可保存到数据存储(诸如数据库104的数据存储)中,可能用于进一步分析。例如,如图13所示,计算设备102可将缩小的专利特征空间650提供给数据库104以供数据库存储(例如,通过网络108发送包括表示该缩小的特征空间的数据的一个或多个消息)。缩小的特征空间640可以存储为缩小的特征空间的专利向量表,以及其他可能性。

再次参考图6,在步骤608处,系统100根据可视化偏好经由用户界面呈现缩小的特征空间640的可视化。用户界面可采用用户终端106的用户界面的形式,并且作为示例,呈现可视化可包括经由用户终端106的用户界面呈现表示缩小的特征空间640的模型。模型可采用缩小的特征空间640的低维模型的形式,诸如缩小的特征空间的一维、二维或三维模型,以及其他可能性。

在实施例中,模型的维数等于缩小的特征空间640的维数。例如,缩小的特征空间和模型都可具有两个维度。在另一实施例中,模型表示具有第一个维度数量的缩小的特征空间到具有第二维度数量的模型的映射,第二维度数量小于第一个维度数量。例如,模型可以表示三维缩小的特征空间到二维图像平面的映射(例如,投影)。在此类示例中,模型可采用表示三维缩小的特征空间的各个角度的一个或多个二维图像的形式,以及许多其他示例。

图14a描绘了根据本文示出和描述的一个或多个实施例的缩小的特征空间的可视化。如图所示,可视化1400被表示为三维缩小的特征空间的二维图像,其在该示例中采用缩小的特征空间640的形式,该缩小的特征空间640具有减少到三个特征的专利向量。可视化1400包括点云1410,其中每个点表示缩小的特征空间640的相应专利向量,该特征空间640进而表示如上所述的相应专利族,并且进一步包括注释1412-1428。然而,应当理解,可视化1400也可采用其他形式,并且可视化不一定包括点云或注释。

注释1412-1428可标识由点云1410中的各个点表示的专利族的一个或多个属性。作为示例,如图14a所示,注释1412、1414、1416、1418、1422、1424、1426和1428(分别)包含“伽马照相机”、“CT机器”、“字符识别”、“自动立体显示”、“显示设备”、“助听器”、“数字滤波器”和“音频编码”的文本。注释可反映主题(诸如IPC分类或其他专利分类)或由注释附近的相应点(例如,专利向量或点的簇)表示的部分或全部专利族的其他特征。例如,如图14a所示,包含文本“音频编码”的注释1428定位在可视化1400中靠近点云1410的高密度区域,可能指示由高密度区域中的各个点表示的专利族都具有音频编码的专利分类或相似于音频编码的另一专利分类。

尽管图14a描绘了缩小的特征空间640的灰度可视化,但在一些实施例中,点云1410中的点可基于各个专利向量之间的相似度(或由专利向量表示的专利族,其进而可基于缩小的特征空间中的各个专利向量之间的距离)以相应的颜进行呈现。例如,可基于簇中的专利向量之间的相似度将专利向量分类为一个或多个簇,并且点可基于簇具有相应的颜(例如,使得每个簇中的点具有给定的颜)。注释1412-1428中的任何一者可表示给定簇中专利向量的一个或多个特征(例如,一个或多个属性,诸如属性p1到p5)。

图14b也描绘了根据本文示出和描述的一个或多个实施例的缩小的特征空间的可视化。如图所示,可视化1450被表示为缩小的特征空间640的二维图像,并且具体地,被表示为点云1410的一部分的放大视图(与可视化1400相比),该缩小的特征空间640具有减少到三个特征的专利向量。除了也是可视化1400的一部分的注释1412和1414之外,可视化1450还包括注释1462、1464和1466,其(分别)包含“辐射检测器”、“X射线胶片盒”和“X射线表”的文本,这些不在可视化1400的注释中。在示出的实施例中,可视化1450进一步包括向量显示1480,向量显示1480包括由点云1410中的给定点(即,专利向量)表示的专利族的信息(诸如属性)。例如,向量显示可标识所表示的专利族中的一个或多个专利(诸如专利族中所有专利共有的最早优先权专利)的专利分类、所有权、受让人、申请日期或专利号。向量显示1480可响应于经由用户界面(诸如用户终端106的用户界面)在点云1410中的给定点的选择而呈现。

可视化1400(和/或可视化1450)可经由用户界面(诸如用户终端106)来呈现,例如,通过使用户界面经由用户界面的显示器来呈现可视化。在实施例中,可视化采用缩小的特征空间640的图像的形式,并且呈现可视化包括呈现缩小的特征空间的图像。例如,图像可以是二维光栅图像、一维光栅图像或三维全息图。作为一种可能性,呈现图像可包括将图像提供给用户终端106并使用户终端经由用户界面呈现图像。例如,计算设备102可生成缩小的特征空间640的光栅图像,并将该图像提供给用户终端以经由用户界面进行呈现。作为另一可能性,呈现图像可包括向用户界面提供表示可视化的数据(例如,表示缩小的特征空间640的数据),并使用户界面基于所提供的数据生成图像。例如,计算设备102可向用户终端106提供表示可视化的数据(例如,缩小的特征空间640的专利向量),用户终端106进而可生成缩小的特征空间640的光栅图像(诸如将三维空间投影成二维光栅图像)。呈现光栅图像可包括使得用户界面(例如,包括用户界面的用户终端106)经由用户界面呈现所提供或所生成的光栅图像。

现在应当理解,本文描述的实施例针对用于呈现包括一个或多个专利的表示的低维专利特征空间的可视化的系统、计算设备和方法。在一些实施例中,计算设备生成包括具有第一特征数量的专利向量的专利特征空间。专利向量中的每个专利向量表示一个或多个相应专利的相应专利族,并且特征中的每个特征表示由专利向量表示的相应专利族的相应属性。计算设备对专利特征空间执行线性降维以获得中间特征空间,该中间特征空间包括具有减少到基于专利族的相应属性所选择的第二特征数量的特征数量的专利向量。计算设备对中间特征空间执行非线性降维以获得缩小的特征空间,该缩小的特征空间包括具有减少到基于可视化偏好所选择的第三特征数量的特征数量的专利向量。计算设备根据可视化偏好,经由用户界面呈现缩小的特征空间的可视化。

应当注意,可以利用术语“基本上”和“约”来表示可归因于任何定量比较、数值、度量,或其他表示的固有不确定度。这些术语还在本文用来表明数量表示可以与所陈述的引用不同的程度,而不会导致所讨论的主题的基本功能的改变。

尽管本文示出和描述了特定实施例,但应理解可作出其他变更和修改而不偏离所要求保护主题的精神和范围。此外,虽然本文中已经描述了所要求保护的主题的各个方面,但不需要以组合的方式来利用这些方面。因此,所附权利要求旨在涵盖所要求保护的主题的范围内的所有此类变更和修改。

相关申请的交叉引用

本申请要求于2020年4月29日提交的题为“Systems and Methods forGenerating a Low-Dimensional Space Representing Similarities Between Patents(用于生成表示专利之间相似度的低维空间的系统和方法)”的美国专利申请序列第16/861,834号的权益和优先权,该美国专利申请要求于2019年5月15日提交的题为“Systemsand Methods for Generating a Low-Dimensional Space Representing SimilaritiesBetween Patents(用于生成表示专利之间相似度的低维空间的系统和方法)”的美国临时专利申请序列第62/848,242号的优先权,该两篇文献通过引用整体并入本文。

本文发布于:2024-09-21 23:30:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/67849.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议