一种专利诉讼风险预测方法

著录项
  • CN201810482063.3
  • 20180518
  • CN108665182A
  • 20181016
  • 中国科学技术大学
  • 刘淇;陈恩红;武晗;叶雨扬;杜东舫;赵洪科
  • G06Q10/06
  • G06Q10/06 G06Q50/18

  • 安徽省合肥市包河区金寨路96号
  • 安徽(34)
  • 北京凯特来知识产权代理有限公司
  • 郑立明;郑哲
摘要
本发明公开了一种专利诉讼风险预测方法,该方法根据异构的专利数据(元特征、文本特征和专利引用网络)和专利诉讼案件记录,用张量分解与卷积神经网络相结合的方法得到每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子,然后利用以上三种诉讼因子(都是向量表征)进行专利诉讼风险预测,相比于现有技术而言,极大的提高了预测结果的准确性。
权利要求

1.一种专利诉讼风险预测方法,其特征在于,包括:

获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;

利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数据转 化为综合的专利向量表征;

利用专利诉讼案件数据,建立原告-被告-专利三阶张量,建立张量分解模型;

将综合的专利向量表征与张量分解模型相结合得到混合模型;

使用排序学习的方法对混合模型进行训练;

利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因 子和每一个专利的诉讼因子;

利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。

2.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,获取已授权的异构 形式的专利数据之后,使用统一的数学形式表示已授权的异构形式的专利数据,所述已授 权的异构形式的专利数据包括:元特征、文本特征和专利引用网络;使用S p={k|k=1,2, 3,…,N}表示专利集合,N为专利个数;根据专利引用关系建立专利引用网络G,其中,专利引 用网络G每一个节点都代表专利;

对于专利引用网络G中的专利k,用X k表示其特征,包含元特征和文本特征;其中,元特征 是指能够直接从专利文档中提取出的基本特征,包括:前向引用、后向引用、权利要求数量、 图片数量、表格数量、专利分类信息、授权间隙、所在专利类别中的专利数量变化、所在公司 中的专利数量变化;文本特征是指专利文档中的文字描述,包括:专利标题、专利的说明书 摘要与专利权利要求。

3.根据权利要求2所述的一种专利诉讼风险预测方法,其特征在于,采用网络嵌入学习 的方式来处理元特征和专利引用网络G:将专利引用网络G中的每一个专利节点的元特征拼 接成一个元特征向量,作为网络嵌入学习的专利节点属性进行训练;然后,通过对专利引用 网络G进行网络嵌入学习,可以专利元特征向量转化为专利表征,同时将专利引用关系嵌入 到专利表征中,从而对专利特征进行刻画;上述处理过程如下:

首先,拼接所有专利的元特征向量,形成特征矩阵F N×Q,其中,Q为专利元特征向量的维 度;特征矩阵F N×Q的第k行记为f k,代表专利k的元特征向量;定义专利k的输入表征为e k= E Tf k,其中E是需要训练的转换矩阵;

其次,对于专利引用网络G中的每一个节点,将它当成根节点root,对它的邻居节点进 行随机采样,产生不同的路径:

<root,neighborhood1,neighborhood2,…>;

其中,neighborhood1,neighborhood2均表示邻居节点;

对于每一条路径,给定专利k的邻居节点集合:

context(k)={k-l,…,k+l}\{k};

最大化以下目标函数,即由邻居节点预测中心节点的概率:

上式中e' k和e context(k)分别代表专利k的输出表征和情景表征,e' m代表专利m的的输出 表征,专利m为专利k的邻居节点;

e context(k)定义为:

上式中e m为专利m的输入表征;

最后,通过负采样近似目标函数,获得输出表征,即元特征的向量表征,对于专利k而言 其输出表征为e' k。

4.根据权利要求2或3所述的一种专利诉讼风险预测方法,其特征在于,采用卷积神经 网络来处理文本特征,其过程如下:

首先,通过Word2Vec技术把去除停用词以后的文本特征中的词转换为词向量,维度为 d 0;

其次,把专利标题、专利的说明书摘要与专利的权利要求书进行分片,其中专利权利要 求为多条,则取前C-2条,加上一条专利标题和一条专利的说明书摘要,共形成C个片;每一 片都是由词向量组成的词序列,每一片均取前H个词序列,则将专利k的文本特征转化为张 量

然后,使用一个两层的卷积神经网络对张量 进行处理;第一层是词层面的卷积和 池化,第二层是句子层面的卷积和池化;第一层的卷积和池化操作如下:

卷积操作:卷积操作的卷积核形状为c'×d 0,其中c'为卷积核的维度,目标是经过卷积操 作把专利k的每一个片s=w 1,w 2,…,w H,都转化为一个新的隐层序列e c: 其中: 和 是卷积操作的参数, d是输出的维度,ReLU(x)是一个非线性的激活函数, 是连接操作,用来连接向量;w为词序 列,下标为词序列的序号;

池化操作:池化操作的步长为u,对上述卷积操作获得的新的隐层序列e c进行u最大池 化,转化为新的全局隐层序列e cu: 其中, 满足

第二层的卷积和池化操作与第一层相同,区别仅在于输入由词序列变成了句子序列。

5.根据权利要求4所述的一种专利诉讼风险预测方法,其特征在于:

通过卷积神经网络得到了文本特征的向量表征,通过网络嵌入学习的方式得到元特征 的向量表征;

拼接文本特征的向量表征与元特征的向量表征,然后通过全连接层得到综合的专利向 量表征。

6.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,所述利用专利诉讼 案件数据,建立原告-被告-专利三阶张量,形成张量分解模型包括:

给定M个公司和N个专利,假定原告公司集合为S U={i|i=1,2,3,…,M},被告公司集合 为S V={j|j=1,2,3,…,M},专利集合为S p={k|k=1,2,3,…,N},以三者为坐标轴形成一个 三阶张量,三阶张量中的每一个值代表公司对关于某专利是否发生了诉讼;

假设诉讼案件集合为R={r ijk|i∈S U,j∈S V,k∈S p},给定一个原告公司i和一个被告公 司j,称之为一个公司对(i,j),如果原告公司i关于专利k起诉了被告公司j,则得到一个诉 讼记录r ijk=1;如果目前公司对(i,j)并没有关于k发生诉讼,则诉讼记录r ijk=0;

专利诉讼风险预测是指,给定公司对(i,j)和专利k,预测公司对(i,j)关于专利k进行 诉讼的可能性,预测结果记为r′ ijk;把诉讼可能性分解为以下形式: 其中,U i、V j和P k分别代表原告公司i的诉讼因子、被告公司j的被诉讼因子和专利k的诉讼因 子。

7.根据权利要求6所述的一种专利诉讼风险预测方法,其特征在于,将综合的专利向量 表征与张量分解模型相结合得到混合模型包括:

公司对(i,j)关于专利k发生诉讼的原因分为以下4个方面:1)专利k本身的价值;2)原 告公司i对专利k的重视程度;3)被告公司j对专利k的重视程度;4)原告公司i与被告公司j 之间的竞争关系;

其中,综合的向量表征由卷积神经网络得到的文本特征的向量表征以及网络嵌入学习 的方式得到的元特征的向量表征拼接得到,利用卷积神经网络得到的文本特征的向量表征 能够刻画出上述原因1),由张量分解模型能够刻画出上述原因2)~4);将综合的专利向量 表征和张量分解模型得到的专利诉讼因子统一起来形成混合模型。

8.根据权利要求7所述的一种专利诉讼风险预测方法,其特征在于,所述使用排序学习 的方法对混合模型进行训练的过程如下:

公司之间专利诉讼的可能性类似于传统推荐系统中的用户偏好,即:若专利k为诉讼专利, 则记为k +,若专利k为非诉讼专利,则记为k -;如果 那么相对专利k -来说,公司 对(i,j)更偏好专利k +,则问题转化为预测 此处 其中,k +表示专利k为诉讼专利,k -表示专利k为非诉讼专利; 表示公司对(i,j)并关于 k +发生诉讼, 表示公司对(i,j)并关于k -未发生诉讼;

给定公司对(i,j),使用k +> i,j k -来表示公司对(i,j)对于专利k +和k -偏好程度的偏序 关系;则公司对(i,j)在专利k +上发生诉讼,但没有在专利k -上发生诉讼的概率表示为:

其中,σ(x)为sigmoid函数;

从概率论的角度出发,寻到最佳的专利序列 则问题就能够通过最大化 以下后验分布实现:

p(U,V,P,W|> i,j)∝p(> i,j|U,V,P,W)p(U,V,P,W);

其中,> i,j表示原告公司i与被告公司j之间可能发生专利纠纷的所有偏序关系;U,V, P,W分别代表原告公司诉讼因子矩阵,被告公司诉讼因子矩阵,专利诉讼因子矩阵和卷积神 经网络中的所有参数矩阵;

假定所有的公司对是相互独立的,则有:

上式的条件分布为:

其中, 存储了所有的公司诉讼专利的偏序 关系;

作为一种生成模型,假定原告公司的诉讼因子服从0均值高斯分布,方差为 则原告 公司诉讼因子矩阵U也服从0均值高斯分布,表示为:

其中,N表示高斯分布;

假定被告公司的诉讼因子矩阵V也服从0均值高斯分布,方差为

其中,δ V为标准差;

假定专利k的隐向量为以下形式:

上式中,P k是专利k的诉讼因子,O k是专利k的综合的向量表征,即O k=NCNN(W,X k),其中 的X k表示专利k的特征,ε k是P k与O k之间的差值,假定ε k服从均值为0,方差为 的高斯分 布,其中的δ P为标准差;

从而专利隐向量的概率表示为:

上式中,X为所有专利的特征;

对于W中的每一个权值W q,假定它们也服从均值为0,方差为 的均值高斯分布,如下:

上式中,δ w为标准差;

最终可以训练出混合模型中的参数U,V,P,W以及与这些参数相对应的方差。

9.根据权利要求8所述的一种专利诉讼风险预测方法,其特征在于,利用训练得到的混 合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼 因子时,最大化以下目标函数:

对上述后验分布取对数并取负得到:

上式中,λ U、λ V、λ W、λ P均为最小化目标函数时需要调节的参数。

采用Adadelta优化器来迭代更新模型中的参数,从而计算出原告公司i的诉讼因子U i、 被告公司j的被诉讼因子V j和专利k的诉讼因子P k。

10.根据权利要求1所述的一种专利诉讼风险预测方法,其特征在于,所述利用上述三 种诉讼因子进行公司之间关于某专利的诉讼风险预测包括:

关于原告公司i与被告公司j关于专利k进行诉讼的可能性的预测结果记为r′ ijk,计算 公式为:

其中,U i、V j和P k分别代表原告公司i的诉讼因子、被告公司j的被诉讼因子和专利k的诉 讼因子。

说明书
技术领域

本发明涉及机器学习和专利数据挖掘技术领域,尤其涉及一种专利诉讼风险预测 的方法。

专利是一种知识产权保护的重要手段。近年来,随着科技的发展、技术的革新,世 界各个地区的专利申请和授权数量都在迅速增长,而由专利侵权引发的专利诉讼案件也出 现了显著增长。专利诉讼案件通常成因复杂、程序繁琐、耗资巨大,一旦立案对于诉讼双方 都影响甚大,而提前进行专利诉讼预警可以给诉讼双方提供更多的时间制定发展战略,就 潜在的诉讼专利进行协商解决,从而及时疏通、规避风险、节省资源。

在目前的研究工作和专利中,关于专利诉讼预测的方法主要有以下方法:

1)基于统计的专利诉讼因素分析。

目前,基于统计的专利诉讼因素分析主要着重于分析专利特征与专利诉讼之间的 关系,符合特定特征的专利即为潜在的诉讼专利。经过前人的分析,得知影响专利诉讼的因 素主要包括专利前向引用、专利后向引用、专利家族大小、专利审查过程、专利权人等等。

2)基于协同过滤的公司诉讼风险预测。

基于协同过滤的公司诉讼风险预测结合了传统推荐系统中常用的协同过滤(如矩 阵分解)算法,有学者利用此方法预测一个公司可能发生诉讼的产业或者公司。

上述两种方法并不能解决两个公司关于一个专利是否会发生诉讼这个问题。除此 之外,上述方法并没有利用专利中包含文本在内的异构数据,也没有考虑建模公司之间、公 司与诉讼专利之间的关系。

本发明的目的是提供一种专利诉讼风险预测方法,可以提高预测结果的准确性。

本发明的目的是通过以下技术方案实现的:

一种专利诉讼风险预测方法,其特征在于,包括:

获取已授权的异构形式的专利数据,爬取专利诉讼案件数据;

利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式的专利数 据转化为综合的专利向量表征;

利用专利诉讼案件数据,建立原告-被告-专利三阶张量,建立张量分解模型;

将综合的专利向量表征与张量分解模型相结合得到混合模型;

使用排序学习的方法对混合模型进行训练;

利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉 讼因子和每一个专利的诉讼因子;

利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。

由上述本发明提供的技术方案可以看出,根据异构的专利数据(元特征、文本特征 和专利引用网络)和专利诉讼案件记录,用张量分解与卷积神经网络相结合的方法得到每 一个公司的作为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子,然后利 用以上三种诉讼因子(都是向量表征)进行专利诉讼风险预测,相比于现有技术而言,极大 的提高了预测结果的准确性。

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 附图。

图1为本发明实施例提供的一种专利诉讼风险预测方法的流程图;

图2为本发明实施例提供的一种专利诉讼风险预测方法的结合网络表征的神经网 络结构图;

图3为本发明实施例提供的一种专利诉讼风险预测方法的建模概念图;

图4位本发明实施例提供的一种专利诉讼风险预测方法的概率模型图。

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明的保护范围。

本发明实施例提供一种专利诉讼风险预测方法,如图1所示,其主要包括如下步 骤:

步骤11、获取已授权的异构形式的专利数据,爬取专利诉讼案件数据。

本发明实施例中,已授权的异构形式的专利数据以及专利诉讼案件数据都可以从 互联网上获得。

步骤12、利用卷积神经网络和网络嵌入的方法,将每一个已授权专利的异构形式 的专利数据转化为专利向量表征。

本发明实施例中,获取已授权的异构形式的专利数据之后,使用统一的数学形式 表示已授权的异构形式的专利数据,所述已授权的异构形式的专利数据包括:元特征、文本 特征和专利引用网络;使用Sp={k|k=1,2,3,…,N}表示专利集合,N为专利个数;根据专利 引用关系建立专利引用网络G,其中,专利引用网络G每一个节点都代表专利;每个专利都具 有一定的特征,因此专利引用网络G是一个属性网络。

对于专利引用网络G中的专利k(即专利集合中序号为k的专利),用Xk表示其特征, 包含元特征和文本特征;其中,元特征是指能够直接从专利文档中提取出的基本特征,包 括:前向引用、后向引用、权利要求数量、图片数量、表格数量、专利分类信息、授权间隙、所 在专利类别中的专利数量变化、所在公司中的专利数量变化;文本特征是指专利文档中的 文字描述,包括:专利标题、专利的说明书摘要与专利权利要求。

元特征和文本特征的内容及描述如表1所示:

表1元特征和文本特征的内容及描述

本发明实施例中,利用卷积神经网络和网络嵌入的方法处理专利数据的方式如 下:

1、采用网络嵌入学习的方式来处理元特征和专利引用网络G。首先,将专利引用网络G中的每一个专利节点的元特征拼接成一个元特征向量(例如,专利k的元特征向量可以写成),把它们作为网络嵌入学习的专利节点属性进行训练;然后,通过对专利引用网络G进行网络嵌入学习,可以将高维的专利元特征向量转化为低维的专利表征,同时将专利引用关系嵌入到专利表征中,从而对专利特征进行更精准的刻画。上述处理过程具体如下:

首先,拼接所有专利的元特征向量,形成特征矩阵FN×Q,其中,Q为专利元特征向量的维度;特征矩阵FN×Q的第k行记为fk(等价于);定义专利k的输入表征为ek=ETfk,其中E是需要训练的转换矩阵,显然E的维度为Q×d1(d1可以自行设置);

其次,对于专利引用网络G中的每一个节点,将它当成根节点root,对它的邻居节 点进行随机采样,产生不同的路径:

<root,neighborhood1,neighborhood2,…>;

其中,neighborhood1,neighborhood2均表示邻居节点;

对于每一条路径,给定专利k的邻居节点集合(称之为情境):

context(k)={k-l,…,k+l}\{k};

即,考虑专利k的2l个邻居节点;

最大化以下目标函数,即由邻居节点预测中心节点的概率:

上式中e'k和econtext(k)分别代表专利k的输出表征和情景表征,专利m为专利k的邻 居节点,e'm代表专利m的的输出表征;

econtext(k)定义为:

上式中em为专利m的输入表征;

最后,通过负采样近似目标函数,获得输出表征,即元特征的向量表征,对于专利k 而言其输出表征为e'k。

2、采用卷积神经网络来处理文本特征,其过程如下:

首先,通过Word2Vec技术把去除停用词以后的文本特征中的词转换为词向量,维 度为d0;每一句话都可认为是一个矩阵,多句话可以形成一个张量。

其次,把专利标题、专利的说明书摘要与专利权利要求进行分片,其中专利权利要求为多条,则取前C-2条(不够则补0),加上一条专利标题和一条专利的说明书摘要,共形成C个片;每一片都是由词向量组成的词序列,每一片均取前H个词(不够则补0),则将专利k的文本特征转化为张量其中,C的取值可以根据实际需要求进行设置。

然后,使用如图2所示的两层的卷积神经网络对张量进行处理;第一层是词层面的卷积和池化,第二层是句子层面的卷积和池化;第一层的卷积和池化操作如下:

卷积操作:卷积操作的卷积核形状为c'×d0,其中c'为卷积核的维度,目标是经过卷积操作把专利k的每一个片s=w1,w2,…,wH,都转化为一个新的隐层序列,用ec来表示,这里新的隐层序列中的每一项(1≤n≤H)都满足:其中,和是卷积操作的参数,d是输出的维度,n-c'+1<0意味着是边界,需要补0;ReLU(x)是一个非线性的激活函数,此处ReLU(x)=max(0,x);是连接操作,用来连接向量;w为词序列,下标为词序列的序号;

池化操作:池化操作的步长为u。我们对上述卷积操作获得的新的隐层序列ec进行u最大池化,转化为新的全局隐层序列,用ecu来表示,这里新的全局隐层序列中的每一个都满足其中,r-u+1<0意味着是边界,需要补0:

第二层的卷积和池化操作与第一层相同,区别仅在于输入由词序列变成了句子序 列。

通过卷积神经网络得到了文本特征的向量表征,通过网络嵌入学习的方式得到元 特征的向量表征;拼接文本特征的向量表征与元特征的向量表征,然后通过全连接层得到 综合的专利向量表征。

步骤13、利用专利诉讼案件数据,建立原告-被告-专利三阶张量,建立张量分解模 型。

一桩专利诉讼案件中包括原告公司、被告公司和所涉及的专利三个要素。给定M个 公司和N个专利,假定原告公司集合为SU={i|i=1,2,3,…,M},被告公司集合为SV={j|j= 1,2,3,…,M},专利集合为Sp={k|k=1,2,3,…,N},如图3所示,以三者为坐标轴形成一个 三阶张量,三阶张量中的每一个值代表公司对关于某专利是否发生了诉讼。

假设诉讼案件集合为R={rijk|i∈SU,j∈SV,k∈Sp},给定一个原告公司i和一个被 告公司j,称之为一个公司对(i,j),如果原告公司i关于专利k起诉了被告公司j,则得到一 个诉讼记录rijk=1;如果目前公司对(i,j)并没有关于k发生诉讼,则诉讼记录rijk=0;

还参见图3,专利诉讼风险预测是指,给定公司对(i,j)和专利k,预测公司对(i,j)关于专利k进行诉讼的可能性,预测结果记为r'ijk;我们把诉讼可能性分解为以下形式:其中,Ui、Vj和Pk分别代表原告公司i的诉讼因子、被告公司j的被诉讼因子和专利k的诉讼因子,这三个诉讼因子求解方式将在后文进行详细介绍。

步骤14、将综合的向量表征与张量分解模型相结合得到混合模型。

从数据挖掘的角度上考虑,公司对(i,j)关于专利k发生诉讼的原因分为以下4个 方面:1)专利k本身的价值;2)原告公司i对专利k的重视程度;3)被告公司j对专利k的重视 程度;4)原告公司i与被告公司j之间的竞争关系;

其中,综合的向量表征由卷积神经网络得到的文本特征的向量表征以及网络嵌入 学习的方式得到的元特征的向量表征拼接得到,利用卷积神经网络得到的文本特征的向量 表征能够刻画出上述原因1),由张量分解模型能够刻画出上述原因2)~4);综合的向量表 征和张量分解模型得到的专利诉讼因子统一起来形成混合模型,结合方法如图4所示,详情 请见步骤15。

步骤15、使用排序学习的方法对混合模型进行训练。

考虑到诉讼记录是离散数据,只有诉讼和非诉讼两种情况,常用的张量分解中的 张量中存储的是连续值,直接使用张量分解是不可行的。本发明实施例中采用排序学习的 方法解决此问题。主要如下:

公司之间专利诉讼的可能性类似于传统推荐系统中的用户偏好,即:如果那么相对专利k-来说,公司对(i,j)更偏好专利k+,则问题转化为预测此处该式意味着:公司i关于诉讼专利k+诉讼过公司j,公司i关于非诉讼专利k-没有诉讼过公司j。其中,k+表示专利k为诉讼专利,k-表示专利k为非诉讼专利,表示公司对(i,j)并关于k+发生诉讼,表示公司对(i,j)并关于k-未发生诉讼。

对于专利k,其包含k+与k-与两种形式,我们的目标对一系列未知的专利进行预测, 采用的是根据概率排序的方法,训练的时候既需要用到诉讼过的专利,也还需要没诉讼的, 所以模型中两种专利都要参与。

给定公司对(i,j),使用k+>i,j k-来表示公司对(i,j)对于专利k+和k-偏好程度的 偏序关系;则公司对(i,j)在专利k+上发生诉讼,但没有在专利k-上发生诉讼的概率表示为:

这里也就是俗称的sigmoid函数。

从概率论的角度出发,寻到最佳的专利序列这里>i,j表示原告公司i与被告公司j之间可能发生专利纠纷的所有偏序关系,所以它是SP×SP的子集,则该问题能够通过最大化以下后验分布实现:p(U,V,P,W|>i,j)∝p(>i,j|U,V,P,W)p(U,V,P,W),这里U,V,P,W分别代表原告公司诉讼因子矩阵,被告公司诉讼因子矩阵,专利诉讼因子矩阵和卷积神经网络中的所有参数矩阵。

假定所有的公司对是相互独立的,则有:

上式的条件分布为:

其中,存储了所有的公司诉讼专利的偏序关系;

作为一种生成模型,假定原告公司的诉讼因子都服从0均值高斯分布,方差可以表示为其中δU为标准差,I是一个指示矩阵,为一个对角阵,除了对角线以外都是0。

那么原告公司诉讼因子矩阵U也服从0均值高斯分布,可以表示为:

其中,N表示高斯分布。

同理,假定被告公司诉讼因子矩阵V也服从0均值高斯分布,方差为

其中,δV为标准差;

为了更好地表示专利隐向量,一方面结合了专利诉讼记录信息,一方面抽取了专 利的元特征和文本特征。假定专利隐向量是由两方面因素决定的,一个是用卷积神经网络 中的权值,一个是输入的专利特征。假定专利k的隐向量为以下形式:

其中,Pk是我们最终期望得到的专利k的诉讼因子,Ok是步骤13中最终得到专利k的综合的向量表征,即Ok=NCNN(W,Xk),其中的Xk表示专利k的特征,εk是Pk与Ok之间的差值,我们假定εk服从均值为0,方差为的高斯分布,其中的δP为标准差。

从而专利隐向量的概率表示为:

其中,X为所有专利的特征;

对于W中的每一个权值Wq,假定它们也服从均值为0、方差为的高斯分布:

上式中,δw为标准差。

通过上述方式,NCNN的输出(即综合的向量表征)就可以作为专利隐向量高斯分布 的均值,它联系了卷积神经网络和张量分解,起到了桥梁的作用。

最终可以训练出混合模型中的参数U,V,P,W以及与这些参数相对应的方差。

本领域技术人员可以理解,上述提到了各种形式的标准差δU、δV、δP、δw,其依次对 应于参数U,V,P,W。

步骤16、利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为 被告的诉讼因子和每一个专利的诉讼因子。

利用训练得到的混合模型计算每一个公司的作为原告的诉讼因子、作为被告的诉 讼因子和每一个专利的诉讼因子时,最大化以下目标函数:

对上述后验分布取对数并取负得到:

上式中,λU、λV、λW、λP均为最小化目标函数时需要调节的参数。

为了最小化上述目标函数,采用Adadelta优化器来迭代更新模型中的参数,可以 通过Tensorflow自动求导实现,从而计算出原告公司i的诉讼因子Ui、被告公司j的被诉讼 因子Vj和专利k的诉讼因子Pk,上述三种诉讼因子均为向量表征。

步骤17、利用上述三种诉讼因子进行公司之间关于某专利的诉讼风险预测。

关于原告公司i与被告公司j关于专利k进行诉讼的可能性的预测结果记为r'ijk, 计算公式为:

其中,Ui、Vj和Pk分别代表原告公司i的诉讼因子、被告公司j的被诉讼因子和专利k 的诉讼因子。

本发明实施例上述方案,根据异构的专利数据(元特征、文本特征和专利引用网 络)和专利诉讼案件记录,用张量分解与卷积神经网络相结合的方法得到每一个公司的作 为原告的诉讼因子、作为被告的诉讼因子和每一个专利的诉讼因子,然后利用以上三种诉 讼因子(都是向量表征)进行专利诉讼风险预测,相比于现有技术而言,极大的提高了预测 结果的准确性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可 以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解, 上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易 失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设 备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范 围为准。

本文发布于:2024-09-24 22:36:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68532.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议