一种基于案例推理的电商领域专利侵权判定系统及判定方法

著录项
  • CN201810217918.X
  • 20180316
  • CN108428200A
  • 20180821
  • 浙江大学城市学院
  • 韩志科;蔺高
  • G06Q50/18
  • G06Q50/18 G06F17/27 G06F17/30

  • 浙江省杭州市拱墅区湖州街51号
  • 浙江(33)
  • 杭州求是专利事务所有限公司
  • 邱启旺
摘要
本发明公开一种基于案例推理的电商领域专利侵权判定系统及侵权判定方法,该系统搭建在案件判定云计算中心上,并包括用户登录和用户权限控制模块、判案管理模块和智能判定模块;所述的侵权判定方法包括构建专利判定案例库,并对库中每个专利进行标注,输入新判定案例和模型参数信息,将新判定案例放入专利判定案例库中进行检索,然后采用基于权重积分模型对检索结果进行统计分析,自动给出新判定案例的指导意见。本发明的系统和方法减轻了判案人员的工作负担,改变了目前主要靠人工对电商领域专利侵权判定的情况,提高工作效率,增加判案的依据,使得判案流程更加智能化,促进了电商领域专利侵权判定的透明度。
权利要求

1.一种基于案例推理的电商领域专利侵权判定系统,其特征在于,该系统搭建在案件 判定云计算中心上,该中心采用基于Linux操作系统的Hadoop集平台,该平台部署了 Tomcat服务器以及Hadoop集、HBase集、Zookeeper集以及SolrCloud集;该系统包 括如下模块:

(1)用户登录和用户权限控制模块:该模块用于各类角的用户登录,并对不同的角 设定必要的权限。

(2)判案管理模块:该模块用于各项数据的存储、查询、检索和维护,所述的各项数据包 括每个专利的案件分类、被控专利信息、被控专利特征信息、判案信息、案例权重和匹配次 数。

(3)智能判定模块:该模块用于完成案例推理与结果分析,该模块包括案例推理单元、 相似案例检索结果管理单元、相似案例统计分析单元和分布式全文检索单元。

2.一种基于案例推理的电商领域专利侵权判定方法,其特征在于,该方法基于权利要 求1所述的系统来实现,所述的方法包括如下步骤:

(1)采用基于面向对象的案例表示方法构建专利判定案例库,并标注每个专利的案件 分类、被控专利信息、被控专利特征信息和判案信息;

(2)输入新判定案例和模型参数信息,并标注新判定案例的案件分类信息、被控专利信 息、被控专利特征信息以及CBR模型参数信息,所述的CBR模型参数信息包括近似案例的个 数K、案例属性权重向量W和相似度检索阈值a;

(3)将作业提交到Hadoop集平台进行KNN MapReduce案例检索;

(4)当检索到的相似案例不能同时满足近似案例的个数K和相似度检索阈值a时,则调 整a或者W,然后再次检索,直到检索到的相似案例同时满足近似案例的个数K和相似度检索 阈值a;

(5)基于“权重积分模型”对检索结果进行统计分析:采用不同类型属性相似度计算方 法计算出案例库中的每个案例与新输入案例之间的相似度,然后再根据相似度和K值匹配 出符合要求的相似案例;根据其相似度大小设置不同的权重,相似度越大,则该案例的权重 越大;然后根据每个案例的判定结果进行加权求和,将判定结果属于同一类的案例放在一 起进行权重的累加,最终权重最大的那一类的判案结果作为本次案例检索的参考意见;所 述的案件判定结果类别包括“侵权成立”、“资料不齐待定”,“侵权不成立”,“交上级待定”四 类;

(6)当步骤(4)中的检索返回的案例仍然不符合要求时,则通过输入关键字在案例库中 进行全文索引,该索引包括案例的各个字段以及控方提交的材料;

(7)对检索结果进行评价和修正:当检索结果中的某个案例解决了当前的待判定案例 的专利问题,则对检索到的该案例的权重增加。

3.根据权利要求2所述的基于案例推理的电商领域专利侵权判定方法,其特征在于,所 述的步骤(1)具体为:

根据历史判案数据,将每个判案案例表示为C=(E,P,L,R)的四元组,其中,E=(e 1, e 2,...,e m)代表案件分类信息的描述向量,包括专利侵权纠纷和假冒专利两类,所述的专利 侵权纠纷包括专利侵权纠纷、在发明专利申请后专利权授予使用发明而未支付适当费用纠 纷、专利申请权和专利归属权纠纷、发明人设计人资格纠纷等四种情况;所述的假冒专利包 括在产品或产品包装上标注专利标识、销售上标注了专利标识、在产品说明书上标注专利 等三种情况;P=(p 1,p 2,...,p n)代表被控专利信息的描述向量,包括专利类型、涉案专利 号、产品所属行业和权利人四种;L=(l 1,l 2,...,l p)代表被控专利特征信息的描述向量,包 括技术领域、该领域对应特征、专利权利要求内容;R=(r 1,r 2,...,r q)代表判案信息的描述 向量,所述的判案信息包括基本案情、判案结果和判案时间。

4.根据权利要求2所述的基于案例推理的电商领域专利侵权判定方法,其特征在于,所 述的步骤(3)中的案例检索采用基于MapReduce的KNN案例检索算法。

5.根据权利要求2或4所述的基于案例推理的电商领域专利侵权判定方法,其特征在 于,所述的步骤(5)中的不同类型属性相似度计算方法为:

S1:计算案例库中的每个案例与新输入案例单个属性之间的相似度,具体计算方式如 下:

(1)连续型数值属性的相似度计算,计算公式如下:

S表示原案例属性,t表示案例库中目标案例相同的属性,max(c,t)表示c和t所代表的 属性的值域的最大值,min(s,t)表示s和t代表的属性的值域的最小值;

(2)有序属性的相似度的计算:首先将有序属性简化为次序枚举类型,并按照语义强弱 的次序进行排列,假设属性分为n个等级,则等级i和等级j之间的相似度计算公式如下:

其中ord(i)是属性值i在值域集合中的次序;card i是属性分的级数;

(3)字符型属性的相似度计算:字符型属性的相似度计算使用MMSEG中文分词的匹配算 法:具体的相似度计算公式如下:

其中,Stringtoken()函数为使用MMSEG中文分词的匹配算法得到的分词数组,same() 函数计算两个字符串分词后同义词语的个数,maxlen()计算最长字符串分词的个数;

(4)模糊区间属性的相似度计算:

第一步:根据模糊区间构造隶属函数。

第二步:根据隶属函数分别计算两个模糊区间和其重叠区间对应面积,面积的重叠率 作为模糊区间的相似度,相似度的计算公式如下:

其中,S i表示其中一个模糊区间i属性通过隶属函数计算出的对应面积,T i示另一个模 糊区间i属性通过隶属函数计算出的对应面积,S表示通过隶属函数计算出的对应面积;

S2:计算案例库中的每个案例与新输入案例的案例之间的相似度。计算公式如下:

其中,w k代表案例特征向量中第k个特征的权值, a Sk表示案例S的第k个特征的 权值,a Tk分别表示案例T的第k个特征的取值,sim(a Sk,a Tk)是案例S和T第k个特征的相似度。

说明书
技术领域

本发明涉及电商领域专利侵权判定,具体涉及一种基于案例推理的电商领域专利 侵权判定系统及判定方法。

随着计算机与互联网的普及,电子商务在我国得到了长足的发展,越来越多的人 习惯于通过第三方交易平台销售和选购商品。然而,网络在使人们充分享受便捷的同时,也 带来了大量的知识产权保护问题,突出表现在电子商务交易中的各类知识产权纠纷越来越 多。近年来,司法部门和行政部门受理和查处的知识产权案件中,涉及网络交易的越来越 多。

浙江是电子商务市场大省,2013年全省电子商务总交易额突破1.6万亿元,同比增 长约30%,占全国六分之一;全省现有各类网店130多万个,实现网络零售3821.25亿元,同 比增长88.48%,相当于全省社会消费品零售总额的25%,总量占全国五分之一。其中,网络 零售额超亿元企业100多家,涌现出了阿里巴巴、淘宝网、义乌购等国内外知名网商,电子商 务企业数量和规模均居全国前列。特别值得一提的是,2013年11月11日淘宝网打造的“双 11”网购节,单日交易额达到350.19亿元,成交1.7亿笔。

但是电子商务领域的知识产权侵权假冒现象也层出不穷,对第三方交易平台经营 者来说,每年接到的知识产权纠纷投诉逐年上升,据到阿里巴巴集团调研统计,阿里巴巴 2010年处理的知识产权侵权投诉商品为105万件,2011年为91万件,2012年为94万件;在淘 宝网上,2010年处理的知识产权侵权投诉商品为870万件,2011年为570万件,2012年为680 万件。到了2013年,淘宝网年处理的知识产权纠纷投诉就达861万起,处罚会员141万人次。 其中,商标占52%,版权占40%,专利占6%,其他占2%。阿里巴巴中英文交易平台 (1688)2013年办理知识产权侵权投诉111万余起,其中商标占60%,专利占30%,版权 占10%。通过投诉量的分析,我们不难看出,尽管两家电子商务平台商在知识产权保护方面 加大了投入,知识产权投诉量呈现有增无减的趋势。从知识产权投诉的内容看,阿里巴巴平 台上的知识产权纠纷主要集中在专利与商标上;而淘宝平台上的知识产权纠纷主要集中在 商标与版权上。

显然,若不及时针对电子商务市场交易中的知识产权违法行为进行有效规制,势 必严重侵害专利权人利益、损害消费者权益、威胁交易平台以及电子商务产业的健康发展。

电子商务实现了信息化与无纸化交易,他所承载的载体是网络。然而,网络交易的 主体匿名性、空间的虚拟性、交易与交割的非及时性,使现有的知识产权法律体系在网络空 间的适用受到了极大的冲击,从阿里巴巴中英文国际站和淘宝网的动则百万级的案件量和 案件的复杂性等原因,远远超出了纯粹靠人工处理的能力。解铃还需系铃人,所以电子商务 领域知识产权侵权的保护还需要引入大数据计算、人工智能和知识发现等先进信息技术加 以解决,本发明专利正是在这背景下提出的。

专利02135226.7“一种用于基建工程报建审批的IC卡管理系统及其应用方法”提 供了一种用于基建工程报建审批的IC卡管理系统及其应用方法,该方法实现了报建大厅工 程建设数据的数字信息平台化,实现了不同业务内容窗口的信息共享和业务联动,使建设 单位需提交的纸质载体资料大为减少,有助于提高政府部门的办公自动化、无纸化程度和 报建审批工作的“阳光化”,是政府管理部门具体业务处理工作程序的巨大突破,是建设项 目行政审批制度改革的一个重要体现和城市建设管理机制的一个创新。该发明适用于工程 建设项目的报建、审批、管理工作。专利201010288981.6“智能辅助审批系统及方法”提供了 一种可以用在城市建设案例审批领域的智能辅助审批系统及方法,该系统包括:审批知识 库,用于存储知识点,每一知识点包括审批关注信息且至少部分所述知识点与业务系统中 的业务数据相关联;操作步骤管理单元,用于创建业务审批操作步骤,部分业务审批操作步 骤包括审批知识库中的知识点;审批过程管理单元,用于实现审批过程在各个审批执行人 之间的自动流转,每一审批执行人依次执行业务审批操作步骤。该发明还提供一种对应的 智能辅助审批方法,通过在载入业务系统前预设操作步骤并在载入系统时根据预设的操作 步骤创建审批流程,增加了业务系统的灵活性。这两种方法主要采用工作流的方式处理电 子政务案例审批工作,并基于“审批规则库”实现了案例审批的电子化和信息化。但是这些 方法和系统只是实现了审批数据的存储与查询以及电子审批功能,并没有充分利用这些历 史审批数据,更没有对这些数据进行数据分析或者挖掘工作,因此并没有从根本上提高审 核效率。

本发明的目的是克服现有技术中的不足,提供一种基于案例推理的电商领域专利 侵权判定系统及判定方法,具体如下:

一种基于案例推理的电商领域专利侵权判定系统,其特征在于,该系统搭建在案 件判定云计算中心上,该中心采用基于Linux操作系统的Hadoop集平台,该平台部署了 Tomcat服务器以及Hadoop集、HBase集、Zookeeper集以及SolrCloud集;该系统包 括如下模块:

(1)用户登录和用户权限控制模块:该模块用于各类角的用户登录,并对不同的 角设定必要的权限;

(2)判案管理模块:该模块用于各项数据的存储、查询、检索和维护,所述的各项数 据包括每个专利的案件分类、被控专利信息、被控专利特征信息、判案信息、案例权重和匹 配次数;

(3)智能判定模块:该模块用于完成案例推理与结果分析,该模块包括案例推理单 元、相似案例检索结果管理单元、相似案例统计分析单元和分布式全文检索单元。

一种基于案例推理的电商领域专利侵权判定方法,其特征在于,该方法基于权利 要求1所述的系统来实现,所述的方法包括如下步骤:

(1)采用基于面向对象的案例表示方法构建专利判定案例库,并标注每个专利的 案件分类、被控专利信息、被控专利特征信息和判案信息;

(2)输入新判定案例和模型参数信息,并标注新判定案例的案件分类信息、被控专 利信息、被控专利特征信息以及CBR模型参数信息,所述的CBR模型参数信息包括近似案例 的个数K、案例属性权重向量W和相似度检索阈值a;

(3)将作业提交到Hadoop集平台进行KNN MapReduce案例检索;

(4)当检索到的相似案例不能同时满足近似案例的个数K和相似度检索阈值a时, 则调整a或者W,然后再次检索,直到检索到的相似案例同时满足近似案例的个数K和相似度 检索阈值a;

(5)基于“权重积分模型”对检索结果进行统计分析:采用不同类型属性相似度计 算方法计算出案例库中的每个案例与新输入案例之间的相似度,然后再根据相似度和K值 匹配出符合要求的相似案例;根据其相似度大小设置不同的权重,相似度越大,则该案例的 权重越大;然后根据每个案例的判定结果进行加权求和,将判定结果属于同一类的案例放 在一起进行权重的累加,最终权重最大的那一类的判案结果作为本次案例检索的参考意 见;所述的案件判定结果类别包括“侵权成立”、“资料不齐待定”,“侵权不成立”,“交上级待 定”四类;

(6)当步骤(4)中的检索返回的案例仍然不符合要求时,则通过输入关键字在案例 库中进行全文索引,该索引包括案例的各个字段以及控方提交的材料;

(7)对检索结果进行评价和修正:当检索结果中的某个案例解决了当前的待判定 案例的专利问题,则对检索到的该案例的权重增加。

优选地,所述的步骤(1)具体为:

根据历史判案数据,将每个判案案例表示为C=(E,P,L,R)的四元组,其中,E= (e1,e2,...,em)代表案件分类信息的描述向量,包括专利侵权纠纷和假冒专利两类,所述的 专利侵权纠纷包括专利侵权纠纷、在发明专利申请后专利权授予使用发明而未支付适当费 用纠纷、专利申请权和专利归属权纠纷、发明人设计人资格纠纷等四种情况;所述的假冒专 利包括在产品或产品包装上标注专利标识、销售上标注了专利标识、在产品说明书上标注 专利等三种情况;P=(p1,p2,...,pn)代表被控专利信息的描述向量,包括专利类型、涉案专 利号、产品所属行业和权利人四种;L=(l1,l2,...,lp)代表被控专利特征信息的描述向量, 包括技术领域、该领域对应特征、专利权利要求内容;R=(r1,r2,...,rq)代表判案信息的描 述向量,所述的判案信息包括基本案情、判案结果和判案时间。

优选地,所述的步骤(3)中的案例检索采用基于MapReduce的KNN案例检索算法。

优选地,所述的步骤(5)中的不同类型属性相似度计算方法为:

S1:计算案例库中的每个案例与新输入案例单个属性之间的相似度,具体计算方 式如下:

(1)连续型数值属性的相似度计算,计算公式如下:

S表示原案例属性,t表示案例库中目标案例相同的属性,max(c,t)表示c和t所代 表的属性的值域的最大值,min(s,t)表示s和t代表的属性的值域的最小值;

(2)有序属性的相似度的计算:首先将有序属性简化为次序枚举类型,并按照语义 强弱的次序进行排列,假设属性分为n个等级,则等级i和等级j之间的相似度计算公式如 下:

其中ord(i)是属性值i在值域集合中的次序;cardi是属性分的级数;

(3)字符型属性的相似度计算:字符型属性的相似度计算使用MMSEG中文分词的匹 配算法:具体的相似度计算公式如下:

其中,Stringtoken()函数为使用MMSEG中文分词的匹配算法得到的分词数组, same()函数计算两个字符串分词后同义词语的个数,maxlen()计算最长字符串分词的个 数;

(4)模糊区间属性的相似度计算:

第一步:根据模糊区间构造隶属函数。

第二步:根据隶属函数分别计算两个模糊区间和其重叠区间对应面积,面积的重 叠率作为模糊区间的相似度,相似度的计算公式如下:

其中,Si表示其中一个模糊区间i属性通过隶属函数计算出的对应面积,Ti示另一 个模糊区间i属性通过隶属函数计算出的对应面积,S表示通过隶属函数计算出的对应面 积;

S2:计算案例库中的每个案例与新输入案例的案例之间的相似度。计算公式如下:

其中,wk代表案例特征向量中第k个特征的权值,aSk表示案例S的第k个特征的权值,aTk分别表示案例T的第k个特征的取值,sim(aSk,aTk)是案例S和T第k个特征的相似度。

本发明的有益效果是:本发明提出了一种基于案例推理的电商领域专利侵权判定 系统及判定方法,通过案例判定云计算中心,利用Hadoop的MapReduce框架进行分布式检 索,建立基于案例推理技术的分布式案例检索模型。本发明创新性地提出“权重积分模型” 对检索出的相似案例进行统计分析,进而得到对新判定案件有益的指导。同时,这种云计算 系统的部署也减轻了判案人员的工作负担,使得他们只需要一个可以连网的终端就可以随 时随地实现智能化判案,改变了目前主要靠人工对电商领域专利侵权判定的情况,提高工 作效率,增加判案的依据,使得判案流程更加智能化,促进了电商领域专利侵权判定的透明 度。

图1是实现本发明提出的基于案例推理的电商领域专利侵权判定方法的Hadoop集 架构图;

图2是本发明实现的基于案例推理技术的电商领域专利侵权判定云计算系统的网 络拓扑架构图;

图3为本发明描述的案例检索的MapReduce分布式架构图;

图4是本发明提出的基于案例推理技术的电商领域专利侵权判定方法流程图。

下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明 白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。

一种基于案例推理的电商领域专利侵权判定系统,该系统搭建在案件判定云计算 中心上,该中心采用基于Linux操作系统的Hadoop集平台,该平台部署了Tomcat服务器以 及Hadoop集、HBase集、Zookeeper集以及SolrCloud集;该系统包括如下模块:

(1)用户登录和用户权限控制模块:该模块用于各类角的用户登录,并对不同的 角设定必要的权限;

(2)判案管理模块:该模块用于各项数据的存储、查询、检索和维护,所述的各项数 据包括每个专利的案件分类、被控专利信息、被控专利特征信息、判案信息、案例权重和匹 配次数;

(3)智能判定模块:该模块用于完成案例推理与结果分析,该模块包括案例推理单 元、相似案例检索结果管理单元、相似案例统计分析单元和分布式全文检索单元。

本发明的的基于案例推理的电商领域专利侵权判定系统中的案例判定云计算中 心平台使用了4台PC机,型号均为Dell Precision WorkStation T3400,单核CPU,4G内存, 500G硬盘。其中一台安装Window7操纵系统作为开发主机,其余三台安装Linux CentOS6.4 操作系统作为工作集。由三台PC组成的Hadoop集架构如图1所示,具体的网络拓扑图如 2所示。

一种基于案例推理的电商领域专利侵权判定方法,如图4所示,该方法基于权利要 求1所述的系统来实现,所述的方法包括如下步骤:

(1)采用基于面向对象的案例表示方法构造专利判定案例库,并标注每个专利的 案件分类、被控专利信息、被控专利特征信息和判案信息;

首先使用Hive和Pig对这些多数据源的数据进行了数据的预处理以及ETL操作,最 终生成上述结构的判案案例,并以表的形式存放在HBase数据库中。

根据历史判案数据,将每个判案案例表示为C=(E,P,L,R)的四元组,其中,E= (e1,e2,...,em)代表案件分类信息的描述向量,包括专利侵权纠纷和假冒专利两类,所述的 专利侵权纠纷包括专利侵权纠纷、在发明专利申请后专利权授予使用发明而未支付适当费 用纠纷、专利申请权和专利归属权纠纷和发明人设计人资格纠纷等四种情况;所述的假冒 专利包括在产品或产品包装上标注专利标识、销售上标注了专利标识和在产品说明书上标 注专利等三种情况;P=(p1,p2,...,pn)代表被控专利信息的描述向量,包括专利类型、涉案 专利号、产品所属行业和权利人四种;L=(l1,l2,...,lp)代表被控专利特征信息的描述向 量,包括技术领域、该领域对应特征和专利权利要求内容(和下面的表格中不对应);R= (r1,r2,...,rq)代表判案信息的描述向量,所述的判案信息包括基本案情、判案结果和判案 时间(和下面的表格中不对应),如表1所示。

表1专利判定案例库中每个专利的判定向量及其判定指标

(2)输入新判定案例和模型参数信息,并标注新判定案例的案件分类信息、被控专 利信息、被控专利特征信息以及CBR模型参数信息,所述的CBR模型参数信息包括近似案例 的个数K、案例属性权重向量W和相似度检索阈值a;

(3)将作业提交到Hadoop集平台进行KNN MapReduce案例检索,采用基于 MapReduce的KNN案例检索算法。

基于MapReduce的KNN案例检索算法是在MapReduce分布式计算模型中实现的,关 键是map函数、reduce函数以及jobCreate函数的设计。map函数主要负责搜索到HBase子表 的局部k个相似度符合相似度要求的案例。Reduce函数负责汇总map函数的输出结果并产生 最终的全局K个符合相似度要求的案例。jobCreate()函数用来完成用户关于作业运行的 自定义配置并提交到集中运行。Mapreduce作业相关类图如图3所示。

本发明的判定案例是存储在HBase中,因此Mapreduce作业的InputFormat设置为 TableInputFormat。由于检索出来的案例还要存入HBase的临时表中,因此因此Mapreduce 作业的OutputFormat设置为TableOutputFormat。Hadoop将HBase表作为输入时,是根据 HBase表的Region数据分割Split,即每一个Region对应一个Split,因而也对应一个 Mapper。通过设置InputFormat为TableInputFormat,Mapper把每个Region按照rowKey划分 成<key,value>对,key对应该子表的每一个rowKey,value对应该行所包含的数据(类图中 为Result)。SearchKNNCaseMapper继承自TableMapper<Text,DoubleWritable>,这样就可 以直接处理HBase表中的数据。SearchKNNCaseReducer继承自TableReducer<Text, DoubleWritable>,这样就可以把reduce函数的输出结果写入HBase表中。 SearchKNNCaseDriver负责配置分布式运行集环境、生成Mapreduce作业并提交到集中 执行。SearchKNNCaseUtils类提供了一些工具函数,比如计算两个案例之间的相似度等。

Mapper的主要功能是求出符合相似度阈值的K个局部案例并按照相似度大小排 序,然后传送给Reducer中处理。

Reducer的主要功能是汇总各个Mapper的输出结果,并根据相似度值的大小进行 排序后输出。本系统中的Reducer将所有Mapper的输出存放到一个HashMap容器中,利用利 用TreeMap对HashMap容器进行排序,输出前K个案例。在实现了map函数和reduce函数之后, 还需要设置Mapreduce作业的运行信息。图中的jobCreate()函数就是用来设置一个 Mapreduce作业后返回给用户。主要设置信息包括作业运行的JobTracker主机IP、作业的名 称、JAR类名、Mapper的实现类名、Reducer的实现类名、InputFormat格式、OutputFormat格 式、以及作业的输入数据和输出数据的位置等。本系统采用HBase表作为作业的输入和输出 位置,因此将InputFormat设置为TableInputFormat,将OutputFormat设置为 TableOutputFormat,使得HBase结合Mapreduce进行分布式数据处理。配置好作业,就可以 将作业提交到集中去运行,关键代码如下:

(4)当检索到的相似案例不能同时满足近似案例的个数K和相似度检索阈值a时, 则调整a或者W,然后再次检索,直到检索到的相似案例同时满足近似案例的个数K和相似度 检索阈值a;

(5)采用不同类型属性相似度计算方法计算出案例库中的每个案例与新输入案例 之间的相似度,然后再根据相似度和K值匹配出符合要求的相似案例;根据其相似度大小设 置不同的权重,相似度越大,则该案例的权重越大;然后根据每个案例的判定结果进行加权 求和,将判定结果属于同一类的案例放在一起进行权重的累加,最终权重最大的那一类的 判案结果作为本次案例检索的参考意见;所述的案件判定结果类别包括“侵权成立”、“资料 不齐待定”,“侵权不成立”,“交上级待定”四类;

其中,不同类型属性相似度计算方法为:

S1:计算案例库中的每个案例与新输入案例单个属性之间的相似度,具体计算方 式如下:

(1)连续型数值属性的相似度计算,计算公式如下:

S表示原案例属性,t表示案例库中目标案例相同的属性,max(c,t)表示c和t所代 表的属性的值域的最大值,min(s,t)表示s和t代表的属性的值域的最小值;

(2)有序属性的相似度的计算:首先将有序属性简化为次序枚举类型,并按照语义 强弱的次序进行排列,假设属性分为n个等级,则等级i和等级j之间的相似度计算公式如 下:

其中ord(i)是属性值i在值域集合中的次序;cardi是属性分的级数;

(3)字符型属性的相似度计算:字符型属性的相似度计算采用基于分词的匹配算 法:具体的相似度计算公式如下:

其中,Stringtoken()函数为使用MMSEG中文分词的匹配算法得到的分词数组, same()函数计算两个字符串分词后同义词语的个数,maxlen()计算最长字符串分词的个 数;

(4)模糊区间属性的相似度计算:

第一步:根据模糊区间构造隶属函数。

第二步:根据隶属函数分别计算两个模糊区间和其重叠区间对应面积,面积的重 叠率作为模糊区间的相似度,相似度的计算公式如下:

其中,Si表示其中一个模糊区间i属性通过隶属函数计算出的对应面积,Ti示另一 个模糊区间i属性通过隶属函数计算出的对应面积,S表示通过隶属函数计算出的对应面 积;

S2:计算案例库中的每个案例与新输入案例的案例之间的相似度。计算公式如下:

其中,wk代表案例特征向量中第k个特征的权值,aSk表示案例S的第k个特征的权值,aTk分别表示案例T的第k个特征的取值,sim(aSk,aTk)是案例S和T第k个特征的相似度。

(6)当步骤(4)中的检索返回的案例不符合要求,则通过输入关键字在案例库中进 行全文索引,该索引包括案例的各个字段以及控方提交的材料;

(7)对检索结果进行评价和修正:当检索结果中的某个案例解决了当前的待判定 案例的专利问题,则对检索到的该案例的权重增加;当步骤(4)中没有返回相似案例,

比如,判案人员可以输入关键字“美颜靓装”,系统将关键字提交到案件判定云计 算系统的SolrCloud集中,然后启动Solr分布式全文搜索任务,最后把检索结果及时返回 给判案人员,返回的案例可能是历史判定案例中用地情况调查字段含“美颜”或者“靓装”的 案例,也可能是提交的专利材料中包含这些关键字的案例,这些案例的一些字段中包含了 判案人员感兴趣的信息,因此可以给与判案人员一些启示和参考。判案人员根据全文检索 出来的案例的详细判定信息得到有助于解决当前问题的指导。

本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限 制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然 可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡 在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

本文发布于:2024-09-23 21:29:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/68894.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议