浅谈算法相关专利的非专利文献检索

数字档案  Digital archives
128
摘 要:当前算法相关专利的申请量越来越大,而算法的相关专利申请的在审查中出了需要检索专利文献库之外,还需要重点对非专利文献进行检索。对于非专利文献而言,不能通过分类号进行检索,因此对比文件的筛选比较困难。而专利申请文件的说明书当中记载了大量的算法相关内容,如何从这些内容中识别出对检索有用的关键词信息来提高检索的效率值得探究,本文以两个实际案例为例,阐释了如何从说明书中根据本发明所使用的算法、对比算法以及验证数据来源提取关键词,从而提高非专利文献检索的效率。关键词:算法;非专利文献;检索一、引言
随着新一代信息技术的不断发展创新,出现了大量新的技术概念或应用模式,包括大数据、人工智能、区块链等。这些领域的专利申请也不断增长,并且这些领域的专利大多与算法相关。在专利审查实践中评判一件发明专利申请能够被授予专利权很重要的一步是看它是否具备《专利法》第22条第2款所规定的新颖性以及第3款所规定的创造性。而确定发明专利申请的新颖性和创造性则需要通过检索现有技术或者抵触申请来判断,检索的目的就是为判断发明专利申请的新颖性和创造性提供事实依据,因此检索工作是新颖性和创造性客观评判的基石,检索的重要性不言而喻。在检索过程中如何高效地检索到对比文件成为了提高审查效率的关键问题。对于算法类专利申请的检索,在专利数据库中可以基于分类号进行检索,但是在
非专利库则无法利用分类号了,因此通常提取与发明构思相对应的关键词进行检索。然而非专利涉及的文献量巨大,不能使用分类号的情况下,如何高效地实现检索值得探究。
二、算法类专利申请进行非专利检索的策略在非专利检索时,非专利检索引擎中(如Google学术)检索到相关文献量可能很大,多达数百篇,甚至数千篇,如果逐一去浏览这些信息再从这些信息中筛选出目标文献,必然要耗费大量的精力和时间。如果能从算法类专利申请的说明书去寻一些有用的关键词,再使用这些关键词与本发明实质相关的关键词组合一起进行检索,则可以起到事半功倍的效果。
算法类专利申请文件的说明书当中记载了大量的算法相关内容,有具体算法的实现或者对比算法,还有验证算法是否正确、高效的数据集,这些数据集可以是申请人自己构造的数据集,也可以是一些学者或者机构构建的知名数据集。从这些内容中识别出对检索有用的关键词,无疑将提高检索的效率。具体而言可以从以下几方面进行识别:
1、如果说明书内容中记载了在本发明的实现流程中使用了某辨识度很大的算法,则可以将该辨识度很大的算法名称确定为检索关键词;
2、如果说明书内容中将本发明的使用算法与本领域中其他辨识度很大的算法进行了对比,则可以将这些对比算法名称确定为检索关键词;
3、如果说明书内容中记载了在验证算法时,使用数据来源于某知名的数据库,则可以将该知名的数据库确定为检索关键词。
三、检索实践和分析
下面以两个实际案例出发,探索针对算法类申请如何利用说明书中提供的内容来提高专利检索的效率。
案例1:涉及一种数据抽取方法,针对现有技术从候选的抽取规则集合中选出一个稳定的抽取规则需要大量的历史页面信息,处理效率比较低且不具有普遍适用性的技术问题,提出了一种基于小样本半监督学习的网页数据抽取方法。本案中其小样本体现在其需要标注的从每个网站取得的具有相同模板的样本的数量很少,半监督体现在抽取规则的推导过程中既利用了标注样本还利用了非标注样本。
案例1权利要求1节选如下:
一种基于小样本半监督学习的网页数据抽取方法,包括如下步骤:(1)针对来自同一网页模板的相似性网页,选取一组样本网页,在其中一至三个样本网页上,由用户手工选择并标注出同一个需要抽取的数据项,该数据项称为标注数据项;(2)根据所述标注数据项在DOM树上所对应的节点,所述节点称为标注节点,根据标注数据项在对应的DOM树上的不同特征,构造一组关于该标注节点的初始候选特征集合;(3)基于所述样本网页,利用半监督式学习方法,采用第一算法确定初始候选特征集合中的最
小关联性特征,推导出一个对该数据项具有泛化能力的抽取规则;所述具有泛化能力的抽取规则是指:当一个数据项在不同网页上出现一些结构变化的情况下,抽取规则仍然能稳定正确的抽取出该数据项;(4)对一个网页上拟抽取的每一个数据项都进行步骤(3)所述的规则推导,得到该网页上关于这组数据项的一组抽取规则;(5)将这组推导出的抽取规则作用于一批待抽取数据的相似性网页,最终抽取出一批数据项。
分析上述案例可知,本案的发明点是基于小样本和半监督学习实现规则推导,然后利用规则进行抽取。基于该发明点可以提取出检索关键词“小样本”(small sample),“半监督”(semi-supervised),“抽取”(extract+),“规则”(rule?),然而
浅谈算法相关专利的非专利文献检索
邱川 姚晓斌
(国家知识产权局专利局专利审查协作四川中心 610213)
Digital archives    数字档案
129
使用上述全部关键词进行检索并不能得到合适的对比文件。在使用全部检索要素没有检索到对比文件的情况下,转而进行部分要素检索,只使用上述部分关键词进行检索,但是由于在网页数据的抽取技术领域上述关键词都是一些文献中经常使用的关键词,因此在检索结果中引入了大量的非目标文献,导致目标文献淹没在噪声文献中,从而也不能有效、快速的定位到对比文件。
针对上述情况,我们对检索策略进行了再次调整,本案中根据对说明书的分析,进一步确定了另外一些关键词。根据说明书中记载的算法确定了两个辨识度大的关键词“Vertex”以及“Apriori”,其中关键词“Apriori”是本申请算法步骤中使用一个已知算法,而“Vertex”为与本申请的算法进行性能比较的算法,这两个算法都是在数据抽取技术领域中辨识度很大的算法,如果在检索中使用了这些辨识度大的算法能够更加快速,有效定位目标对比文件。本案中算法验证的数据来源于www.imdb、vie.douban、shopping.yahoo等知名网站,因此根据算法验证数据的来源确定了“imdb”、“yahoo”、“douban”等关键词。基于本发明使用的算法提取的关键词“Vertex”以及“Apriori”,基于验证数据的来源审查员提取了关键词“imdb”、“yahoo”、“douban”等,分别使用这两类关键词与抽取”(extract+),“规则”(rule?)进行组合在google学术中进行检索很快就能定位到目标文献“Web-scale information extraction with vertex,Pankaj Gulhane 等,《2011 IEEE 27th International Conference on Data Engineering(ICDE)》”。
分析本案检索结果,对比文件使用了“小样本”,“半监督”的思想进行数据抽取,其小样本思想体现在其需
要标注的样本数量很少(平均标注数量为1.6),而半监督思想体现在抽取规则的推导过程中充分利用标注样本和非标注样本,但是对比文件全文都没有明确记载过“小样本”,“半监督”等关键词,因此虽然本申请的发明点在于“小样本”,“半监督”,但是使用这些关键词并不能检索到上述对比文件。这也是在算法检索领域可能会经常遇到的难题-发明构思并没有通过本领域所熟知的关键词的形式明确记载在对比文件中,在这种情况下如果不变换检索思路可能机会进入死胡同,导致漏检。
案例2:涉及一种视觉问答模型。视觉问答模型同时涉及图像和文本编码器,现有的视觉问答模型在对文本进行编码时,通常都是使用复杂模型作为文本编码器,因此视觉问答系统往往含有大量的需要训练的参数,这使得模型训练时间相当长。本案中提出了一种视觉问答模型,在模型准确率损失不大的前提上,从工程上来精简模型,提高模型的训练效率。
案例2权利要求1节选如下:一种视觉问答模型,其特征在于,所述视觉问答模型包括图像编码器和文本编码器;其中,所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理,以提取所述问题文本的语义表征向量;所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征;所述视觉问答模型还包括特征融合器和分类器;其中,所述特征融合器用于将图像特征向量和语义表征向量按照点乘运算的方式进行融合;所述分类器用于根据所述特征融合器输出的向量进行数值处理,以得到答案。
分析上述案件可知,本文的改进点在于使用池化处理代
替了原来的参数众多模型,从而提升了视觉问答模型训练的效
率。因此可以将“池化”确定为与本申请发明点相关的关键词。而视觉问答模型利用“池化”主要是实现获得文本的特征向量,也就是实现“词嵌入”,因此“词嵌入”也可以确定为本申请发明点相关的关键词。
在常规检索中,直接基于池化”和“词嵌入”进行检索,获得对比文件的难度较大,因此这两个词都是文本处理技术领域的常规关键词,检索结果中包含的噪音较多。基于对本申请的说明书内容的解读发现,现有技术中视觉问答模型在对文本进行编码时,一般都是通过word2vec或glove模型对问题文本进行处理,得到该问题文本对应的词向量序列,然后使用LSTM (Long  Short-Term Memory,长短期记忆网络)模型或Bi-LSTM(Bi-directional Long Short- Term Memory,双向LSTM)模型作为文本编码器,而且在本申请的实验验证环节中也是使用本申请中基于池化”的技术方案和现有技术中基于LSTM模型或Bi-LSTM模型的技术方案进行了对比。因此决定将“LSTM”或者“Bi-LSTM”以及“word2vec”或“glove”也作为检索关键词。最后基于检索关键词的英文表达“Embedding and Pool and(LSTM or Bi-LSTM)and(word2vec or glove)”在google学术中进行了检索,很快就检索到一篇公开本案发明构思的文献“Baseline Needs More Love:On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms,Dinghan Shen 等,《Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics》”。
本案在检索时,将本发明中使用的算法“word2vec”以及对比算法“LSTM”都作为检索关键词,将其与本案发明点相关的关键词进行组合,从而提高了检索的效率。
四、结语
在算法类专利申请的审查实践中进行非专利文献检索时,不能通过分类号进行检索,因此对比文件的筛选比较困难。而专利申请文件的说明书当中记载了大量的算法相关内容,可以根据说明书的内容对发明所涉及的算法、对比算法以及所使用的验证数据来提取关键字进行检索,从而提高非专利文献检索的效率。(第二作者对本文贡献等同于第一作者)
【参考文献】
[1]何永春.从发明构思谈检索[J].中国发明与专利,2012(S1)

本文发布于:2024-09-23 05:33:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/465228.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检索   算法   进行   关键词   模型   抽取   使用   对比
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议