基于es的特征向量检索专利

基于es的特征向量检索专利
基于Elasticsearch(ES)的特征向量检索专利,可以按照以下步骤进行
1. 数据预处理:首先,需要从国家知识产权局购买原始的专利数据。这些数据需要按照申请号进行分类,并存放在不同的文件夹中。每个申请号文件夹下的数据可以包括XML文件、PDF、图片等。
2. 数据导入:将处理过的专利数据导入到Elasticsearch中。这通常涉及到将数据转化为JSON格式,并使用ES的API进行导入。
3. 建立索引:在ES中为专利数据建立索引。这个索引将用于后续的检索。
4. 特征提取:从专利数据中提取特征。这些特征可以包括专利名称、摘要、权利要求、说明书、法律状态、申请日期、公开日期、授权日期、申请号、公开号、授权号、分类号(外观分类、国际分类)、申请人、当前专利人、发明人、代理人、代理机构等。
5. 特征向量生成:将提取出的特征转化为向量。这可以通过使用诸如TF-IDF(Term Frequency-Inverse Document Frequency)等方法来完成。
6. 相似度计算:对于每个查询的特征向量,计算它与所有专利特征向量的相似度。这可以通过余弦相似度或者欧氏距离等方法来完成。
7. 结果排序:根据相似度对检索结果进行排序,返回最相似的专利。
8. 结果反馈:将检索结果反馈给用户,用户可以根据需要对检索结果进行进一步的处理或分析。
请注意,这是一个大致的流程,具体的实现可能会根据实际的需求和数据进行调整。同时,由于专利数据的特殊性,可能需要考虑一些额外的因素,例如数据的保密性、检索的准确性等。

本文发布于:2024-09-21 20:23:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/416496.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   专利   检索   进行   结果   需要   分类   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议