人工智能在专利领域的探索

人工智能在专利领域的探索
产品建设
在AI专利检索产品的建设过程中,主要分四个过程来建设,分别是数据提取、模型训练、向量查询、结构化数据展现
数据提取:在1.2亿专利数据中,提取专利文献的标题、摘要、权利说明书、说明书内容进行数据的清洗和归一化处理,将数据做个关系处理,如:矛盾、近似;领域分类;概要提取;ner实体标注。
模型训练:采用tensorflow2.0、Transformer结构的bert的语言模型;通过微调、对专利数据进行二次学习和迭代训练,形成新的应用模型,在反复迭代中,对各layer内容进行比对,获取最适合专利语言特性最终特征。
向量查询:如何能快速在1.2亿的数据量中查询出来近似向量呢?在项目的建设中,在向量查询的这个技术点上,通过市面上的开源向量工具中评测,最终选中milvus作为向量查询工具。
结构化数据:利用ES、Mysql把结构化数据查询出来,通过后端的微服务和vue的前段显现到客户浏览器上。
产品的需求特点
在实际应用中,用户只需要术语几十字到300字之间的完整表达意思的一段话。通过蓝灯鱼AI模型转化成向量。在mivlus中查询出近似的1000条。然后在通过返回的近似分数和id。去关系数据库把全部信息全部取出展现给客户。在其中主要技术特点有:
 
高效性:在1.2亿的数据中,需要快速到最近似的千条数据,在期间不但要在接收请求、向量转换、召回排序、返回客户端,每个环节都对性能提出了要求。因此,我们对Nginx、es、mysql、spring cloud、mivlus 、Flask、等相关一系列工具进行针对性优化。
 
近似性:在自然语言语义理解中,机器需要向人一样去理解客户输入的一段话。理解其中的蕴涵关系,把近似的语义表达的概念给检索出来。
 
例如,输入一段专利的摘要:
 “一种利用石墨烯连续过滤吸附处理污水的工艺,其特征在于:它包括以下步骤:a.设置含填料及石墨烯材料的过滤吸附混合物层,所述过滤吸附混合物层用铁填料、锰填料和多层石墨烯以2:1:2的比例混合,或者采用铝填料、氧化锰填料、氧化铁填料、石墨烯改性材料以1:0.5:1.5:1的比例混合;b.输入污水,污水经过过滤吸附混合物层;c.过滤吸附混合物层的石墨烯材料过滤、吸附污水中的污染物,石墨烯材料结合金属填料和/或金属氧化物填料进行微电解反应;d.出水;所述石墨烯材料为多层石墨烯、石墨烯改性材料中的一种或者两种的混合物;所述污水的pH值为4~6。”
 
机器需要理解这段话中几个要点:
1. 该技术是处理污水领域的技术。
2. 使用石墨烯连续吸附的技术方式。
3. 还包括了铝填料、氧化锰填料、氧化铁填料等材料。
4. 做了微电解反应。
5. 石墨烯材料是多层材料。
6. 处理污水值是pH值为4~6。
因此,按照应用场景要求,我们最低要求要查到本领域近似的技术。放宽一点,其他领域该技术是否是一项通用技术,严格一点,要解读出技术特征的关键词并寻余弦近似词,把各个特征和技术相结合,运用隐马尔科夫、欧氏距离算法,出最终近似结果。再按照权重大小次第计算,形成最终结果。

本文发布于:2024-09-20 13:25:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/804891.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:填料   数据   向量   专利   技术   石墨   进行   污水
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议