(12)发明专利说明书 | ||
(10)申请公布号 CN 114564935 A (43)申请公布日 2022.05.31 | ||
权利要求说明书 说明书 幅图 |
本发明公开了一种基于语义的文档查重方法及装置,可应用于人工智能技术领域,该方法包括:生成文档集的语义向量集,所述文档集包括待查重文档和多个历史文档;对语义向量集进行向量量化,获得压缩后的向量集;基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,将所述与待查重文档距离最近的历史文档,确定为相似文档;对待查重文档句子分割,获得第一句子集合,对相似文档进行句子分割,获得第二句子集合;对第一句子集合和第二句子集合中的句子进行两两组合,获得多组句子对;从多组句子对中,筛选出相似句子对。本发明可以实现对文档进行查重,效率高。 | |
法律状态公告日 | 法律状态信息 | 法律状态 |
2022-05-31 | 公开 | 发明专利申请公布 |
2022-06-17 | 实质审查的生效IPC(主分类):G06F40/194专利申请号:2022101823462申请日:20220225 | 实质审查的生效 |
本文发布于:2024-09-21 11:14:15,感谢您对本站的认可!
本文链接:https://www.17tex.com/tex/2/440629.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |