企业内部文档智能语义搜索方案

企业内部文档智能语义搜索方案
哈特曼光阑1.背景和意义
近年来,企业文档管理和检索方式经历了分门别类管理,数字信息化管理和全文搜索引擎三大阶段,使得企业利用文档信息的效率不断提高。但是随着信息化程度的不断提高,尤其是大数据数字浪潮的思维深入发展的背景下,目前信息化企业文档管理以及基于关键词的全文检索技术仍旧存在诸多的短板和问题,影响了企业自身知识利用价值的实际落地应用,目前基于关键词检索的搜索技术存在信息丢失、返回信息太多、信息无关等局限性,主要症结体现在如下方面:
1.基于关键词的检索,对于绝大部分人来说存在一定的应用门槛,如何选取适当
的关键词来到需要的信息,需要具备一定的搜索技巧和对业务问题的清晰认识。更多的时候,简单的关键词搜索返回的命中信息太多,还是需要人工阅读筛选真正有价值的内容。
2.普通全文检索缺少真实世界的关联性,联想和类比是人类智慧过程的两种重
要方法。在普通全文检索中,用户获得的还是碎片化的信息,最终依然需要进行大量的细致阅读和人工整理过程,从而形成对查询问题的认识。需要更智能的信息化方法,帮助人工建立关联分析体系,提高知识服务效能。
3.在海量的企业文档信息中,存在大量的隐性信息,这些隐性信息作为信息单元
本身可能价值较低,也不好加以利用,或者虽然有价值,但是挖掘代价高,理解难度大。因此长期以来,在企业文档管理中,得到大量应用的都是那些显性信息。如何利用好隐性信息,让企业的知识得到最大化的再利用,产生新的源源不断的价值,是大数据的核心体现。
面向企业文档管理现有信息化方案的不足和需求,本方案拟以自然语言理解与人工智能技术为基础,基于SaCa·DeepConig知识服务平台产品实现文档管理中的智能语义搜索,对搜索结果进行更精确的知识挖掘,建立碎片信息间的分类体系与语义关联,发现利用隐性信息。为企业提供更加有效的知识管理服务系统。
2.企业文档搜索方案功能特性
2.1 语义搜索
普通基于关键词匹配的全文搜索并不具备语义理解的功能。比如在全文搜索引擎中输入"计算机"为关键词,在返回结果中不会包含只有"电脑"这种表述的文档资料。在实际应用中,存在大量的同义词和近义词。通过DeepCogni的语义扩展算法可以搜索到被搜索词扩展之后的相关内容。例如搜索"java读文件"时,通过语义扩展可以搜索到"java读取文件"、"java读写文件""java文件读写操作"等内容。
葡萄架势
图1相关词分析
基于语义的搜索引擎使搜索引擎的工作不再拘泥于用户输入的关键词,而是能够对这些关键词进行语义计算。通过在语义的层面上把文档中关键词和其映射的概念进行关联,对文档信息所蕴含的语义信息进行充分挖掘,同时把用户的检索要求转换成相应的语义表示。
借助语义搜索功能,企业人员在检索文档文件时,不再会精挑细选关键词组合,只需要准确表达自己的含义,相关的信息词汇,系统进行智能扩充,查询所有符合用户语义期待的命中结果。笔式摄像机
图2基于内容的搜索关键词扩展和智能提示
2.2关联发现
通过对文档资料进行语义标注,形成语义相似度聚类特征、业务概念和业务事件三类对文档的语义标注,以语义标注为线索,可以组织文档间的多种关联关系。在用户检索查阅文档文件时,提供语义相关,概念相关和事件相关的文档检索相关列表,供用户比对查阅,帮助用户形成网络化的综合分析环境,协助对隐性知识的发现和整理,有助于形成新的发现。
图3文件的复杂关联
如某业务员在查阅本部门之前的项目文档,进行经验总结,检索系统通过事件关联,
发现与项目事件互有影响的其他项目文档;通过概念关联,发现与本项目共享资源的其他技术文档;通过语义相似性分类标签,发现其他部门实施的类似项目。从而帮助业务员更加全面的获取了相关的经验知识,有助于从归档知识中产生新的价值。
2.3智能推荐
木薯干
文档语义搜索引擎,通过用户搜索记录和业务资料的语义特征,计算用户行为画像,形成用户的兴趣图谱,将用户关心的分类、概念和事件关联的文档相关度提升,使得用户更容易获得自己感兴趣的文档检索内容。用户使用文档智能搜索的频次越多,历史越丰富,系统能够越好的理解用户的查询意图,熟悉用户的使用习惯。从而非用户提供更加准确的检索服务。
2.4自然语言交互
图4自然语言交互取代高级搜索
用户检索文档不仅仅可以通过关键词或分类进行检索,也可以通过普通的自然对话形式进行文档检索,语义引擎根据用户输入内容,通过语义计算,给出匹配度最高的知识答案,和文档资料搜索结果。实现更高效的知识管理服务结果。自然语言查询使得检索和搜索更加人性化,信息查询变得更加方便、快速。
如图4用户查询,2017年上半年本部门实施的建设项目都有哪些。系统通过语义理解可以给出2017年上半年的建设项目名称列表和相关文档资料链接列表。而不需用户通过高级搜索接口逐项定义。
2.5结构化查询功能
对于企业文档搜索,在越来越多的搜索场景中需要类似于SQL的结构化查询,比如预先构建搜索文档的作者,机构,领域或者创作时间等等信息,用户搜索时可以通过鼠标点选的非键盘输入方式来选定搜索范围以及排序策略。在一些专业领域甚至可以通过搜索引擎引入一些简单计算来帮助用户搜索到精确结果,比如在医疗领域,医生想要搜索到肿物大于某个限定大小的肿瘤病例。
图5病例搜索中结构化查询实例
2.6搜索频道分类
企业中文档数量众多,在用户对搜索内容有一定了解的前提下,查指定内容时,如果可以让用户人工指定频道分类,那么就可以帮助用户获得更加精确的搜索结果。DeepCogni语义搜索引擎可以帮助用户构建面向搜索的频道分类,并且对于没有分类信息的文档可以利用DeepCogni知识服务平台中的高质量分类模块帮助企业构建文档频道分类信息。无线发射电路
图6 DeepCogni语义搜索引擎的频道分类信息
2.7搜索权限管理
对于大型企事业单位,庞大的组织架构以及规范的等级制度能保证组织的顺利运作。而对于组织内的文档来说,不同职位的员工可以查看的范围也是不同的。因此,组织内的搜索服务同样应该通过完善的搜索权限来进行管理。DeepCogni语义搜索引擎拥有完善的权限管理体系,可以自己构建用户管理模块,也可以直接复用已经存在公司自己OA等管理系统的用户体系。
图7 DeepCogni语义搜索引擎的权限管理流程图
灭茬机2.8敏感词过滤
在一些特定的搜索引擎中,敏感词过滤作为特定组件,对整个搜索引擎服务起着敏感信息过滤和不良信息监控的作用。DeepCogni知识服务平台中的敏感词识别模块已经在媒体行业得到广泛认可。模块通过独立研发的计算式过滤算法可以快速准确的识别各类敏感词以及敏感词变种。敏感词识别模块可以作为可选插件形式被集成到语义搜索引擎服务中。
3 技术解决方案
3.1搜索引擎服务流程
DeepCogni语义搜索引擎由搜索API、核心引擎、可选插件、开源引擎项目以及数据来源5个部分组成。
搜索API中包括主搜索接口、下拉列表接口、推荐搜索接口、智能提示接口、结构化搜索接口以及频道搜索接口6个接口组成。接口服务可以按照实际业务系统需求进行配置,各个接口之间耦合度极低,可以随意搭配接口组合满足业务需要。
核心引擎中包括NLP模型、频道管理、语义搜索、排序策略、关联发现、白名单设置、权限管理、结构化索引、智能推荐、输入提示、输入纠错、增量加载,总共12个功能点。在一般企事业的搜索场景中,当前核心引擎中的模块可以满足99%的业务需求,并且搜索服务可以保证在多功能点同时运转的过程中也能做到毫秒级的应答以及足够的并发。如果客户除此之外还对搜索服务有特殊要求,可以定制开发。
可选插件中包括敏感词识别、文章分类、统计分析、语义标注、热点发现、热词分析等模块。所有可选插件功能都是DeepCogni知识服务平台中的功能特性,可以保证和DeepCogni语义搜索引擎的无缝对接,并且这些功能点都在实际的业务场景中,性能和效果都得到了充分验证。

本文发布于:2024-09-21 21:42:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/113434.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:搜索   语义   文档
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议