知识图谱科普文

知识图谱科普⽂
⽬录
1. 知识图谱的研究⽬标与意义
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联⽹的信息表达成更接近⼈类认知世界的形式,提供了⼀种更好地组织、管理和理解互联⽹海量信息的能⼒。知识图谱给互联⽹语义搜索带来了活⼒,同时也在智能问答中显⽰出强⼤威⼒,已经成为互联⽹知识驱动的智能应⽤的基础设施。知识图谱与⼤数据和深度学习⼀起,成为推动互联⽹和⼈⼯智能发
展的核⼼驱动⼒之⼀。
知识图谱技术是指知识图谱建⽴和应⽤的技术,是融合认知计算、知识表⽰与推理、信息检索与抽取、⾃然语⾔处理与语义 Web、数据挖掘与机器学习等⽅向的交叉研究。知识图谱于 2012 年由⾕歌提出并成功应⽤于搜索引擎,知识图谱属于⼈⼯智能重要研究领域——知识⼯程的研究范畴,是利⽤知识⼯程建⽴⼤规模知识资源的⼀个杀⼿锏应⽤。94 年图灵奖获得者、知识⼯程的建⽴者费根鲍姆给出的知识⼯程定义——将知识集成到计算机系统从⽽完成只有特定领域专家才能完成的复杂任务。在⼤数据时代,知识⼯程是从⼤数据中⾃动或半⾃动获取知识,建⽴基于知识的系统,以提供互联⽹智能知识服务。⼤
数据对智能服务的需求,已经从单纯的搜集获取信息,转变为⾃动化的知识服务。我们需要利⽤知识⼯程为⼤数据添加语义/知识,使数据产⽣智慧(smart data),完成从数据
到信息到知识,最终到智能应⽤的转变过程,从⽽实现对⼤数据的洞察、提供⽤户关⼼问题的答案、为决策提供⽀持、改进⽤户体等⽬标。知识图谱在下⾯应⽤中已经凸显出越来越重要的应⽤价值:
-知识融合:当前互联⽹⼤数据具有分布异构的特点,通过知识图谱可以对这些数据资源进⾏语义标注和链接,建⽴以知识为中⼼的资源语义集成服务;
-语义搜索和推荐:知识图谱可以将⽤户搜索输⼊的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显⽰出满⾜⽤户需求的结构化信息内容,⽽不是互联⽹⽹页;
-问答和对话系统:基于知识的问答系统将知识图谱看成⼀个⼤规模知识库,通过理解将⽤户的问题转化为对知识图谱的查询,直接得到⽤户关⼼问题的答案;
-⼤数据分析与决策:知识图谱通过语义链接可以帮助理解⼤数据,获得对⼤数据的洞察,提供决策⽀持。
架空电线2. 知识⼯程的发展历程
知识图谱的发展是⼈⼯智能重要分⽀知识⼯程在⼤数据环境中的成功应⽤。回顾知识⼯程四⼗年来发展历程,总结知识⼯程的演进过程和技术进展,体会知识⼯程为⼈⼯智能所做出的贡献和未来⾯临的挑战,可以将知识⼯程分成五个标志性的阶段,前知识⼯程时期、专家系统时期、万维⽹ 1.0 时期,体智能时期以及知识图谱时期。
图 1. 知识⼯程发展历程
1950-1970 时期:
图灵测试⼈⼯智能旨在让机器能够像⼈⼀样解决复杂问题,图灵测试是评测智能的是⼿段。这⼀阶段主要有两个⽅法:符号主义和连结主义。符号主义认为物理符号系统是智能⾏为的充要条件,连结主义则认为⼤脑(神经元及其连接机制)是⼀切智能活动的基础。这⼀阶段具有代表性的⼯作是通⽤问题求解程序(GPS):将问题进⾏形式化表达,通过搜索,从问题初始状态,结合规则或表⽰得到⽬标状态。其中最成功应⽤是博弈论和机器定理证明等。这⼀时期的知识表⽰⽅法主要有逻辑知识表⽰、产⽣式规则、语义⽹络等。这⼀时代⼈⼯智能和知识⼯程的先驱 Minsky,Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、⼈⼯智垂直搜索产品
能语⾔和通⽤问题求解和形式化语⾔⽅⾯的杰出⼯作分别获得了 1969 年、1971年、1975 年的图灵奖。
1970-1990 时期:
专家系统通⽤问题求解强调利⽤⼈的求解问题的能⼒建⽴智能系统,⽽忽略了知识对智能的⽀持,使⼈⼯智能难以在实际应⽤中发挥作⽤。 70 年开始,⼈⼯智能开始转向建⽴基于知识的系统,通过知识库+推理机实现智能,这⼀时期涌现出很多成功的限定领域专家系统,如MYCIN 医疗诊断专家系统、识别分⼦结构的DENRAL 专家系统以及计算机故障诊断 XCON 专家系统等。 94 年图灵奖获得者Feigenbaum 教授在 70 年代提出知识⼯程的定义,确⽴了知识⼯程在⼈⼯智能中的核⼼地位。这⼀时期知识表⽰⽅法有新的演进,包括框架和脚本等。 80 年代后II期出现很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以环二肽
处理的知识。
1990-2000 时期:万维⽹ Web 1.0
在 1990 年代到 2000 年,出现了很多⼈⼯构建⼤规模知识库,包括⼴泛应⽤的英⽂ WordNet, 采⽤⼀阶谓词逻辑知识表⽰的 Cyc 常识知识库,以及中⽂的Hownet。Web1.0 万维⽹的产⽣为⼈们提供了⼀
个开放平台,使⽤ HTML 定义⽂本的内容,通过超链接把⽂本连接起来,使得⼤众可以共享信息。W3C 提出的可扩展标记语⾔ XML,实现对互联⽹⽂档内容的结构通过定义标签进⾏标记,为互联⽹环境下⼤规模知识表⽰和共享奠定了基础。这⼀时期还提出了本体的知识表⽰⽅法。
2000-2006 时期:体智能 Web 2.0
Web1.0 万维⽹的出现使得知识从封闭知识⾛向开放知识,从集中知识成为分布知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产⽣更多的知识⽽⾮完全由固定⼈⽣产。这个过程中出现了体智能,最典型的代表就是,实际上是⽤户去建⽴知识,体现了互联⽹⼤众⽤户对知识的贡献,成为今天⼤规模结构化知识图谱的重要基础。也是在 2001 年,万维⽹发明⼈、2016 年图灵奖获得者 Tim Berners-Lee 提出语义 Web的概念,旨在对互联⽹内容进⾏结构化语义表⽰,并提出互联⽹上语义标识语⾔RDF(资源描述框架)和 OWL(万维⽹本体表述语⾔),利⽤本体描述互联⽹内容的语义结构,通过对⽹页进⾏语义标识得到⽹页语义信息,从⽽获得⽹页内容的语义信息,使⼈和机器能够更好地协同⼯作。
2006 年⾄今:知识图谱
“知识就是⼒量”,将万维⽹内容转化为能够为智能应⽤提供动⼒的机器可理解和计算的知识是这⼀时期的⽬标。从 2006 年开始,⼤规模类富结构知识资源的出现和⽹络规模信息提取⽅法的进步,
使得⼤规模知识获取⽅法取得了巨⼤进展。与 Cyc、WordNet 和HowNet 等⼿⼯研制的知识库和本体的开创性项⽬不同,这⼀时期知识获取是⾃动化的,并且在⽹络规模下运⾏。当前⾃动构建的知识库已成为语义搜索、⼤数据分析、智能推荐和数据集成的强⼤资产,在⼤型⾏业和领域中正在得到⼴泛使⽤。典型的例⼦是⾕歌收购 Freebase 后在2012 年推出的知识图谱(Knowledge Graph),Facebook 的图谱搜索,MicrosoftSatori 以及商业、⾦融、⽣命科学等领域特定的知识库。最具代表性⼤规模⽹络知识获取的⼯作包括 DBpedia, Freebase, KnowItAll,WikiTaxonomy 和 YAGO,以及 BabelNet, ConceptNet, DeepDive, NELL, Probase,Wikidata, 等。这些知识图谱遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数⼗亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。现在我们看知识图谱的发展和应⽤状况,除了通⽤的⼤规模知识图谱,各⾏业也在建⽴⾏业和领域的知识图谱,当前知识图谱的应⽤包括语义搜索、问答系统与聊天、⼤数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出⼴泛的应⽤价值,⽽更多知识图谱的创新应⽤还有待开发。
3. 知识图谱技术
⼈们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将⼈们对世界认知联系在⼀起的纽带。知识图谱以结构化的形式描述客观世界中概念、实体及其关系。实体是客观世界中的事物,概念是对具有相同属性的事物的概括和抽象。本体是知识图谱的知识表⽰基础,可以形式化表⽰
为,O={C,H,P,A,I},C 为概念集合,如事物性概念和事件类概念,H 是概念的上下位关系集合,也称为 Taxonomy 知识,P 是属性集合,描述概念所具有的特征,A 是规则集合,描述领域规则,I 是实例集合,⽤来描述实例-属性-值。Google 于 2012年提出知识图谱,并在语义搜索中取得成功应⽤。知识图谱可以看做是本体知识表⽰的⼀个⼤规模应⽤,Google 知识图谱的知识表⽰结构主要描述客观存在实体和实体的关系,对于每个概念都有确定的描述这个概念的属性集合。知识图谱技术是知识图谱建⽴和应⽤的技术,是语义 Web、⾃然语⾔处理和机器学习等的交叉学科。我们将知识图谱技术分为三个部分 : 知识图谱构建技术、
知识图谱查询和推理技术,以及知识图谱应⽤。在⼤数据环境下,从互联⽹开放环境的⼤数据中获得知识,⽤这些知识提供智能服务互联⽹/⾏业,同时通过互联⽹可以获得更多的知识。这是⼀个迭代的相互增强过程,可以实现从互联⽹信息服务到智能知识服务的跃迁。
3.1 知识图谱构建
知识表⽰与建模
知识表⽰将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握⼤量的知识,特别是常识知识才能实现真正类⼈的智能。从有⼈⼯智能的历史开始,就有了知识表⽰的研究。知识图谱的知识表⽰以结构化的形式描述客观世界中概念、实体及其关系,将互联⽹的信息表达成更接近
⼈类认知世界的形式,为理解互联⽹内容提供了基础⽀撑。
知识表⽰学习万维网
随着以深度学习为代表的表⽰学习的发展,⾯向知识图谱中实体和关系的表⽰学习也取得了重要的进展。知识表⽰学习将实体和关系表⽰为稠密的低维向量,实现了对实体和关系的分布式表⽰,可以⾼效地对实体和关系进⾏计算,、缓解知识稀疏、有助于实现知识融合,已经成为知识图谱语义链接预测和知识补全的重要⽅法。由于知识表⽰学习能够显著提升计算效率,有效缓解数据稀疏,实现异
质信息融合,因此对于知识库的构建、推理和应⽤具有重要意义,值得⼴受关注、深⼊研究。
实体识别与链接
实体是客观世界的事物,是构成知识图谱的基本单位(这⾥实体指个体或者实例)。实体分为限定类别的实体(如常⽤的⼈名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。实体识别是识别⽂本中指定类别的实体。实体链接是识别出⽂本中提及实体的词或者短语(称为实体提及),并与知识库中对应实体进⾏链接。实体识别与链接是知识图谱构建、知识补全与知识应⽤的核⼼技术。实体识别技术可以检测⽂本中的新实体,并将其加⼊到现有知识库中。实体链接技术通过发现现有实体在⽂本中的不同出现,可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类⼈推理和⾃然语⾔理解提供知识基础。
实体关系学习
实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间的某种联系,实体关系学习就是⾃动从⽂本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。实体关系抽取分类预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,⽐如知识图谱中定义好的关系类别,如上下位关系、国家—⾸都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别,由系统⾃动从⽂本中发现并抽取关系。实体关系识别是知识图谱⾃动构建和⾃然语⾔理解的基础。
2-甲基吡啶事件知识学习
事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。⽬前已存在的知识资源(如⾕歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应⽤,事件有不同的描述范畴。⼀种将事件定义为发⽣在某个特定的时间点或时间段、某个特定的地域范围内,由⼀个或者多个⾓⾊参与的⼀个或者多个动作组成的事情或者状态的改变。⼀种将事件认为是细化了的主题,是由某些原因、条件引起,发⽣在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将⾮结构化⽂本⽂本中⾃然语⾔所表达的事件以结构化的形式呈现,对于知识表⽰、理解、计算和应⽤意义重⼤。知识图谱中的事件知识隐含互联⽹资源中,包括已
有的结构化的语义知识、数据库的结构化信息、半结构化的信息资源以及⾮结构化资源,不同性质的资源有不同的知识获取⽅法。
3.2 知识图谱查询和推理计算
知识存储和查询
知识图谱以图(Graph)的⽅式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式⽀持对⼤规模图数据的有效管理,实现对知识图谱中知识⾼效查询。因为知识图谱的结构是复杂的图结构,给知识图谱的存储和查询带来了挑战。当前⽬前知识图谱多以三元存在的 RDF 形式进⾏存储管理,对知识图谱的查询⽀持 SPARQL 查询。
知识推理
知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推理可以分为基于符号的推理和基于统计的推理。在⼈⼯智能的研究中,基于符号的推理⼀般是基于经典逻辑(⼀阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(⽐如说缺省逻辑)。基于符号的推理可以从⼀个已有的知识图谱推理出新的实体间关系,可⽤于建⽴新知识或者对知识图谱进⾏逻辑的冲突检测。基于统计的⽅法⼀般指关系机器学习⽅法,即通过统计规律从知识图谱中学习到新的实体间关系。知识推理在知识计算中具有重要作⽤,如知识分类、知识校验、知识链接预测与知识补全等。
3.3 知识图谱应⽤
通⽤和领域知识图谱
知识图谱分为通⽤知识图谱与领域知识图谱两类,两类图谱本质相同,其区别主要体现在覆盖范围与使⽤⽅式上。通⽤知识图谱可以形象地看成⼀个⾯向通⽤领域的结构化的百科知识库,其中包含了⼤量的现实世界中的常识性知识,覆盖⾯⼴。领域知识图谱⼜叫⾏业知识图谱或垂直知识图谱,通常⾯向某⼀特定领域,可看成是⼀个基于语义技术的⾏业知识库,因其基于⾏业数据构建,有着严格⽽丰富的数据模式,所以对该领域知识的深度、知识准确性有着更⾼的要求。
语义集成
语义集成的⽬标就是将不同知识图谱融合为⼀个统⼀、⼀致、简洁的形式,为使⽤不同知识图谱的应⽤程序间的交互提供语义互操作性。常⽤技术⽅法包括本体匹配(也称为本体 映射)、实例匹配(也称为实体对齐、对象共指消解)以及知识融合等。语义集成是知识图谱研究中的⼀个核⼼问题,对于链接数据和知识融合⾄关重要。语义集成研究对于提升基于知识图谱的信息服务⽔平和智能化程度,推动语义⽹以及⼈⼯智能、数据库、⾃然语⾔处理等相关领域的研究发展,具有重要的理论价值和⼴泛的应⽤前景,可以创造巨⼤的社会和经济效益。
语义搜索
科普论文知识图谱是对客观世界认识的形式化表⽰,将字符串映射为客观事件的事务(实体、事件以及之间的关系)。当前基于关键词的搜索技术在知识图谱的知识⽀持下可以上升到基于实体和关系的检索,称之为语义搜索。语义搜索利⽤知识图谱可以准确地捕捉⽤户搜索意图,借助于知识图谱,直接给出满⾜⽤户搜索意图的答案,⽽不是包含关键词的相关⽹页的链接。
基于知识的问答
问答系统(Question Answering, QA)是指让计算机⾃动回答⽤户所提出的问题,是信息服务的⼀种⾼级形式。不同于现有的搜索引擎,问答系统返回⽤户的不再是基于关键词匹配的相关⽂档排序,⽽是精准的⾃然语⾔形式的答案。华盛顿⼤学图灵中⼼主任 Etzioni 教授2011 年曾在 Nature 上发表⽂章《Search Needsa Shake-Up》,其中明确指出:“以直接⽽准确的⽅式回答⽤户⾃然语⾔提问的⾃动问答系统将构成下⼀代搜索引擎的基本形态”[Etzioni O., 2011]。因此,问答系统被看做是未来信息服务的颠覆性技术之⼀,被认为是机器具备语⾔理解能⼒的主要验证⼿段之⼀。

本文发布于:2024-09-20 15:43:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/716235.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:知识   图谱   实体   关系   智能   语义   互联
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议