利用短语抽取系统建设基于语义理解的知识库

东北大学
硕士学位论文
双声卡利用短语抽取系统建设基于语义理解的知识库
姓名:靳鹏
申请学位级别:硕士
专业:计算机软件与理论
指导教师:张俐
20040101
东北大学硕士学位论文摘要利用短语抽取系统建设基于语义理解的知识库
摘要
汉语分析技术是中文信息处理的基础。目前,汉语词法分析技术已比较成熟,但在词法分析之上的短语分析及句法分析仍然很不成熟。
究其原因,主要在于汉语是一种意合语言,语言表达上缺乏相应的语义结构信息,在句法层面上难以得到比较合适的规律,从而很难进行深入的分析。
但是,汉语的短语本位语法理论认为:词组和句子的构造原则基本一致。
词组被包含在句子里时是词组,独立时就是句子。
因此,在句法分析领域,采用分而制之的处理思路,比较而言,更加符合汉语语法语义的基本结构特征。进而,针对汉语短语结构的组块分析技术得到了越来越广泛的应用。
在汉语的范畴内,不加严格限制的说,组块就是短语或者词组。所谓组块分析,其基本思想是将完整的句法分析分为两个过程:
首先是组块的识别:从句子中识别出组块;
其次是组块之间关系的判断;将组块结合成句子。
肝素钠提取技术本文介绍了一种基于层叠有限状态自动机的组块分析方法,理论上可以按层次分析出句法结构树,或者句法结构森林。
在组块的识别过程中,主要依靠对于汉语短语的主观语言经验,定义分析规则,同时利用分析预处理阶段得到的统计信息计算出局部互信息,用以验证规则匹配后得到的结果。此外,这种组块分析方法还把判断组块之间关系的工作融合在组块的识别过程中,当较高层次的组块被抽取出来以后,其内部较低层次组块之间的关系就确定了。
对于本分析系统而言,最重要的子系统是定义规则和确定规则运行序列的语言知识加工模块。本文设计了一些算法策略,用来考察和筛选运行效果较好的规则,同时优化规则运行的序列。这对提高分析器的分析质量有很大的帮助。思远双N
本文另一个重要内容是定义了一种二元结构处理不同条件下的短语标注,
这种处理方法在实践上大大减少了规则的数量,使得对于规则以及规则作用序列的优化成为可能。
最后,本文还设计了一种以上述分析器为核心,基于语义理解的知识库系统,它定义了一系列数据结构,用来模拟真实世界的概念表达形式以及概念之间的关系。并以此来记录加入了句法结构标记的中文文本中的语义信息。这必将为自然语言处理的语义研究做出一定的贡献。
关键词:句法分析短语抽取组块分析互信息知识库语义理解
东北大学硕士学位论文AbstractBuiltaKBSBasedonSemanticsbyChinesePhrase中国涂料论坛
ExtractionSystem
Abstract
ChineseanalysisisthebaseofChineseinformationtechnique.Now,itisbecomingsucceedinChineseaccidenceanalyzing,butthephraseandsyntaxanalysisbuiltonithavebeenf.盯tomaturefor叩plication.
ThereasonisthattheChineseisalanguageofnostructure.TherearefewsignalsforthesyntaxstructureinaChinesesentence,andthereforetherearefewproperrulesforthesyntaxinacolrlrnonsituation.Itisverydifficultforadeeplyanalysis.ButthereisatheorythatlookstheChinesephrase嬲astandardforthesyntaxanalysis.Ithassaidthatthephrasea
ndsentencearesameinthestructureprincipleanditiscalledaphrasewhenitisacomponentofasentence,oritisjustasentence.SoitmoreanswerforthemostessemialcharactersofChinesestructurethatanalyzestheChinesesentencebydividingandruling.ThechunkparsingtechniqueforChinesesentencehasbecomeamainstream.
11Iebaseidealofchunkparsingisthatdivideasyntaxanalyzingfortwosteps:
Thefirstischunkidentifying.whichdistinguishedthechunkfromasentence;
Thesecondisdefiningtherelationbetweenthechunks.
InChinese,usuallythechunkisjustaphraseifthereisnostrictlimitingHerewehaveenlargedthedefi
ningfieldofchunk.Inthispaper,wegetamethodoffinitestatecascadeforchunkparsingonChinesetext.Itcallgetthetreeorforestofsyntaxstructureintheory.
Forthechunkidentiflying,wemustdefinetherulesforparsingbasedonoursubjectiveexperienceandpracticeofChinese.AndatthesametimewehavetocheckoutthemistakesbyusingthemutualinformationcomputedfromthestatisticdataCOlliefromtheobjectiveChinesetextmaterial.
Forthechunkrelation,wedefinetherelationofchunkswhentheyareidentified.Infact,whenaupperlevelphrasewasidentified,therelationsbetweenthelowerphrasesinsideitmusthavebeenclear.
Toouranalyzingsystem,themostimportantsubsyst
emistheChineselearningmachiningmodulethatdefinestherulesforparsingandgetstheproperorderfor
东北大学硕士学位论文AbstractrunningInthismodule,wedesignedaalgorithmstrategytoselecttheproperrulesinitsproperrunningorder.Thiswillhelptheanalyzergreatly
水翼Thenextimportantcontentinthispaperiswehavedefinedthedualisticstructureastllephrase1abelsetwhenitusedinthe
di髓rconditionThisdisposalcandecreasetheamountoftheexpressionforrulesgreatlyandthiswillmakeitpossiblethatoptimizingtherulesandtheirrunningorders.
Atlast,wedesignedaKBS,whichisarepositorysystembasedontheanalyzerinpracticeandsemanticsinarchitectideaIthasdefinedsomedatastructureforsimulatingtheconceptexpressionfromtherealworldandtherelationsbetweentheseconcepts.AnditcanrecordthesemanticinformationfromthoseChinesetextshavingbeenlabeledthesyntaxinformationThiswillcontributethesemanticresearchinMP
Keywords:syntaxanalyzing
mutualinformationdrawoutphrasechunkparsingKBSsemantics
IV
东北大学硕士学位论文声明
声明
渝安集团
本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其它人己发表或撰写过的研究成果,
也不包括本人为获得其它学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
本人签名:
日期:

本文发布于:2024-09-20 22:54:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/379379.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:组块   规则   分析   语义   得到   学位
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议