一种基于潜在语义分析的申请单智能解析方法

著录项
  • CN201510730573.4
  • 20151102
  • CN105389306A
  • 20160309
  • 国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司福州供电公司;济南真正科技有限公司
  • 夏圣峰;詹仁俊;陈宇星;葛清;田学刚
  • G06F17/27
  • G06F17/27

  • 福建省福州市鼓楼区五四路257号
  • 福建(35)
  • 福州展晖专利事务所(普通合伙)
  • 林天凯
摘要
本发明公开了一种基于潜在语义分析的申请单智能解析方法,本发明采用潜在语义分析方法,一方面滤除了申请单中不相关的词,降低了分析空间的大小,在滤除的过程中与电力系统本身没有关系,纯粹是对自然语言的分析。在被缩小的分析空间的基础上进行配电网专业词库的最大化模糊匹配,从而形成了申请单的智能解析。它摆脱了传统的精确匹配的模式,提高解析的成功率,为更高层的应用打下了技术基础。
权利要求

1.一种基于潜在语义分析的申请单智能解析方法,其特征在于,具体方法为:(1)建立申请单内容的基础模型:从历史数据中采集申请单的样本,通过对样本进行人工分析,生成申请单内容的词语特征集合和语义模型集合;(2)、创建矩阵,奇异值分解:在计算机中自动生成词语特征集合和语义模型集合的关系矩阵,其中每一行表示词语在语句模型中出现的次数,每一列表示语句模型中有哪些词语:然后对该矩阵进行奇异值分解,左矩阵X中的每一行表示词语的特性,右矩阵Y中的每一列表示语句模型的特性,中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模型的潜在相关性,数值越接近表示越相关;(3)对给定的申请单内容先用分词算法进行分词并提取词语特征,用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语句模型对申请单内容进行精确的语义识别。

说明书
技术领域

本发明涉及一种申请单输入方法,特别是一种基于潜在语义分析的申请单智能解析方法。

当前配电网中的申请单在进行输入时,基本都是采用手工输入的方式,输入时随意性较大,而在一些智能应用中,必须对申请单进行智能解析,让计算机准确的理解申请单中的操作目的和内容。目前,配电网中申请单文字的智能解析大多采用向量空间模型的精确词匹配方法,即精确匹配用户输入的词与向量空间中存在的词。由于一词多义(polysemy)和一义多词(synonymy)的存在,使得该模型无法提供给用户语义层面的检索。

本发明的目的在于克服现有技术的不足之处,而提供一种改变传统的精确匹配模式,能提高解析的成功率,为更高层的应用打下技术基础的一种基于潜在语义分析的申请单智能解析方法。

一种基于潜在语义分析的申请单智能解析方法,(1)建立申请单内容的基础模型:从历史数据中采集申请单的样本,通过对样本进行人工分析,生成申请单内容的词语特征集合和语义模型集合;(2)、创建矩阵,奇异值分解:在计算机中自动生成词语特征集合和语义模型集合的关系矩阵,其中每一行表示词语在语句模型中出现的次数,每一列表示语句模型中有哪些词语:然后对该矩阵进行奇异值分解,左矩阵X中的每一行表示词语的特性,右矩阵Y中的每一列表示语句模型的特性,中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模型的潜在相关性,数值越接近表示越相关;(3)对给定的申请单内容先用分词算法进行分词并提取词语特征,用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语句模型对申请单内容进行精确的语义识别。

综上所述的,本发明相比现有技术如下优点:

目前针对配电网申请单的语义解析基本都采用精确词句的匹配方式进行解析,解析的成功率较低,而本发明采用潜在语义分析方法后,一方面滤除了申请单中不相关的词,降低了分析空间的大小,在滤除的过程中与电力系统本身没有关系,纯粹是对自然语言的分析。在被缩小的分析空间的基础上进行配电网专业词库的最大化模糊匹配,从而形成了申请单的智能解析。它摆脱了传统的精确匹配的模式,提高解析的成功率,为更高层的应用打下了技术基础

图1是本发明的语义模型集合图。

下面结合实施例对本发明进行更详细的描述。

实施例1

一种基于潜在语义分析的申请单智能解析方法,(1)建立申请单内容的基础模型:从历史数据中采集申请单的样本,通过对样本进行人工分析,生成申请单内容的词语特征集合和语义模型集合;(2)、创建矩阵,奇异值分解:在计算机中自动生成词语特征集合和语义模型集合的关系矩阵,其中每一行表示词语在语句模型中出现的次数,每一列表示语句模型中有哪些词语:然后对该矩阵进行奇异值分解,左矩阵X中的每一行表示词语的特性,右矩阵Y中的每一列表示语句模型的特性,中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模型的潜在相关性,数值越接近表示越相关;(3)对给定的申请单内容先用分词算法进行分词并提取词语特征,用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语句模型对申请单内容进行精确的语义识别。

应用步骤如下:

●从GPMS的历史数据中获取申请单的历史数据,形成申请单中的安全措施的描述样本

●人工对申请单的安全措施样本进行分析,进行人工的断句分析,将其中的词进行特征抽象,形成词语特征集合,将词语集合与实际的语句进行匹配,形成相应的语句模型

●在计算机中自动生成词语特征集合和语义模型集合的关系矩阵U,其中每一行表示词语在语句模型中出现的次数,每一列表示语句模型中的词语:

●对关系矩阵U进行奇异值分解,可得出XΣY,其中X和Y互为正交矩阵,Σ为对角矩阵,左矩阵X中的每一行表示词语的特性,右矩阵Y中的每一列表示语句模型的特性,中间的对角矩阵表示左奇异向量的一行与右奇异向量的一列的重要程度,数值越大越重要,X中的行与Y中的列表示词语与语句模型的潜在相关性,数值越接近表示越相关。

●用词语特征到矩阵模型中根据相关性获取最优的语句模型,然后用语句模型对申请单内容进行精确的语义识别。

以下举例说明:

1.建立申请单内容的基础模型

从历史数据中采集申请单内容的样本:

10kV向圣淘沙31

本文发布于:2024-09-23 07:25:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/85229.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议