一种基于知识图谱的保险自动问答方法及问答系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010826806.1
(22)申请日 2020.08.17
(71)申请人 广东技术师范大学
地址 510635 广东省广州市天河区中山大
道西293号
(72)发明人 闫艺婷 肖政宏 马智勇 周健烨 
(74)专利代理机构 佛山市禾才知识产权代理有
限公司 44379
代理人 曹振 罗凯欣
(51)Int.Cl.
G06F  16/33(2019.01)
G06F  16/332(2019.01)
G06F  16/36(2019.01)
G06Q  40/08(2012.01)
(54)发明名称一种基于知识图谱的保险自动问答方法及问答系统(57)摘要本发明公开了一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:步骤S1:首先利用爬虫技术采集保险产品的相关信息;步骤S2:对保险实体关系的数据进行标注;步骤S3:利用预训练的词向量文件构建embedding矩阵;步骤S4:制定实体对齐方法基于I ‑SPRS相似度;步骤S5:问句理解模
型构建;步骤S6:最后答案生成;制定实体对齐方法基于I ‑SPRS(Insurance ‑Surrounding  Property  and  relation  Similarity)相似度,问句理解模型构建,最后答案生成。有益效果是:这样的设计使得在查询数据时可以减少由于传统数据库的约束所带来的影响,使答案更为准确且易于理解,
并且也提高问句理解的泛化能力。权利要求书2页  说明书6页  附图3页CN 112800174 A 2021.05.14
C N  112800174
A
1.一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:
步骤S1:首先利用爬虫技术采集保险产品的相关信息;
步骤S2:对保险实体关系的数据进行标注;
步骤S3:利用预训练的词向量文件构建embedding矩阵;
步骤S4:制定实体对齐方法基于I‑SPRS相似度;
步骤S5:问句理解模型构建;
步骤S6:最后答案生成。
2.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述步骤S1具体包括如下内容:利用爬虫技术从中国平安保险、沃保险、OpenKG和向日葵保险网站采集保险产品的相关信息,保险产品的相关信息包括:保险产品名称、保险产品适用人性别、保险产品适用人年龄、保险产品价格、保险产品保障范围、保险产品保障期限和保险产品销售范围。
3.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述步骤S2具体包括如下内容:保险实体关系的数据标注,使用最常用的BIOES标注规范,实体位置信息主要由三部分组成:{B(实体开始),I(实体内部),E(实体结尾),S(单个实体)};实体关系类型信息:{由预先定义的关系类型进行编码};实体的关系方向:{1(实体1),2(实体2)};其余实体关系不是三元组内的字标签记为“o”;Name‑Alias为别名关系,记为NA;Disease‑contain代表重疾‑包含,记为DC;Disease‑belong表示疾病‑属于关系,记为DB,采用实体与关系共同标注策略,把知识抽取转为序列标注问题,关系标注类型包括24类,分别是:B‑NA‑1、I‑NA‑1、E‑NA‑1、S‑NA‑1、B‑NA‑2、I‑NA‑2、E‑NA‑2、S‑NA‑2、B‑DC‑1、I‑DC‑1、E‑DC‑1、S‑DC‑
1、B‑DC‑
2、I‑DC‑2、E‑DC‑2、S‑DC‑2、B‑DB‑1、I‑DB‑1、E‑DB‑1、S‑DB‑1、B‑DC‑2、I‑DC‑2、E‑DC‑
2、S‑DC‑2。
4.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述步骤S3具体包括如下内容:利用实体关系联合抽取模型图,采用腾讯开源高质量中文词向量数据
)运算和输入包含800多万中文词汇,用预训练的词向量文件构建embedding矩阵,通过e(x
i
层的字符做index嵌入,将每个输入字符映射到低维稠密的向量表示,每个词代表200维向量,表示字在不同维度上的语义信息。
5.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用停用词规则即省区不重要的词语部分。
6.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用同义词规则即替换词语保证同义。
7.根据权利要求4所述的基于知识图谱的保险自动问答方法,其特征在于:利用实体关系联合抽取模型图的步骤还包括如下内容:
Bi‑LSTM layer是利用长短忘记网络特性来提取特征,第一步是把生成每个字符的向量表示序列作为Bi‑LSTM的输入,第二步是将Bi‑LSTM在各时间位置进行拼接,得到一个完整的序列;第三步是将Bi‑LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,因为softmax只考虑当前的信息,忽略了上下文;第四步,用CRF进行句子级别的序列标注,
CRF的特点是在一个位置上标注时,利用之前标注过的标签,窗口大小的不同决定了逻辑关系;会加入限制标签,排除出现无效情况。
8.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述提取特征还包括如下步骤:将所述Bi‑LSTM每个时间序列上输出的多个概率值,通过softmax分类预测。
9.一种保险自动问答系统,其特征在于,步骤依次包括:
输入模块:用于接收用户保险问句;
问句实体识别模块:用于建议模型和匹配实体连接;
保险知识图谱模块:用于分析问句,实现保险自动问答功能;
问句关系预测模块:用于抽取问句的特征;
查询模块:问句的特征对传统数据库进行查询;
输出模块:用于回答用户提出的问题。
一种基于知识图谱的保险自动问答方法及问答系统
技术领域
[0001]本发明涉及人工智能问答技术领域,特别是一种基于知识图谱的保险自动问答方法及问答系统。
背景技术
[0002]随着自然语言处理技术的发展,自动问答成了各行各业的趋势。据相关研究表明,自动问答的方式有多种:检索式问答、阅读理解、生成式问答和知识图谱问答。对于保险行业而言,其数据量多而复杂。
[0003]知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。
发明内容
[0004]针对上述缺陷,本发明的目的在于提出一种基于知识图谱的保险自动问答方法及问答系统。该方法集合自然语言处理的方法与知识图谱的技术,首先对语料数据中的主体、客体、时间、地点、金额、保险条款及保险产品特点等进行知识抽取,构建保险知识图谱。再根据现有且成熟的深度学习方法,对输入问句进行分析,结合知识图谱生成答案,进而实现保险领域自动问答,为用户提供服务。
[0005]为达此目的,本发明采用以下技术方案:
[0006]一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:
[0007]步骤S1:首先利用爬虫技术采集保险产品的相关信息;
[0008]步骤S2:对保险实体关系的数据进行标注;
[0009]步骤S3:利用预训练的词向量文件构建embedding矩阵;
[0010]步骤S4:制定实体对齐方法基于I‑SPRS相似度;
[0011]步骤S5:问句理解模型构建;
[0012]步骤S6:最后答案生成。
[0013]优选地,上述的基于知识图谱的保险自动问答方法,所述步骤S1具体包括如下内容:利用爬虫技术从中国XX保险、XX险和XXX保险网站采集保险产品的相关信息,保险产品的相关信息包括:保险产品名称、保险产品适用人性别、保险产品适用人年龄、保险产品价格、保险产品保障范围、保险产品保障期限和保险产品销售范围。
[0014]优选地,上述的基于知识图谱的保险自动问答方法,所述步骤S2具体包括如下内容:保险实体关系的数据标注,使用最常用的BIOES标注规范,实体位置信息主要由三部分组成:{B(实体开始),I(实体内部),E(实体结尾),S(单个实体)};实体关系类型信息:{由预先定义的关系类型进行编码};实体的关系方向:{1(实体1),2(实体2)};其余实体关系不是
三元组内的字标签记为“o”; Name‑Alias为别名关系,记为NA;Disease‑contain代表重疾‑包含,记为DC; Disease‑belong表示疾病‑属于关系,记为DB,采用实体与关系共同标注策略,把知识抽取转为序列标注问题,关系标注类型包括24类,分别是:B‑NA‑1、 I‑NA‑1、E‑NA‑1、S‑NA‑1、B‑NA‑2、I‑NA‑2、E‑NA‑2、S‑NA‑2、B‑DC‑1、I‑DC‑1、 E‑DC‑1、S‑DC‑1、B‑DC‑2、I‑DC‑2、E‑DC‑2、S‑DC‑2、B‑DB‑1、I‑DB‑1、E‑DB‑1、 S‑DB‑1、B‑DC‑2、I‑DC‑2、E‑DC‑2、S‑DC‑2。
[0015]优选地,上述的基于知识图谱的保险自动问答方法,所述步骤S3具体包括如下内容:利用实体
关系联合抽取模型图,采用腾讯开源高质量中文词向量数据包含800多万中文
)运算和输入层的字符做词汇,用预训练的词向量文件构建embedding矩阵,通过 e(x
i
index嵌入,将每个输入字符映射到低维稠密的向量表示,每个词代表200维向量,表示字在不同维度上的语义信息。
[0016]优选地,上述的基于知识图谱的保险自动问答方法,还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用停用词规则即省区不重要的词语部分。
[0017]优选地,上述的基于知识图谱的保险自动问答方法,还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用同义词规则即替换词语保证同义。
[0018]优选地,上述的基于知识图谱的保险自动问答方法,利用实体关系联合抽取模型图的步骤还包括如下内容:
[0019]Bi‑LSTM layer是利用长短忘记网络特性来提取特征,第一步是把生成每个字符的向量表示序列作为Bi‑LSTM的输入,第二步是将Bi‑LSTM在各时间位置进行拼接,得到一个完整的序列;第三步是
将Bi‑LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,因为softmax只考虑当前的信息,忽略了上下文;第四步,用CRF进行句子级别的序列标注,CRF的特点是在一个位置上标注时,利用之前标注过的标签,窗口大小的不同决定了逻辑关系;会加入限制标签,排除出现无效情况。
[0020]优选地,上述的基于知识图谱的保险自动问答方法,所述提取特征还包括如下步骤:将所述Bi‑LSTM每个时间序列上输出的多个概率值,通过softmax 分类预测。
[0021]一种保险自动问答系统,其中步骤依次包括:
[0022]输入模块:用于接收用户保险问句;
[0023]问句实体识别模块:用于建议模型和匹配实体连接;
[0024]保险知识图谱模块:用于分析问句,实现保险自动问答功能;
[0025]问句关系预测模块:用于抽取问句的特征;
[0026]查询模块:问句的特征对传统数据库进行查询;
[0027]输出模块:用于回答用户提出的问题。
[0028]本发明的有益效果:
[0029]制定实体对齐方法基于I‑SPRS(Insurance‑Surrounding Property and relation Similarity)相似度,问句理解模型构建,最后答案生成,这样的设计使得在查询数据时可以减少由于传统数据库的约束所带来的影响,使答案更为准确且易于理解,并且也提高问句理解的泛化能力。

本文发布于:2024-09-20 17:22:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/733451.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:保险   问答   自动   实体   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议