一种基于自然语言处理的焦点实体属性预测技术

著录项
  • CN202211106729.8
  • 20220909
  • CN115730598A
  • 20230303
  • 南京大学
  • 冯洋;孙静玉;谭嘉俊;李玉莹;刘子夕
  • G06F40/295
  • G06F40/295 G06F40/216 G06F40/289 G06F40/30 G06F16/34 G06F16/951

  • 江苏省南京市栖霞区仙林大道163号计算机科学与技术系819
  • 江苏(32)
摘要
本发明属于自然文本分析预测领域,用于焦点类型的实体属性预测。本发明提供一种基于自然语言处理的焦点实体属性预测技术,该技术不仅能输出当前属性预测模型中常见的客观预测值,还能归纳输出文本数据中的针对实体的不同属性的不同预期值或评价。本发明根据用户提供的实体集合和属性集合构建更大的相关实体集合或迭代集合并爬取大量文本数据用于基础的属性预测和属性发展趋势预测。本发明输出的预期值和评价能够用于指导不同实体的优化、或预测其发展方向,针对当前文本数据利用率低,隐藏信息挖掘量少的问题,提高了焦点实体信息准确获取的能力并为属性预测的下流应用提供更丰富且有价值的数据。
权利要求

1.一种基于自然语言处理的焦点实体属性预测技术,其特征在于,基于自然语义理解来分析通过检索获取的装备文本数据中的情感取向观点,并通过积极和消极的情感去向来将文本内容与特定实体的关键属性相联系,以此预测实体的属性值;同时对于单一焦点实体,构建高关联或迭代关系的实体集合,根据关联的实体属性值来推理已有的自然语言文本针对属性的观点评价是否合理,从而判断实体可能的发展方向和优化方向。具体而言,该方法包括以下步骤:

1)实体数据采集;用户提供特定领域的实体列表和关键属性,用于指导本发明收集哪些相关数据,并指导预测过程中需要重点分析哪些基础的描述性属性;对于实体列表中的实体,首先获取其完整名称,再通过搜索引擎检索并获取高相关度的关联实体,对于有迭代关系的实体则选取其前型/级或次型/级实体,例如Huawei手机同系列的迭代,根据迭代关系和关联关系重新构建待收集实体数据;通过爬虫检索实体名称,收集数据来源、时间、材料标题、材料文本等信息。

2)数据摘要提取;对于实体E,记其情报新闻数据为D:{d1,d2,d3,d4,d5…}。首先抽取其新闻内容D的文本摘要A{a1,a2,a3……},基于最后的数据展示材料支撑需要,因为获取的装备数据文本材料长度不一,且有些文本材料过长,有可能导致最后的展示产生混乱,所以第一步对装备数据文本材料进行摘要提取,文本摘要提取中基于TextRank算法源自于浏览器内容推荐算法PageRank原理,首先确认文本标题和文本内容,通过对文本标题进行分词处理同时进行频数计算,记录为其权重,得到标题的分词权重表T:{w1:r1,w2:r2…wn:rn},其中wn代表分词集合中的每个词,rn为其对应权重;得到分词权重表T,在对文本内容进行分句,对内容进行划分,分别计算每个句子所蕴含分词集合中的分词的权重和最后得到每个句子的权重集合,对其进行排序,最后根据摘要所需文字数量需求,从权重排序中选择权重靠前的句子构造即为文本摘要;

3)数据属性预测。实现基于材料文本的关键信息抽取,抽取文本材料中的装备优势劣势特点、优缺点以及其他缺陷,抽取文本撰写人或行为发起人的情感取向和观点;在实际处理过程中,由于抽取关键信息的原始材料与传统评论在体量和目的性上都不同,所以需要做出调整;因为文本材料内容过大,如果直接作为抽取材料,则无法抓取关键信息,所以对其进行切片处理,对于文本材料d1,对其进行语句切片分割,构造语句集合S:{s1,s2,s3…sn};对于用户给定的关键属性列表,直接提取不同切片中的关键字进行常规的属性值预测。观点提取则将每一个切片的语句视为依据单独的评论,通过使用PaddleNLP评论观点抽取工具实现,基本原理为采用序列标注的方式进行观点抽取,具体而言,抽取评论中的属性以及属性对应的观点,抽取完评论观点之后,便可以有针对性的对各个属性进行评论;具体将评论文本串传入SKEP模型中,利用SKEP模型对该文本串进行语义编码后,然后基于每个位置的输出去预测相应的标签;将抽取出的评论属性和评论观点进行拼接,然后和原始语句进行拼接作为一条独立的训练语句;将评论属性和观点词进行拼接,然后将拼接词和原文进行拼接,传入SKEP模型,并使用″CLS″位置的向量进行细粒度情感倾向,最后通过使用该方式得到每条新闻文本的每个句子切片的观点抽取结果,再通过对抽取结果进行筛选,去除一些因原始材料错误导致的无用信息,并最终构造出基于每个装备的优势劣势特点、优缺点以及其他缺陷;对于每一个预测值和观点属性的最终结果都进行数量检测,即将所有根源相同、文本相同的文本材料视作同一材料,在所有不重复的材料中,预测属性值的频数F大于材料总数的75%则认为该预测结果可信;

4)数据属性分析;数据属性预测后,本发明应当得到两类结果,即用户给定关键属性的属性值(预测结果)和文本撰写人对数据属性的观点。属性值和评价观点在这一步中都基于关联实体或迭代实体进行评估验证。对于实体E0,实体E1为其次型体或高度关联实体,比较二者相同关键属性A的关键值v0,v1,基于数据分析出差异较大的关键属性值,同时对该关键属性的撰写人观点进行比较;记偏差阈值为|δ|,若|v0-v1|≥|δ|,则判断撰写人观点是否使得|v0-v1|趋于变小,若成立则认可撰写人观点,视为该观点具有可信度,是可能的发展方向或优化方向。

2.根据权利要求1所述的基于自然语言处理的焦点实体属性预测技术,其特征在于,在步骤1)中,不仅对单个孤立的实体进行初始化,还要求构建出完整的迭代更新路径或者高度关联的关系表,从而将其进化或退化的专业属性识别出来用以证实后续的观点评价的可靠性。

3.根据权利要求1所述的基于自然语言处理的焦点实体属性预测技术,其特征在于,在步骤2)中,以标题分词的频数权重作为基础,对文本中每个句子中出现的关键词进行加权最终重组获取新的摘要。

4.根据权利要求1所述的基于自然语言处理的焦点实体属性预测技术,其特征在于,在步骤3)中,基础的属性预测模型仅预测用户给出的关键属性的客观预测值,而不引入文本数据中带有议论性的主观观点语句。本方法基于自然语言处理对数据切片进行细粒度的情感分析,归纳出对不同关键属性的议论性观点来表达撰稿人、社会的对属性的评价和期望。

5.根据权利要求1所述的基于自然语言处理的焦点实体属性预测技术,其特征在于,在步骤4)中,本发明在步骤3)中提取出观点后,基于属性的客观预测值对其进行评估以验证可信性和可行性,从而确保本发明输出的观点符合焦点实体的发展方向或预期发展方向。

说明书
技术领域

本发明属于自然文本分析预测领域,尤其适用于焦点类型的实体属性预测。其目的为改变当前互联网文本数据利用率低,分析性能表现差的问题,提高特定领域焦点实体信息准确获取的能力并进行属性分析和预测。本发明结合自然语言理解和分析来推理实体的属性特征、他人对其的关注点和期望发展。

预测模型在多个领域中得到应用,其一热门应用即属性预测。属性预测的依据数据来源通常分为文本和图像,而预测的焦点实体通常为产品、物品等非生物实体和人、动物等生物实体。以用户属性预测为例,基于文本的预测将目标实体的检测设定为互联网用户,收集其在社交网络、社交论坛或新闻网站中的行为轨迹信息,例如评论、收藏、点赞等,提取行为信息并分析其特征至预测模型中,预测该用户的年龄、职业、兴趣点等属性特征。而基于图像的用户属性预测通过给定人的图像,利用图像上的细节来分析概括并输出设定好的目标属性预测值,例如年龄、身高、性别,基于视频图像的预测更可以分析出某一段时期内的行为习惯、身体状况等属性特征。

上述属性预测模型的特点:(1)信息来源均为焦点实体的行为产生或提供,其数据为描述主观行为的客观文字或图像;(2)预测结果为描述性文本,旨在切实、客观地描述焦点实体的行为和特征。下流应用使用预测结果时仍需要对属性进一步分析。

本发明提出一种基于自然语言处理的实体属性预测技术。本发明为焦点领域的实体属性预测提供一整套包括数据收集、分析、预测的流程模板,更聚焦于主观评价焦点实体的文本,产生对焦点实体的带有情感彩的观点评价,最终通过统计方法总结并预测网络视角下的实体的某些属性。本发明针对已有的属性预测模型,进一步完善互联网数据获取属性预测的范围,挖掘现有数据中有价值的属性特征信息,支撑更智能的数据分析技术。

本文发明通过提供一种基于自然语言处理的焦点实体属性预测技术,来有效解决目前存在的文本数据利用率低,分析性能表现差的问题,进而提高特定领域焦点实体信息准确获取的能力并进行属性分析和预测的能力,为下流数据应用提供除客观描述以外的有价值的潜在属性信息。

为达成上述目标,提出一种基于自然语言处理的焦点实体属性预测技术,其特征在于,不指定特定的人或物,需用提供指定领域的焦点实体列表和焦点属性,通过收集互联网的新闻文本和评论文本来分析情感倾向和观点,并提取出包括焦点属性的预测值和网络用户对该实体的关注点、观点、期望等信息。具体而言,该方法包括以下步骤:

1)实体数据采集。用户提供特定领域的实体列表和关键属性,用于指导本发明收集哪些相关数据,并指导预测过程中需要重点分析哪些基础的描述性属性。对于实体列表中的实体,首先获取其完整名称,再通过搜索引擎检索并获取高相关度的关联实体,对于有迭代关系的实体则选取其前型/级或次型/级实体,例如Huawei手机同系列的迭代,根据迭代关系和关联关系重新构建待收集实体数据。通过爬虫检索实体名称,收集数据来源、时间、材料标题、材料文本等信息。

2)数据摘要提取。对于实体E,记其情报新闻数据为D:{d1,d2,d3,d4,d5…}。首先抽取其新闻内容D的文本摘要A{a1,a2,a3……},基于最后的数据展示材料支撑需要,因为获取的装备数据文本材料长度不一,且有些文本材料过长,有可能导致最后的展示产生混乱,所以第一步对装备数据文本材料进行摘要提取,文本摘要提取中基于TextRank算法源自于浏览器内容推荐算法PageRank原理,首先确认文本标题和文本内容,通过对文本标题进行分词处理同时进行频数计算,记录为其权重,得到标题的分词权重表T:{w1:r1,w2:r2…wn:rn},其中wn代表分词集合中的每个词,rn为其对应权重。得到分词权重表T,在对文本内容进行分句,对内容进行划分,分别计算每个句子所蕴含分词集合中的分词的权重和最后得到每个句子的权重集合,对其进行排序,最后根据摘要所需文字数量需求,从权重排序中选择权重靠前的句子构造即为文本摘要。

3)数据属性预测。实现基于材料文本的关键信息抽取,抽取文本材料中的装备优势劣势特点、优缺点以及其他缺陷,抽取文本撰写人或行为发起人的情感取向和观点。在实际处理过程中,由于抽取关键信息的原始材料与传统评论在体量和目的性上都不同,所以需要做出调整。因为文本材料内容过大,如果直接作为抽取材料,则无法抓取关键信息,所以对其进行切片处理,对于文本材料d1,对其进行语句切片分割,构造语句集合S:{s1,s2,s3…sn}。对于用户给定的关键属性列表,直接提取不同切片中的关键字进行常规的属性值预测。观点提取则将每一个切片的语句视为依据单独的评论,通过使用PaddleNLP评论观点抽取工具实现,基本原理为采用序列标注的方式进行观点抽取,具体而言,抽取评论中的属性以及属性对应的观点,抽取完评论观点之后,便可以有针对性的对各个属性进行评论。具体将评论文本串传入SKEP模型中,利用SKEP模型对该文本串进行语义编码后,然后基于每个位置的输出去预测相应的标签。将抽取出的评论属性和评论观点进行拼接,然后和原始语句进行拼接作为一条独立的训练语句。将评论属性和观点词进行拼接,然后将拼接词和原文进行拼接,传入SKEP模型,并使用″CLS″位置的向量进行细粒度情感倾向,最后通过使用该方式得到每条新闻文本的每个句子切片的观点抽取结果,再通过对抽取结果进行筛选,去除一些因原始材料错误导致的无用信息,并最终构造出基于每个装备的优势劣势特点、优缺点以及其他缺陷。对于每一个预测值和观点属性的最终结果都进行数量检测,即将所有根源相同、文本相同的文本材料视作同一材料,在所有不重复的材料中,预测属性值的频数F大于材料总数的75%则认为该预测结果可信。

4)数据属性分析。数据属性预测后,本发明应当得到两类结果,即用户给定关键属性的属性值(预测结果)和文本撰写人对数据属性的观点。属性值和评价观点在这一步中都基于关联实体或迭代实体进行评估验证。对于实体E0,实体E1为其次型体或高度关联实体,比较二者相同关键属性A的关键值v0,v1,基于数据分析出差异较大的关键属性值,同时对该关键属性的撰写人观点进行比较。记偏差阈值为|δ|,若|v0-v1|≥|δ|,则判断撰写人观点是否使得|v0-v1|趋于变小,若成立则认可撰写人观点,视为该观点具有可信度,是可能的发展方向或优化方向。

进一步,其中上述步骤1)的具体步骤如下:

步骤1)-1:起始状态;

步骤1)-2:输入焦点实体集合和关键属性集合V={V1,V2,V3,…};

步骤1)-3:通过搜索引擎获取高关联度实体、前型/级或次型/级实体,更新实体集合;

步骤1)-4:对于有迭代关系的实体,构建迭代路径;

步骤1)-5:对实体集合中的实体进行爬虫搜索数据;

步骤1)-6:结束状态;

进一步,其中上述步骤2)的具体步骤如下:

步骤2)-1:起始状态;

步骤2)-2:输入实体E和情报新闻数据D:{d1,d2,d3,d4,d5…};

步骤2)-3:对标题进行分词记录频数权重表T;

步骤2)-4:基于权重表T,对文本内容中的句子分词记录频数权重和;

步骤2)-5:对句子的权重和进行排序,并选取前n个句子构造为摘要;

步骤2)-6:输出并展示摘要;

步骤2)-7:结束状态;

进一步,其中上述步骤3)的具体步骤如下:

步骤3)-1:起始状态;

步骤3)-2:输入文本数据d1;

步骤3)-3:对数据按句切片分割,获得语句集合S:{s1,s2,s3…sn};

步骤3)-4:提取语句sn中的关键属性预测值;

步骤3)-5:N为不重复材料总数,若某属性预测值频数F<N,该属性猜测值被剔除;

步骤3)-6:使用PaddleNLP抽取语句sn中的观点,观点由装备属性关键词和对其的评价组成;

步骤3)-7:过滤材料错误出现的无用信息;

步骤3)-8:输出关键属性Vn及预测值vn、输出评价观点;

步骤3)-9:结束状态;

进一步,其中上述步骤4)的具体步骤如下:

步骤4)-1:起始状态;

步骤4)-2:输入关键属性预测值集合和输出观点;

步骤4)-3:根据实体集合,遍历取高关联度或迭代关系实体Ei,Ej;

步骤4)-4:遍历取两实体的相同属性,若属性|Ei:vk-Ej:vk|>|δ|,且Ei对于属性Vk的情感观点使得|Ei:vk-Ej:vk|变小,则认为观点可靠;

步骤4)-5:输出可靠的情感观点作为发展方向或优化方向的预测结果;

步骤4)-6:结束状态。

图1为本发明实施中的一种基于自然语言处理的焦点实体属性预测的流程图。

图2为图1中实体数据采集的流程图。

图3为图1中数据摘要提取的流程图。

图4为图1中数据属性预测的流程图。

图5为图1中数据属性分析的流程图。

为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。

图1为本发明实施中的一种基于自然语言处理的焦点实体属性预测技术的流程图。

基于自然语言处理的焦点实体属性预测技术,其特征在于,包括下列步骤。

S1实体数据采集,给定初始化实体集和关键属性集合。对已有的实体,通过检索爬虫获取高关联度的实体或前型/级或次型/级实体并构建迭代更新路径。

S2数据摘要提取,给定上一步装备数据集中的实体和文本数据。一般来说,收集的数据包括标题和文本内容两大部分。根据标题进行分词,并依据频数计算不同名词的权重。再对文本内容按句分词,根据出现在标题中的名词权重计算出不同句子的权重和。按照权重和从大到小的顺序进行排序,选取前n个权重和最大的句子构造摘要,便于展示数据的主要内容。

S3数据属性预测,对于某实体的文本材料按句切割,构造语句集合。将每一个语句视为单独的评论并使用PaddleNLP评论观点抽取观点来获得语句中涉及的装备专业属性预测值及对某一属性的评价。最后对获得的属性预测值进行基于频数的过滤,得出每个实体的可靠属性预测值。

S4数据属性分析,处理属性预测中得到的文本对关键属性的观点和评价。基于分析高关联度或迭代关系的实体间的预测值差异来判断文本的观点评价是否存在可行性和可信性。

图2为实体数据采集的流程图。针对实体集合,通过搜索爬虫来获取高关联的相关实体、其相关前序或后续的实体并更新实体集合,获取完整的实体迭代路径后对路径上的所有实体进行数据爬取。具体步骤如下:

步骤1:起始状态;步骤2:输入焦点实体集合和关键属性集合V={V1,V2,V3,…};步骤3:通过搜索引擎获取高关联度实体、前型/级或次型/级实体,更新实体集合;步骤4:对于有迭代关系的实体,构建迭代路径;步骤5:对实体集合中的实体进行爬虫搜索数据;步骤6:结束状态;

图3为数据摘要提取的流程图。该步骤用于提取长段新闻文本的中心思想,并将长短不一的情报文本统一长度。该方法着重分析文本标题中的关键词,赋予关键词不同权重,并于正文中分析不同句子“切题”的程度,该程度使用权重和来展示。最终挑选权重和最大的若干个句子进行语义级别的重组形成长度同一的摘要。

具体步骤如下:

步骤1:起始状态;步骤2:输入实体E和情报新闻数据D:{d1,d2,d3,d4,d5…};步骤3:对标题进行分词记录频数权重表T;步骤4:基于权重表T,对文本内容中的句子分词记录频数权重和;步骤5:对句子的权重和进行排序,并选取前n个句子构造为摘要;步骤6:输出并展示摘要;步骤7:结束状态;

图4为数据属性预测的流程图。对文本进行按句切割。以句子为单位进行分词并抽取中句子中的与装备相关的专业属性名词和情感倾向,从而判断出每个句子的观点。将带有情感取向的观点和专业属性结合起来获得文本的观点评价用以预测实体的发展趋势和改进方向,同时基于属性关键词、匹配原则等传统属性预测方法获取基础的关键属性值预测。具体步骤如下:

步骤1:起始状态;步骤2:输入文本数据d1;步骤3:对数据按句切片分割,获得语句集合S:{s1,s2,s3…sn};步骤4:提取语句sn中的关键属性预测值;步骤5:N为不重复材料总数,若某属性预测值频数F<N,该属性猜测值被剔除;步骤6:使用PaddleNLP抽取语句sn中的观点,观点由装备属性关键词和对其的评价组成;步骤7:过滤材料错误出现的无用信息;步骤8:输出关键属性Vn及预测值vn、输出评价观点;步骤9:结束状态;

图5为数据属性分析的流程图。对获取的评价观点进行验证,验证方法为考察高度关联度的实体之间的属性差距,若包含差距的关键属性的评价观点指向减少关联实体或迭代实体间的差距,则认为该评价观点有效。具体步骤如下:

步骤1:起始状态;步骤2:输入关键属性预测值集合和输出观点;步骤3:根据实体集合,遍历取高关联度或迭代关系实体Ei,Ej;步骤4:遍历取两实体的相同属性,若属性|Ei:vk-Ej:vk|>|δ|,且Ei对于属性Vk的情感观点使得|Ei:vk-Ej:vk|变小,则认为观点可靠;步骤5:输出可靠的情感观点作为发展方向或优化方向的预测结果;步骤6:结束状态;

综上所述,本发明关注于属性预测中文本数据利用率低的问题,通过对已有的局限的装文本数据进行语义级别的分析理解,在对关键属性预测属性值的基础上,增加主观的观点提取用以预测实体的发展方向、改进方向来提供更多的隐藏信息,为下流应用提供更具有价值的预测信息。

本文发布于:2024-09-23 21:27:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/73397.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议