文本处理方法及装置与流程



1.本技术涉及机器学习技术领域,特别涉及文本处理方法及装置。


背景技术:



2.人工智能(artificial intelligence;ai)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展,各种深度学习框架不断的涌现;tensorflow、pytorch等通用型深度学习框架,应用于自然语言处理、计算机视觉、语音处理等领域,以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述,然后对应的给一个query,机器通过阅读context后,给出对应query的答案)、问答系统(question answeringsystem,qa,是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题)、主题/关键词提取等。
3.而现有技术中,主题抽取在越来越多的场景中得以应用,通过准确的提取主题可以充分表征文档的内容,以方便用户进行文档筛选等。现有的主题抽取方式大多数采用主题抽取模型实现。而主题抽取模型主要采用被分为两种,一种无监督方式抽取主题词,直接通过统计学习模型直接学习主题词在文章中的概率分布,以达到抽取主题词的目的。另一种是有监督方式抽取主题词,利用softmax分类器确定文档类别标签信息,以达到抽取主题词的目的。但是,无论是有监督还是无监督的方法,其精准度都比较低,且需要大量的人工辅助才能够完成,因此亟需一种有效的方案以解决上述问题。


技术实现要素:



4.有鉴于此,本技术实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
5.根据本技术实施例的第一方面,提供了一种文本处理方法,包括:
6.获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素;
7.将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词;
8.基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表
9.根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。
10.根据本技术实施例的第二方面,提供了一种文本处理装置,包括:
11.获取模块,被配置为获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素;
12.处理模块,被配置为将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词;
13.构建模块,被配置为基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表;
14.筛选模块,被配置为根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。
15.根据本技术实施例的第三方面,提供了一种计算设备,包括:
16.存储器和处理器;
17.所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
18.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
19.根据本技术实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
20.本技术提供的文本处理方法,在获取到待处理文本后,可以先确定其对应的基准主题词和文本组成元素,之后通过主题词抽取模型得到待处理文本对应的候选主题词,再结合知识图谱确定待处理文本对应的关联主题词,此时结合候选主题词和关联主题词可以构建候选主题词表,实现从多个维度扩充词表,使得词表内的候选主题词都与待处理文本具有关联性。之后以此为基础,利用基准主题词和文本组成元素筛选候选主题词表,以得到待处理文本对应的文本主题词。实现了通过结合图谱和模型的方式完成主题词抽取,可以进一步的提高主题词抽取精准度,且在此过程中,引入基准主题词和文本组成元素进行影响,使得被抽取的主题词与待处理文本的关联度更高,从而更加方便下游业务使用。
附图说明
21.图1是本技术一实施例提供的一种文本处理方法的结构示意图;
22.图2是本技术一实施例提供的一种文本处理方法的流程图;
23.图3是本技术一实施例提供的一种文本处理方法中知识图谱的示意图;
24.图4是本技术一实施例提供的一种文本处理方法的处理流程图;
25.图5是本技术一实施例提供的一种文本处理装置的结构示意图;
26.图6是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
27.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
28.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而
非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
29.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
30.首先,对本发明一个或多个实施例涉及的名词术语进行解释。
31.topic model:主题模型,以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。
32.neo4j:图数据库,存储知识图谱的一种数据库。
33.lda:隐含狄利克雷分布,是一种基于贝叶斯算法模型,利用先验分布对数据进行似然估计并最终得到后验分布的一种方式。
34.spearman correlation coefficient:斯皮尔曼相关性系数,两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
35.待处理文本:是指需要进行主题词抽取的文本,包括但不限于文章、新闻、论文等。
36.文本组成元素:待处理文本的标题和文本内容。
37.在本技术中,提供了一种文本处理方法。本技术同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
38.实际应用中,主题抽取在越来越多的场景中得以应用,通过准确的提取主题可以充分表征文档的内容,以方便用户进行文档筛选等。现有的主题抽取方式大多数采用主题抽取模型实现。而主题抽取模型主要被分为两种,一种无监督方式抽取主题词,直接通过统计学习模型直接学习主题词在文章中的概率分布。主要通过lsa、plsa、lda、topic model等主题模型等统计机器学习模型抽取主题词。以及结合词向量工具,来增强词汇之间的词法关系,从而更好的表征文章主题。一种是有监督方式抽取主题词,利用softmax分类器将文档类别标签信息,考虑到主题模型中,作为一个完整的模型,采用预训练语言模型等进行训练,从而利用类别标签能很好的约束模型训练,能提高模型对于文本分类的分类性能,主要有slda主题模型、有监督隐含狄利克雷分配模型(labeled latent dirichlet allocation,l-lda)和判别隐含狄利克雷分配模型(dependency-lda)等。
39.但是,基于无监督的方法,依赖于文本统计数据,进行概率分布统计,且文档主题的分布受文档数据质量影响,而且很多主题模型都无法学习到具有可解释性、便于人们理解的主题,而且直接获取主题词,得到的模型准确度不高。基于有监督的方法,通过已有的标注来提高模型准确度,加入标签约束,从而建立主题与标签之间的映射关系,提高主题的表达解释能力,但是需要大量精力去标注数据,可解释性不强,以及泛化迁移能力不足。
40.参见图1所示的示意图,本技术提供的文本处理方法,在获取到待处理文本后,可以先确定其对应的基准主题词和文本组成元素,之后通过主题词抽取模型得到待处理文本对应的候选主题词,再结合知识图谱确定待处理文本对应的关联主题词,此时结合候选主
题词和关联主题词可以构建候选主题词表,实现从多个维度扩充词表,使得词表内的候选主题词都与待处理文本具有关联性。之后以此为基础,利用基准主题词和文本组成元素筛选候选主题词表,以得到待处理文本对应的文本主题词。实现了通过结合图谱和模型的方式完成主题词抽取,可以进一步的提高主题词抽取精准度,且在此过程中,引入基准主题词和文本组成元素进行影响,使得被抽取的主题词与待处理文本的关联度更高,从而更加方便下游业务使用。
41.图2出了根据本技术一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
42.步骤s202:获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素。
43.本技术实施例的核心在于抽取文本对应的主题词,针对不同的文本类型,如文章、新闻、论文、小说等,抽取主题词的过程基本相同,下面对抽取文章主题词的过程进行详细描述。
44.具体的,待处理文本具体是指需要进行提取主题词的文本,包括但不限于文章、新闻、论文或小说等,比如,在搜索引擎场景下,需要提取各种类型的文章对应的主题词,以方便用户在使用搜索引擎时,可以根据用户的搜索需求匹配主题词,完成搜索反馈。相应的,基准主题词具体是指在针对待处理文本抽取主题词前,通过设定的手段提取到的主题词,该主题词与待处理文本具有一定的关联性,但并不是待处理文本的文本主题词,例如通过设定手段提取主题词时,是选择文本中双引号内的词语作为主题词,而双引号内的词语可能是文本中需要重点描述的词语,并非是文本主题词。后续在抽取待处理文本的主题词时,可以以基准主题词为基础进行主题词纠正处理;也就是说,基准主题词可以在抽取文本主题词阶段,起到让被抽取的主题词与待处理文本强关联的作用;其中,预设的手段包括但不限于人工标注、序列标注模型标注等,用于能够明确基准主题词与待处理文本是具有强关联性的即可,强关联性体现在基准主题词与待处理文本的真正主题词之间的相近程度大于设定阈值。
45.相应的,文本组成元素具体是指待处理文本对应的标题和文本内容,方便后续结合基准主题词对被筛选的候选主题词进行过滤,从而实现从标题和文本内容的语义角度,筛选出与待处理文本更加贴近的文本主题词。
46.需要说明的是,获取的待处理文本可以是搜索引擎服务器本地采集到的待处理文本,也可以是由用户主动上传需要进行主题词抽取的文本,本实施例在此不作任何限定。
47.基于此,在接收到待处理文本后,为了能够在后续精准的抽取待处理文本对应的主题词,可以先确定待处理文本对应的基准主题词和文本组成元素,实现后续可以结合基准主题词和文本组成元素对抽取到的候选主题词进行筛选,从而得到与待处理文本关联度足够高的文本主题词。
48.进一步的,在确定基准主题词时,为了能够实现后续可以结合基准主题词更加准确的过滤候选主题词,以提高文本主题词的筛选精准度,可以结合序列标注模型实现,本实施例中,具体实现方式如步骤s2022至步骤s2028。
49.步骤s2022,将所述待处理文本输入至序列标注模型进行处理,获得所述待处理文本中每个字单元对应的标注信息。
50.步骤s2024,在每个字单元对应的标注信息中,确定起始标注信息和中间标注信息。
51.步骤s2026,按照所述起始标注信息和所述中间标注信息,在所述待处理文本中确定起始字单元和中间字单元。
52.步骤s2028,根据所述起始字单元和所述中间字单元生成所述基准主题词。
53.具体的,序列标注模型具体是指能够对待处理文本中包含的每个字单元进行属性标注的模型,通过结合不同字单元的属性标注结果,可以明确待处理文本中的基准主题词,其中,序列标注模型可以选择隐马尔科夫模型、最大熵隐马尔科夫模型或者条件随机场模型。相应的,标注信息具体是指通过序列标注模型对每个字单元进行属性标注后得到的标注结果信息,不同的标注信息表征每个字单元具有不同的属性,如o表示字单元为非相关主题词的字单元,i表示字单元为相关主题词的字单元,b表示主题词的开始字单元等。相应的,起始标注信息具体是指标注信息中表征字单元为主题词的起始字的标注信息,中间标注信息具体是指标注信息中表征字单元为主题词非起始字的标注信息。
54.基于此,在获取到待处理文本后,可以先将待处理文本输入至序列标注模型,通过序列标注模型对每个字单元进行属性标注,获得待处理文本中每个字单元对应的标注信息,之后根据标注信息的不同,确定标注信息中的起始标注信息和中间标注信息;再按照起始标注信息和中间标注信息在待处理文本中确定起始字单元和中间字单元,最后根据起始字单元和中间字单元即可生成待处理文本对应的基准主题词。
55.需要说明的是,在生成基准主题词时,需要按照字单元在待处理文本中的排列顺序将起始字单元和中间字单元进行组合,以保证当前阶段被抽取到的基准主题词是关联性强且阅读顺序正确的主题词。
56.此外,序列标注模型在使用前,还需要结合主题词抽取场景进行针对性训练,以使得序列标注模型能够学习到针对主题词进行标注,以达到生成基准主题词的目的;也就是说,在模型训练阶段,需要将主题词作为样本的标签,用于训练模型,直至获得满足训练停止条件的序列标注模型。
57.实际应用中,在训练序列标注模型时,可以通过如下方式实现:首先获取样本文本,其次通过人工标注的方式对样本文本中的主题词进行标注,并根据标注结果确定样本文本对应的样本标签,之后将样本文本输入至初始序列标注模型进行处理,获得模型输出的文本标注结果;此时再基于样本标签和模型输出的文本标注结果计算损失值,并根据损失值对初始序列标注模型进行调参,若调参完成后的模型不满足训练停止条件,则可以提取新的样本继续对其进行训练,直至获得满足训练停止条件的序列标注模型;其中训练停止条件具体是指损失值比较条件,在模型训练阶段,若任意一个阶段的训练结果对应的损失值小于等于设定损失值阈值,即为确定当前阶段的模型满足条件,作为序列标注模型使用即可。此外,实际应用中,还可以选择其他训练停止条件对序列标注模型的训练进行监控,比如迭代次数条件等,具体应用中可以根据实际需求进行选择。
58.举例说明,获取待抽取主题词的文章,文章内容为“...如今大气污染严重,环境保护是每个人不可推卸的责任
…”
(仅以文章部分内容为例进行说明)。将文章输入至序列标注模型进行处理,获得模型输出的标注结果,即{如-o今-o大b-i气i-i污i-i染i-i严-o重-o,环-o境-o保-o护-o是-o每-o个-o人-o不-o可-o推-o卸-o的-o责-o任},其中,o表示字单
元不是主题词;
“‑”
之前的b表示主题词开始字单元(begin),
“‑”
之前的i表示主题词中间字单元(inside),即标签“b-i”表示字单元是句子中主题词的起始字单元;标签“i-i”表示字单元是句子中主题词的中间字单元。
59.进一步的,根据标注结果确定“大”为起始字单元,“气、污、染”为中间字单元,之后按照各个字单元在文章中的顺序,组成文章对应的基准主题词为“大气污染”,以用于后续处理。
60.综上,通过采用序列标注模型确定基准主题词,可以有效的提高基准主题词抽取的精准度,同时能够解决人工标注效率低下的问题,以提高文本主题词抽取的效率。
61.步骤s204,将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词。
62.具体的,在上述获取到待处理文本后,进一步的,为了能够保证主题词抽取的精准度,可以先确定待处理文本对应的候选主题词,之后通过比较候选主题词中每个候选主题词与待处理文本之间的关联度,确定与待处理文本关联度最高的候选主题词作为文本主题词,因此需要在先提供多个候选主题词,用于进行筛选。此时可以先将待处理文本输入至主题词抽取模型进行处理,以根据模型处理结果得到多个候选主题词,再用于后续进行文本主题词的过滤。
63.其中,主题词抽取模型具体是指能够抽取文本主题词的模型,且抽取到的主题词与真实的主题词可能存在一定的差异,相应的,候选主题词具体是指基于主题词抽取模型输出的主题词进行修正后,得到的可能作为待处理文本主题词的主题词。
64.进一步的,为保证候选主题词都是与待处理文本具有关联性的主题词,可以联合模型和规则完成修正,本实施例中,具体实现如步骤s2042至步骤s2044。
65.步骤s2042,将所述待处理文本输入至所述主题词抽取模型进行处理,获得初始候选主题词。
66.具体的,初始候选主题词具体是指主题词抽取模型输出的主题词,其数量为多个,需要通过修正以达到减少数量的目的,从而保证后续抽取文本主题词时,可以具有较高的效率和准确度。其中,主题词抽取模型可以采用预训练的bert模型,基于此,初始候选主题词抽取过程如下:
67.构建所述待处理文本对应的文本特征,并将所述文本特征输入至所述主题词抽取模型;通过所述主题词抽取模型中的编码单元对所述文本特征进行编码处理,获得编码向量;通过所述主题词抽取模型中的网络单元对所述编码向量进行转换处理,获得隐状态向量;通过所述主题词抽取模型中的线性单元对所述隐状态向量进行标注处理,获得所述待处理文本中每个字单元对应的标签;根据每个字单元对应的标签确定所述待处理文本对应的所述初始候选主题词,并输出所述主题词抽取模型。
68.具体的,文本特征具体是指对待处理文本进行向量化处理后得到的向量表达,其构建方式可以采用one-hot编码的方式,将待处理文本中的字单元映射到词表空间对应的位置,以结合字单元在词表空间中的位置生成待处理文本对应向量表达,其中,词表空间中记录各个字单元对应的向量表达。相应的,编码单元具体是指主题词抽取模型中对文本进行编码处理的编码层;相应的,网络单元具体是指主题词抽取模型中对编码向量进行逐字转换的长短期记忆网络层,通过对编码向量进行转换,得到待处理文本对应的隐状态表示;
相应的,线性单元具体是指对隐状态表示进行标注处理的线性层,用于确定待处理文本中每个字单元的标签,从而可以输出初始候选主题词。
69.基于此,在得到待处理文本后,首先可以先对待处理文本进行向量化处理,得到待处理文本对应的文本特征,此时文本特征符合模型输入要求,之后将文本特征输入至主题词抽取模型;通过主题词抽取模型中的编码单元对文本特征进行编码处理,可以得到待处理文本对应的编码向量;其次,再通过主题词抽取模型中的网络单元对编码向量进行转换,得到待处理文本对应的隐状态向量;再次,通过主题词抽取模型中的线性单元对隐状态向量进行标注,从而得到待处理文本中每个字单元对应的标签;最后,根据每个字单元对应的标签确定待处理文本对应的初始候选主题词,并输出主题词抽取模型即可。
70.也就是说,在对待处理文本进行初始候选主题词抽取时,可以先通过one-hot编码将待处理文本中包含的字单元映射到词表空间,得到文本特征,之后利用bert预训练模型对输入的文本特征进行编码,获得待处理文本对应的编码向量;再将编码向量输入lstm网络中,得到待处理文本对应的隐层表示,通过线性层对隐层表示进行处理,实现预测待处理文本中每个字单元的标签,从而得到模型输出的初始候选主题词。
71.综上,通过采用主题词抽取模型对待处理文本进行初步抽取主题词,可以得到多个关联待处理文本的初始候选主题词,以此为基础进行后续的文本主题词的抽取,可以有效的提高主题词抽取精度和效率。
72.步骤s2044,按照预设的主题词典和修正规则对所述初始候选主题词进行过滤,根据过滤结果确定所述候选主题词。
73.具体的,在上述得到初始候选主题词后,进一步的,考虑到主题词抽取模型的抽取精度有限,得到的初始候选主题词可能与真实的主题词存在误差,因此为了能够精准的确定候选主题词,方便后续进行深度筛选,可以结合预设的主题词典和修正规则对模型输出的初始候选主题词进行过过滤,从而根据过滤结果得到候选主题词。
74.其中,主题词典具体是指整合待处理文本所属领域大量主题词的词典,且词典中的主题词均具有标准的表达方式,比如,“冠心病”,其在词典中的标准表达方式为“冠状动脉粥样硬化性心脏病”;相应的,修正规则具体是指能够结合主题词典过滤掉初始候选主题词中不符合条件的主题词,将剩余的主题词作为候选主题词,修正规则包括但不限于限制主题词在待处理文本中的存在形式,或者主题词的字数,再或者主题词的词结构等。
75.沿用上例,在得到文章“...如今大气污染严重,环境保护是每个人不可推卸的责任
…”
后,可以先构建文章对应的文本特征,之后输入到主题词抽取模型进行处理,根据处理结果得到文章对应的初始候选主题词{环境污染、环境破坏、保护环境、大气污染、气候变暖}。进一步的,通过查询主题词典,确定“气候变暖”不存在于词典中,则此时可以将主题词“气候变暖”剔除,同时结合修正规则,确定“环境破坏”在文章中并未存在于双引号中,则此时可以将主题词“环境破坏”剔除,最后将{环境污染、保护环境、大气污染}作为文章对应的候选主题词,以用于后续使用。
76.综上,通过结合模型、词典和修正规则对待处理文本进行初步的主题词抽取,可以保证得到的候选主题词都是与待处理文本关联性强的主题词,方便后续可以在此基础上进行文本主题词的选择,以提高主题词抽取效率。
77.实际应用中,考虑到不同的领域对应不同的主题词表达方式,因此为了能够精准
的确定待处理文本对应的主题词,在先需要构建对应所属领域的主题词典,本实施例中,主题词典的确定具体如下:
78.确定所述待处理文本对应的目标领域,并获取关联所述目标领域的多个业务文本;对所述多个业务文本中的各个业务文本进行标准化处理,获得多个目标业务文本;对所述多个目标业务文本中的各个目标业务文本分别进行主题词标注处理,获得每个目标业务文本对应的业务主题词;根据每个目标业务文本对应的业务主题词构建所述主题词典。
79.具体的,目标领域具体是指待处理文本所属的领域,比如体育领域、环境保护领域、金融领域、电子科技领域等,不同的领域对应的业务文本不同;相应的,业务文本具体是指关联目标领域的文本,且数量较大,用于构建词典,可以使得词典尽可能的覆盖领域内的全部词汇;其中,对应目标领域的业务文本,可以通过设定规则从互联网中获取,或者从设定文本库中获取。相应的,标准化处理具体是指对业务文本进行数据清洗的处理,用于将业务文本中与文本实质不相关的内容清洗掉,比如清洗文本中的附图、译文解释等内容。相应的,业务主题词具体是指对每个目标业务文本进行标注处理后,得到的主题词,通过整合全部业务文本对应的业务主题词,即可得到对应目标领域的主题词典。
80.基于此,在主题词典构建阶段,可以先明确需要创建词典所属的目标领域,之后获取关联目标领域的多个业务文本,通过对每个业务文本进行标准化处理,得到多个目标业务文本。此后,再对每个目标业务文本进行主题词标注,得到每个目标业务文本对应的业务主题词,最后通过整合全部业务文本对应的业务主题词,即可得到对应目标领域的主题词典。
81.具体实施时,在对每个目标业务文本进行主题词标注时,可以采用人工标注、现有模型标注,或者预设规则的方式实现,本实施例在此不作任何限定。基于此,对初始候选主题词进行过滤时采用的修正规则可以结合标注业务主题词时的规则创建,比如业务主题词的标注需要在书名号中选择,则修正规则可以是关联书名号规则,实现在对初始候选主题词进行过滤时,需要选择关联书名号的主题词作为候选主题词。
82.综上,通过结合待处理文本所属的目标领域构建主题词典,并以此为基础结合修正规则对初始候选主题词进行过滤,可以保证得到的候选主题词与待处理文本之间的关联性,从而提高主题词抽取精准度。
83.步骤s206,基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表。
84.具体的,在上述得到待处理文本对应的多个候选主题词后,进一步的,由于候选主题词均为直接或间接来自于待处理文本,如通过对文本进行分析确定候选主题词,或者直接在文本中选择候选主题词,即候选主题词由待处理文本中的文字内容组成;而待处理文本的文本主题词还可以通过归纳总结的方式得到,这个时候得到的主题词可能并不出自于待处理文本原文,而是通过梳理后得到的主题词,因此考虑到这种情况带来的影响,还可以通过查询知识图谱,得到关联主题词,之后结合关联主题词和候选主题词组成候选主题词表,以用于后续进行筛选文本主题词。
85.其中,知识图谱具体是指以主题词作为实体,主题词之间的词汇联系作为关系构建的知识图谱,且词汇关系包括但不限于上位词、类型、下位词、相关词、同义词等,用于实现在确定候选主题词后,可以通过查询知识图谱,得到其关联的关联主题词,用于扩充词表
得到包含更多候选主题词的候选主题词表。相应的,关联主题词即为候选主题词关联的上位词、下位词、类别词、同义词等。相应的,候选主题词表即为整合全部候选主题词和关联主题词的词表,可以用于后续进行文本主题词的筛选。其中,知识图谱的构建如步骤s2062至步骤s2066。
86.步骤s2062,根据所述主题词典中包含的业务主题词查询主题词表库,获得所述业务主题词关联的关联业务主题词。
87.步骤s2064,建立所述业务主题词和所述关联业务主题词之间的主题词关系。
88.步骤s2066,基于所述主题词关系、所述业务主题词和所述关联业务主题词,构建所述知识图谱。
89.具体的,主题词表库具体是指对应设定语种主题词表的词库,如对应汉语主题词表的词库;其中,包含词以及词对应的类别、上位词、下位词、相关词、同义词,通过词以及词之间的对应关系来构建知识图谱;相应的,关联业务主题词即为主题词表库中与业务主题词具有对应关系的其他词;相应的,主题词关系即为词与词之间的对应关系,如类别、上位词、下位词、相关词、同义词等对应关系。
90.基于此,在得到业务主题词后,可以基于业务主题词查询主题词表库,从而获得业务主题词的关联业务主题词,之后根据业务主题词与关联业务主题词在主题词表库中体现的对应关系,建立主题词关系,最后即可整合关系和主题词构建出对应目标领域的知识图谱。
91.举例说明,参见图3中(a)所示的示意图,业务主题词为“一元醛”,以“一元醛”为基础查询主题词表库,如汉语主题词表的词库,得到“一元醛”的上位词包括{丁醛、辛醛、苯甲醛、呋喃甲醛

丁烯醛},此时即可结合“一元醛”、上位词关系以及上位词{丁醛、辛醛、苯甲醛、呋喃甲醛

丁烯醛}构建知识图谱,以方便后续在抽取关键词阶段进行使用。
92.综上,通过结合主题词表库构建知识图谱,可以实现从多个维度覆盖主题词关系,以保证构建出的知识图谱能够全面的体现词与词之间的关系,以在应用阶段,可以精准且高效的扩充词表。
93.进一步的,在基于候选主题词查询知识图谱时,实则是先确定候选主题词在图谱中的节点,之后选择与节点具有直接映射关系的词,作为关联主题词,本实施例中,具体实现如步骤s2122至步骤s2124。
94.步骤s2122,在所述知识图谱中确定所述候选主题词对应的目标节点,并确定与所述目标节点具有直接映射关系的关联节点。
95.步骤s2124,选择所述关联节点对应的主题词,作为所述候选主题词对应的所述关联主题词。
96.具体的,目标节点具体是指候选主题词在知识图谱中映射的节点,相应的,关联节点具体是指知识图谱中与目标节点具有直接映射关系的节点,关联节点对应的主题词,即为与候选主题词具有关联关系的关联主题词。
97.基于此,首先确定候选主题词在知识图谱中的目标节点,其次明确与目标节点具有直接映射关系的关联节点,最后即可选择关联节点对应的主题词,作为候选主题词对应的关联主题词。
98.沿用上例,在确定候选主题词{大气污染、环境污染、保护环境}后,可以基于各个
候选主题词查询知识图谱;由于知识图谱是根据主题词作为节点,主题词与主题词之间的类别、上位词、下位词、相关词和/或同义词等关系作为边,建立多个三元组组成的知识图谱;因此在查询知识图谱时,可以选择知识图谱中具有边连接的节点对应的主题词作为关联主题词。即在知识图谱中确定每个候选主题词对应的节点作为目标节点,之后选择知识图谱中与目标节点具有直接映射关系的节点作为关联节点,而关联节点对应其他主题词,这部分主题词属于候选主题词的类别、上位词、下位词、相关词和/或同义词等,因此在确定关联节点后,即可实现确定每个候选主题词对应的类别、上位词、下位词、相关词和/或同义词,根据查询结果,参见图3中(b)所示的示意图,确定“大气污染”对应的关联主题词包括相关词维度、下位词维度、上位词维度、同义词维度、英文维度、分配维度。并确定其对应的关联主题词包括{大气环境、大气能见度、二氧化碳、公害

总空气污染},同理,针对候选主题词“环境污染”和“保护环境”也分别查询知识图谱,并得到各个候选主题词对应的关联主题词,最后,通过整合候选主题词和其对应的关联主题词,将得到包含n个主题词的候选主题词表,以方便后续在n个主题词中确定文本主题词。
99.综上,通过结合知识图谱扩容词表,以得到候选主题词表,可以保证候选主题词表不仅包含基于原文内容生成的主题词,还包括关联内容概括的主题词,以此为基础进行文本主题词的确定,可以进一步保证主题词确定精度。
100.步骤s208,根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。
101.具体的,在上述得到候选主题词表后,进一步的,考虑到候选主题词表中包含大量的主题词,而不同的主题词与待处理文本之间的关联度并不相同,因此为提高文本主题词的抽取精度,可以结合基准主题词和文本组成元素对候选主题词表进行过滤,以根据过滤结果筛选出候选主题词表中关联待处理文本足够高的主题词作为文本主题词。
102.进一步的,在结合基准主题词和文本组成元素过滤文本主题词时,考虑到基准主题词和文本组成元素属于待处理文本不同的两部分,且二者具有不同的属性,因此可以先按照基准主题词对候选主题词表进行过滤,再利用文本组成元素进行深度过滤,本实施例中,具体实现如步骤s2082至步骤s2084。
103.步骤s2082,计算所述基准主题词与所述候选主题词表中包含的主题词之间的相似度,根据相似度计算结果生成中间候选主题词表。
104.具体的,相似度具体是指基准主题词与候选主题词表中包含的主题词之间的相似度,相似度体现主题词之间的相似程度,相似度越高,说明二者语义越相近,反之相似度越低,说明二者语义越不相近。相应的,中间候选主题词表具体是指根据相似度,从候选主题词表中剔除相似度较低的主题词后,得到的中间候选主题词表。
105.基于此,在得到候选主题词表后,为了能够提高主题词筛选精度,可以先结合基准主题词对候选主题词表进行初步的过滤,以根据过滤结果得到中间候选主题词表,实现后续可以在中间候选主题词表中确定文本主题词,以减少冗余主题词产生的影响。其中,根据相似度确定中间候选主题词表的过程如下:
106.确定所述基准主题词对应的基准主题词向量,以及所述候选主题词表中包含的主题词对应的候选主题词向量;计算所述基准主题词向量与每个候选主题词向量之间的词向量相似度;将所述词向量相似度与预设相似度阈值进行比较,根据比较结果在所述候选主
题词表中筛选中间候选主题词,组成所述中间候选主题词表。
107.具体的,基准主题词向量具体是指对基准主题词进行向量化处理后得到的向量表达;相应的,候选主题词向量具体是指对候选主题词表中包含的主题词进行向量化处理后得到的向量表达;相应的,词向量相似度具体是指通过计算向量与向量之间的spearman相关性系数得到的数值。
108.基于此,在得到候选主题词表和基准主题词后,为了能够减少冗余主题词产生的影响,此时可以先构建基准主题词对应的基准主题词向量,以及候选主题词表中包含的主题词对应的候选主题词向量;之后通过计算基准主题词向量与每个候选主题词向量之间的spearman相关性系数,可以得到词向量相似度。此时可以将词向量相似度与预设相似度阈值进行比较,根据比较结果选择大于相似度阈值的候选主题词作为中间候选主题词,并组成中间候选主题词表。
109.综上,通过以词向量为基础计算主题词之间的相似度,可以更加准确的确定主题词之间的相似程度,以此为基础筛选中间候选主题词组成中间候选主题词表,可以保证准确度,同时降低冗余主题词带来的影响。
110.步骤s2084,按照所述文本组成元素过滤所述中间候选主题词表,根据过滤结果确定所述待处理文本对应的所述文本主题词。
111.具体的,在上述得到中间候选主题词表后,进一步的,即可结合文本组成元素对中间候选主题词表进行二次过滤,即可实现根据过滤结果从中间候选主题词表,确定待处理文本对应的文本主题词。结合文本组成元素确定待处理文本对应的文本主题词的过程如步骤s21842至步骤s21846。
112.步骤s20842,确定所述文本组成元素中的文本标题和文本句单元。
113.步骤s20844,计算所述文本标题与所述中间候选主题词表包含的中间候选主题词之间的第一相似度,以及计算所述文本句单元与所述中间候选主题词表包含的中间候选主题词之间的第二相似度。
114.具体的,文本标题具体是指待处理文本对应的标题,文本句单元具体是指待处理文本对应的文本内容;相应的,第一相似度具体是指文本标题与中间候选主题词之间的相似度,第二相似度具体是指文本句单元与中间候选主题词之间的相似度,通过相似度能够体现中间候选主题词与待处理文本之间的语义相似程度。
115.实际应用中,在进行相似度计算时,可以采用余弦相似度、欧氏距离、明可夫斯基距离或皮尔森相关系数等方式实现,本实施例在此不作任何限定。
116.基于此,在确定文本组成元素后,可以对其进行拆分,得到待处理文本的文本标题和文本句单元,之后通过计算文本标题与各个中间候选主题词之间的第一相似度,以及文本句单元与各个中间候选主题词之间的第二相似度,可以实现后续结合第一相似度和第二相似度,从中间候选主题词表中筛选出与待处理文本关联度更高的主题词,用于作为文本主题词即可。以保证文本主题词的抽取精度。其中,第一相似度和第二相似度的计算过程如下:
117.确定所述文本标题对应的第一句向量,以及所述中间候选主题词表中包含的中间候选主题词对应的中间候选主题词向量,并计算所述第一句向量与每个中间候选主题词向量之间的所述第一相似度;确定所述文本句单元对应的第二句向量,并计算所述第二句向
量与每个中间候选主题词向量之间的所述第二相似度。
118.具体的,第一句向量具体是指文本标题经过向量化处理后得到的向量表达,相应的,中间候选主题词向量具体是指对中间候选主题词进行向量化处理后得到的向量表达,相应的,第二句向量具体是指对文本句单元进行向量化处理后得到的向量表达。
119.基于此,在通过基准主题词过滤得到中间候选主题词表后,可以在利用文本组成元素进行深度过滤,即先确定文本组成元素中文本标题对应的第一句向量,文本句单元对应的第二句向量,以及中间候选主题词表中包含的中间候选主题词对应的中间候选主题词向量。此时可以先计算第一句向量与每个中间候选主题词向量之间的第一相似度,之后再计算第二句向量与每个中间候选主题词向量之间的第二相似度,以方便后续结合第一相似度和第二相似度,从中间候选主题词表中筛选出文本主题词。
120.需要说明的是,第一句向量和第二句向量在进行构建时,可以将文本标题或者文本句单元输入至bert预训练语言模型获取各自的语义表达,将语义表达中的[cls]向量和句子向量平均,根据取值结果构建文本标题对应的第一句向量,以及文本句单元对应的第二句向量,然后再进行相似度的计算即可。本实施例以余弦相似度为例对相似度计算过程进行描述,其中,余弦相似度的计算公式如下:
[0121][0122]
similarity表示余弦相似度;a表示中间候选主题词向量,b表示第一句向量或第二句向量,n表示向量的维度。
[0123]
综上,通过采用计算相似度的方式确定各个中间候选主题词与文本句单元、文本标题之间的相似程度,以方便后续可以以此为基础进行联合确定每个中间候选主题词与待处理文本之间的相似度,再进行文本主题词的确定即可。
[0124]
步骤s20846,基于所述第一相似度和所述第二相似度,在所述中间候选主题词表中筛选所述文本主题词。
[0125]
具体的,在上述得到第一相似度和第二相似度后,即可通过整合二者确定每个中间候选主题词与文本组成元素之间的相似程度,之后根据相似度的整合结果,即可从中间候选主题词表中确定文本主题词。其中,确定文本主题词的过程如下:
[0126]
对所述第一相似度和所述第二相似度进行加权平均,获得所述中间候选主题词表中每个中间候选主题词对应的候选词分值;根据所述候选词分值对所述中间候选主题词表中包含的中间候选主题词进行排序,获得中间候选主题词序列;按照预设主题词选择策略,在所述中间候选主题词序列中选择至少一个中间候选主题词,作为所述文本主题词。
[0127]
具体的,候选词分值具体是指中间候选主题词表中每个中间候选主题词对应的分值,该分值表征中间候选主题词与待处理文本之间的相关程度,候选词分值越高,表明与待处理文本之间的相关程度越大。相应的,中间候选主题词序列具体是指按照分值进行排序后得到的序列,其中,排列顺序为按照从大到小的顺序,或按照从小到大的顺序。相应的,主题词选择策略具体是指根据实际需求设置的选择文本主题词的策略,包括但不限于选择主题词个数、主题词阈值比较等。
[0128]
基于此,在得到第一相似度和第二相似度后,可以明确各个中间候选主题词与文本标题和文本句单元之间的相近程度,此时可以对第一相似度和第二相似度进行加权平均,从而得到每个中间候选主题词对应的候选词分值;之后按照候选词分值对中间候选主题词进行排序,得到中间候选主题词序列;最后再按照主题词选择策略,在中间候选主题词序列中选择至少一个中间候选主题词,作为文本主题词即可。
[0129]
沿用上例,在得到包含n个候选主题词的词表,待处理文本对应的基准主题词、标题和文本内容后,可以针对各个候选主题词、基准主题词、标题和文本内容分别构建向量表达,得到基准主题词对应的向量表达为w1,标题对应的向量表达为w2,文本内容对应的向量表达为w3,词表中每个候选主题词的向量表达分别为wn1,wn2

wnn。
[0130]
进一步的,计算基准主题词对应的w1与词表中候选主题词的wn1,wn2

wnn,之间的spearman相关性系数,根据计算结果得到n个相关性系数,之后将n个相关性系数与预设阈值进行比较,剔除不超过阈值的候选主题词,此时确定候选主题词表中包含p个候选主题词,其中,p≤n。
[0131]
更进一步的,以余弦相似度为例,先计算标题对应的w2与词表中包含的p个候选主题词对应的向量表达之间的第一余弦相似度,再计算文本内容对应的w3与词表中包含的p个候选主题词对应的向量表达之间的第二余弦相似度。此后,再对第一余弦相似度和第二余弦相似度进行加权平均,根据计算结果将得到p个候选主题词与待处理文本之间的候选分值。最后,按照候选分值对p个候选主题词进行排序,即可得到候选主题词序列,再按照主题词选择规则,从中选择候选分值最高的x个主题词作为文章对应的文本主题词即可,其中,x≤p。如x=2,最后确定待处理文本对应的主题词包括{大气污染、空气净化}。
[0132]
综上,通过结合余弦相似度进行文本主题词的筛选,可以保障筛选出的文本主题词与待处理文本之间的相似程度,从而保证文本主题词的筛选准确度。
[0133]
此外,在进行文本主题词确定时,还可以先利用文本组成元素对候选主题词表进行过滤,再按照基准主题词进行深度过滤,从而得到待处理文本对应的文本主题词,具体实现如下:
[0134]
按照所述文本组成元素过滤所述候选主题词表,根据过滤结果确定中间候选主题词表;再计算所述基准主题词与所述中间候选主题词表中包含的主题词之间的相似度,根据相似度计算结果选择相似度最高的主题词作为所述待处理文本对应的文本主题词。
[0135]
也就是说,可以先按照文本组成元素对候选主题词进行过滤,从而得到包含与待处理文本关联度较高的主题词组成的中间候选主题词表,而为了能够确保文本主题词确定的准确性,可以计算基准主题词与中间候选主题词表中包含的主题词之间的相似度,以根据相似度计算结果,选择相似度最高的主题词作为待处理文本对应的文本主题词即可。需要说明的是,本实施例中未详尽描述的地方均可参见上述实施例中相似的描述,本实施例在此不作过多赘述。
[0136]
更进一步的,进行文本主题词确定时,除上述通过计算余弦相似度的方式外,还可以采用欧氏距离、明可夫斯基距离或皮尔森相关系数等方式实现计算中间候选主题词与待处理文本之间的语义相似程度,以根据计算结果筛选出对应待处理文本的文本主题词;实际应用中,可以根据实际需求选择,本实施例在此不作任何限定。
[0137]
本技术提供的文本处理方法,在获取到待处理文本后,可以先确定其对应的基准
主题词和文本组成元素,之后通过主题词抽取模型得到待处理文本对应的候选主题词,再结合知识图谱确定待处理文本对应的关联主题词,此时结合候选主题词和关联主题词可以构建候选主题词表,实现从多个维度扩充词表,使得词表内的候选主题词都与待处理文本具有关联性。之后以此为基础,利用基准主题词和文本组成元素筛选候选主题词表,以得到待处理文本对应的文本主题词。实现了通过结合图谱和模型的方式完成主题词抽取,可以进一步的提高主题词抽取精准度,且在此过程中,引入基准主题词和文本组成元素进行影响,使得被抽取的主题词与待处理文本的关联度更高,从而更加方便下游业务使用。
[0138]
下述结合附图4以本技术提供的文本处理方法在新闻主题抽取场景中的应用为例,对所述信息处理方法进行进一步说明。其中,图4示出了本技术一实施例提供的一种文本处理方法的处理流程图。
[0139]
步骤s402,获取多个新闻文档,并对每个新闻文档进行数据清洗获得多个目标新闻文档。
[0140]
为了能够在新闻主题抽取场景下准确的抽取新闻的主题词,可以通过网络下载至本地多个新闻文档。同时为了能够支持后续使用,可以按照预设的数据清洗策略对已经下载的新闻文档进行数据清洗,即删除新闻文档中的图片等操作。以根据处理结果得到多个目标新闻文档。
[0141]
步骤s404,对每个目标新闻文档进行标注处理,获得每个目标新闻文档对应的目标新闻主题词。
[0142]
步骤s406,根据目标新闻主题词构建新闻主题词词典,以及确定主题词筛选规则。
[0143]
在获得多个标准化的目标新闻文档后,可以采用人工标注的方式对每个新闻文档中的主题词进行标注,以根据主题词标注结果得到目标新闻主题词,此时则可以结合全部新闻文档对应的目标新闻主题词构建新闻主题词词典。同时为了能够在后续精准地筛选出文档对应的主题词,可以根据人工标注目标新闻主题词的操作过程,整理出主题词筛选规则。
[0144]
即人工标注目标新闻主题词时,大多数主题词都对应书名号《》和双引号
“”
,则此时创建的主题词筛选规则为:书名号和双引号中的文本内容为主题词,以用于后续进行主题词抽取处理操作。
[0145]
步骤s408,获取主题词表对应的主题词库,通过读取主题词库获得主题词表中各个主题词对应的主题词关系。
[0146]
步骤s410,根据主题词表中的各个主题词及其对应的主题词关系构建主题词知识图谱。
[0147]
本实施例以处理的新闻文档为中文为例进行说明。基于此,先获取汉语主题词表对应的主题词库,之后根据主题词库中包含的主题词关系,即主题词类别、上位词、下位词、相关词、同义词等,确定各个主题词之间的主题词关系。最后将各个主题词作为节点,结合主题词关系构建覆盖主题词表中全部主题词的知识图谱,用于后续扩展候选新闻主题词。
[0148]
步骤s412,获取待处理新闻文档。
[0149]
步骤s414,通过对待处理新闻文档进行主题词标注处理,获得初始新闻主题词。
[0150]
例如,待处理新闻文档内容为
“…
我国的营商环境还存在哪些问题
…”
,实际应用中待处理新闻文档包含的文字内容较多,为方便描述仅以部分内容为例进行说明。此时采
用序列标注的方式对待处理新闻文档中的字单元进行标注处理操作,得到标注结果为{我o、国o、的o、营b-i、商i-i、环i-i、境i-i、还o、存o、在o、哪o、些o、问o、题o};其中,o表示字单元不是主题词;
“‑”
之前的b表示主题词开始字单元(begin),
“‑”
之前的i表示主题词中间字单元(inside),即标签“b-i”表示字单元是句子中主题词的起始字单元;标签“i-i”表示字单元是句子中主题词的中间字单元。
[0151]
基于此,根据对待处理新闻文档进行标注处理,得到其对应的初始新闻主题词为“营商环境”。
[0152]
步骤s416,将待处理新闻文档输入至预先训练的主题词抽取模型进行处理,得到初始候选主题词。
[0153]
步骤s418,根据主题词词典和主题词筛选规则对初始候选主题词进行修正,得到中间候选主题词。
[0154]
通过one-hot编码将待处理新闻文档中的句子涉及到的字单元映射到词表对应的位置,得到句子对应的待处理新闻特征;之后将待处理新闻特征输入至bert预训练模型对输入的特征进行编码处理,得到文档中句子“我国的营商环境还存在哪些问题”对应的特征向量;之后将特征向量输入至模型中的lstm网络,得到文档中句子对应的隐层表示;再通过线性层预测句子中每个字单元对应的标签,即可实现通过主题词抽取模型对句子中的每个字单元进行预测的结果,即
“…
我国的营商环境还存在哪些问题
…”
中每个字单元对应的主题词预测结果。
[0155]
进一步的,由于待处理新闻文档中包含的内容较多,因此在完成主题词抽取操作后,将得到较多的初始候选主题词,为了能够提高主题词抽取精准度及效率,可以通过主题词词典对初始候选主题词进行初步修正,即剔除不存在于主题词词典中的初始候选主题词;再通过主题词筛选规则“书名号和双引号中的文本内容为主题词”进行二次修正,即剔除不关联书名号和双引号的初始候选主题词,最后根据修正结果即可得到中间候选主题词。
[0156]
步骤s420,根据中间候选主题词查询主题词知识图谱,获得中间候选主题词对应的关联主题词。
[0157]
步骤s422,根据中间候选主题词和关联主题词构建候选主题词表。
[0158]
考虑到主题词知识图谱是结合主题词对应的类别、上位词、下位词、相关词、同义词等关系构建的主题词,因此结合主题词知识图谱可以从多个维度完成候选主题词的扩增。
[0159]
基于此,通过在主题词知识图谱中选择中间主题词具有类别、上位词、下位词、相关词、同义词等关系的主题词,得到关联主题词,即初始候选主题词为“营商环境”,通过该主题词查询主题词知识图谱,可以确定与其关联的关联主题词{人文环境、市场环境},之后结合中间候选主题词和关联主题词构建候选主题词表{人文环境、市场环境、营商环境}。
[0160]
步骤s424,通过查询预设的词向量集合,确定初始新闻主题词对应的初始新闻词向量,以及候选主题词表中包含的各个主题词对应的候选词向量。
[0161]
通过查询tx词向量集合,将得到初始新闻主题词“营商环境”对应的词向量w1,以及候选主题词“人文环境”对应的词向量w2,候选主题词“市场环境”对应的词向量w3,候选主题词“营商环境”对应的词向量w4。
[0162]
步骤s426,计算初始新闻词向量与各个候选词向量之间的相似度,根据相似度计算结果确定目标候选主题词。
[0163]
计算候选主题词分别对应的词向量w2、w3和w4与初始新闻主题词的词向量w1之间的spearman相关性系数,根据计算结果确定初始新闻主题词“营商环境”与候选主题词“人文环境”之间的相似度为0.728,初始新闻主题词“营商环境”与候选主题词“市场环境”之间的相似度为0.878,以及初始新闻主题词“营商环境”与候选主题词“营商环境”之间的相似度为1。
[0164]
进一步的,将相似度与预设相似度阈值0.8进行比较,从候选主题词词表中剔除关联程度较低的候选主题词,根据比较结果确定目标候选主题词为“市场环境”和“营商环境”。
[0165]
步骤s428,确定待处理新闻文档对应的文档标题和文档内容。
[0166]
步骤s430,通过语言模型对待处理新闻文档对应的文档标题和文档内容分别进行处理,获得文档标题对应的第一向量,以及文档内容对应的第二向量。
[0167]
步骤s432,根据目标候选主题词对应的词向量、第一向量和第二词向量计算余弦相似度,根据余弦相似度计算结果确定目标主题词。
[0168]
首先确定待处理文档对应的文档标题以及文档内容,之后通过bert预训练语言模型对文档标题和文档内容分别进行处理,得到各自对应的语义表达,即第一向量和第二向量。即将其中的[cls]对应的向量、句子向量的平均等作为标题和文章对应的句向量。
[0169]
其次,以余弦相似度为例,通过如下公式计算目标候选主题词向量与第一向量和第二向量之间的余弦相似度,从而确定目标候选主题词“市场环境”与待处理新闻文档的文档标题的余弦相似度为s11,与文档内容的余弦相似度为s12,以及目标候选主题词“营商环境”与待处理新闻文档的文档标题的余弦相似度为s21,与文档内容的余弦相似度为s22。
[0170][0171]
其中,similarity表示余弦相似度;a表示目标候选主题词对应的词向量,b表示第一向量或第二向量。n表示向量的维度。
[0172]
再次,在得到余弦相似度后,通过加权求和的方式确定每个目标候选主题词对应的相似度分值,即目标候选主题词“市场环境”的相似度分值为(s11*a+s12*b)=d1,以及目标候选主题词“营商环境”的相似度分值为(s21*a+s22*b)=d2。
[0173]
最后,按照相似度分值对目标候选主题词进行排序,根据排序结果确定d2》d1,则此时选择目标候选主题词“营商环境”作为待处理新闻文档的目标主题词即可。
[0174]
综上,通过使用少量的标注数据,并结合bert语言模型、规则、词典相结合,通过序列标注方法抽取文章主题词,通过网络查的词表构建知识图谱,来扩增主题词,在最后的主题选择的过程中,采用候选主题词、标题、文章内容计算相关分数,增加模型的准确性,从而提高主题词抽取精准度。
[0175]
与上述方法实施例相对应,本技术还提供了文本处理装置实施例,图5示出了本技术一实施例提供的一种文本处理装置的结构示意图。如图5所示,该装置包括:
[0176]
获取模块502,被配置为获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素;
[0177]
处理模块504,被配置为将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词;
[0178]
构建模块506,被配置为基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表;
[0179]
筛选模块508,被配置为根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。
[0180]
一个可选的实施例中,所述获取模块502进一步被配置为:
[0181]
将所述待处理文本输入至序列标注模型进行处理,获得所述待处理文本中每个字单元对应的标注信息;在每个字单元对应的标注信息中,确定起始标注信息和中间标注信息;按照所述起始标注信息和所述中间标注信息,在所述待处理文本中确定起始字单元和中间字单元;根据所述起始字单元和所述中间字单元生成所述基准主题词。
[0182]
一个可选的实施例中,所述处理模块504进一步被配置为:
[0183]
将所述待处理文本输入至所述主题词抽取模型进行处理,获得初始候选主题词;按照预设的主题词典和修正规则对所述初始候选主题词进行过滤,根据过滤结果确定所述候选主题词。
[0184]
一个可选的实施例中,所述处理模块504进一步被配置为:
[0185]
确定所述待处理文本对应的目标领域,并获取关联所述目标领域的多个业务文本;对所述多个业务文本中的各个业务文本进行标准化处理,获得多个目标业务文本;对所述多个目标业务文本中的各个目标业务文本分别进行主题词标注处理,获得每个目标业务文本对应的业务主题词;根据每个目标业务文本对应的业务主题词构建所述主题词典。
[0186]
一个可选的实施例中,所述知识图谱的构建,包括:
[0187]
根据所述主题词典中包含的业务主题词查询主题词表库,获得所述业务主题词关联的关联业务主题词;建立所述业务主题词和所述关联业务主题词之间的主题词关系;基于所述主题词关系、所述业务主题词和所述关联业务主题词,构建所述知识图谱。
[0188]
一个可选的实施例中,所述构建模块506进一步被配置为:
[0189]
在所述知识图谱中确定所述候选主题词对应的目标节点,并确定与所述目标节点具有直接映射关系的关联节点;选择所述关联节点对应的主题词,作为所述候选主题词对应的所述关联主题词。
[0190]
一个可选的实施例中,所述筛选模块508进一步被配置为:
[0191]
计算所述基准主题词与所述候选主题词表中包含的主题词之间的相似度,根据相似度计算结果生成中间候选主题词表;按照所述文本组成元素过滤所述中间候选主题词表,根据过滤结果确定所述待处理文本对应的所述文本主题词。
[0192]
一个可选的实施例中,所述筛选模块508进一步被配置为:
[0193]
确定所述文本组成元素中的文本标题和文本句单元;计算所述文本标题与所述中间候选主题词表包含的中间候选主题词之间的第一相似度,以及计算所述文本句单元与所述中间候选主题词表包含的中间候选主题词之间的第二相似度;基于所述第一相似度和所述第二相似度,在所述中间候选主题词表中筛选所述文本主题词。
[0194]
一个可选的实施例中,所述筛选模块508进一步被配置为:
[0195]
对所述第一相似度和所述第二相似度进行加权平均,获得所述中间候选主题词表中每个中间候选主题词对应的候选词分值;根据所述候选词分值对所述中间候选主题词表中包含的中间候选主题词进行排序,获得中间候选主题词序列;按照预设主题词选择策略,在所述中间候选主题词序列中选择至少一个中间候选主题词,作为所述文本主题词。
[0196]
一个可选的实施例中,所述筛选模块508进一步被配置为:
[0197]
确定所述基准主题词对应的基准主题词向量,以及所述候选主题词表中包含的主题词对应的候选主题词向量;计算所述基准主题词向量与每个候选主题词向量之间的词向量相似度;将所述词向量相似度与预设相似度阈值进行比较,根据比较结果在所述候选主题词表中筛选中间候选主题词,组成所述中间候选主题词表。
[0198]
一个可选的实施例中,所述筛选模块508进一步被配置为:
[0199]
确定所述文本标题对应的第一句向量,以及所述中间候选主题词表中包含的中间候选主题词对应的中间候选主题词向量,并计算所述第一句向量与每个中间候选主题词向量之间的所述第一相似度;相应的,所述计算所述文本句单元与所述中间候选主题词表包含的中间候选主题词之间的第二相似度,包括:确定所述文本句单元对应的第二句向量,并计算所述第二句向量与每个中间候选主题词向量之间的所述第二相似度。
[0200]
一个可选的实施例中,所述处理模块504进一步被配置为:
[0201]
构建所述待处理文本对应的文本特征,并将所述文本特征输入至所述主题词抽取模型;通过所述主题词抽取模型中的编码单元对所述文本特征进行编码处理,获得编码向量;通过所述主题词抽取模型中的网络单元对所述编码向量进行转换处理,获得隐状态向量;通过所述主题词抽取模型中的线性单元对所述隐状态向量进行标注处理,获得所述待处理文本中每个字单元对应的标签;根据每个字单元对应的标签确定所述待处理文本对应的所述初始候选主题词,并输出所述主题词抽取模型。
[0202]
本技术提供的文本处理装置,在获取到待处理文本后,可以先确定其对应的基准主题词和文本组成元素,之后通过主题词抽取模型得到待处理文本对应的候选主题词,再结合知识图谱确定待处理文本对应的关联主题词,此时结合候选主题词和关联主题词可以构建候选主题词表,实现从多个维度扩充词表,使得词表内的候选主题词都与待处理文本具有关联性。之后以此为基础,利用基准主题词和文本组成元素筛选候选主题词表,以得到待处理文本对应的文本主题词。实现了通过结合图谱和模型的方式完成主题词抽取,可以进一步的提高主题词抽取精准度,且在此过程中,引入基准主题词和文本组成元素进行影响,使得被抽取的主题词与待处理文本的关联度更高,从而更加方便下游业务使用。
[0203]
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0204]
图6示出了根据本技术一实施例提供的一种计算设备600的结构框图。该计算设备
600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
[0205]
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
[0206]
在本技术的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0207]
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
[0208]
其中,处理器620用于执行所述文本处理方法的计算机可执行指令。
[0209]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
[0210]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于文本处理方法。
[0211]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
[0212]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0213]
本技术一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述****方法的步骤。
[0214]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申
请所必须的。
[0215]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0216]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

技术特征:


1.一种文本处理方法,其特征在于,包括:获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素;将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词;基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表;根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本的基准主题词,包括:将所述待处理文本输入至序列标注模型进行处理,获得所述待处理文本中每个字单元对应的标注信息;在每个字单元对应的标注信息中,确定起始标注信息和中间标注信息;按照所述起始标注信息和所述中间标注信息,在所述待处理文本中确定起始字单元和中间字单元;根据所述起始字单元和所述中间字单元生成所述基准主题词。3.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词,包括:将所述待处理文本输入至所述主题词抽取模型进行处理,获得初始候选主题词;按照预设的主题词典和修正规则对所述初始候选主题词进行过滤,根据过滤结果确定所述候选主题词。4.根据权利要求3所述的方法,其特征在于,所述主题词典的确定,包括:确定所述待处理文本对应的目标领域,并获取关联所述目标领域的多个业务文本;对所述多个业务文本中的各个业务文本进行标准化处理,获得多个目标业务文本;对所述多个目标业务文本中的各个目标业务文本分别进行主题词标注处理,获得每个目标业务文本对应的业务主题词;根据每个目标业务文本对应的业务主题词构建所述主题词典。5.根据权利要求4所述的方法,其特征在于,所述知识图谱的构建,包括:根据所述主题词典中包含的业务主题词查询主题词表库,获得所述业务主题词关联的关联业务主题词;建立所述业务主题词和所述关联业务主题词之间的主题词关系;基于所述主题词关系、所述业务主题词和所述关联业务主题词,构建所述知识图谱。6.根据权利要求1所述的方法,其特征在于,所述基于所述候选主题词查询知识图谱得到关联主题词,包括:在所述知识图谱中确定所述候选主题词对应的目标节点,并确定与所述目标节点具有直接映射关系的关联节点;选择所述关联节点对应的主题词,作为所述候选主题词对应的所述关联主题词。7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词,包括:计算所述基准主题词与所述候选主题词表中包含的主题词之间的相似度,根据相似度
计算结果生成中间候选主题词表;按照所述文本组成元素过滤所述中间候选主题词表,根据过滤结果确定所述待处理文本对应的所述文本主题词。8.根据权利要求7所述的方法,其特征在于,所述按照所述文本组成元素过滤所述中间候选主题词表,根据过滤结果确定所述待处理文本对应的所述文本主题词,包括:确定所述文本组成元素中的文本标题和文本句单元;计算所述文本标题与所述中间候选主题词表包含的中间候选主题词之间的第一相似度,以及计算所述文本句单元与所述中间候选主题词表包含的中间候选主题词之间的第二相似度;基于所述第一相似度和所述第二相似度,在所述中间候选主题词表中筛选所述文本主题词。9.根据权利要求8所述的方法,其特征在于,所述基于所述第一相似度和所述第二相似度,在所述中间候选主题词表中筛选所述文本主题词,包括:对所述第一相似度和所述第二相似度进行加权平均,获得所述中间候选主题词表中每个中间候选主题词对应的候选词分值;根据所述候选词分值对所述中间候选主题词表中包含的中间候选主题词进行排序,获得中间候选主题词序列;按照预设主题词选择策略,在所述中间候选主题词序列中选择至少一个中间候选主题词,作为所述文本主题词。10.根据权利要求7所述的方法,其特征在于,所述计算所述基准主题词与所述候选主题词表中包含的主题词之间的相似度,根据相似度计算结果生成中间候选主题词表,包括:确定所述基准主题词对应的基准主题词向量,以及所述候选主题词表中包含的主题词对应的候选主题词向量;计算所述基准主题词向量与每个候选主题词向量之间的词向量相似度;将所述词向量相似度与预设相似度阈值进行比较,根据比较结果在所述候选主题词表中筛选中间候选主题词,组成所述中间候选主题词表。11.根据权利要求8所述的方法,其特征在于,所述计算所述文本标题与所述中间候选主题词表包含的中间候选主题词之间的第一相似度,包括:确定所述文本标题对应的第一句向量,以及所述中间候选主题词表中包含的中间候选主题词对应的中间候选主题词向量,并计算所述第一句向量与每个中间候选主题词向量之间的所述第一相似度;相应的,所述计算所述文本句单元与所述中间候选主题词表包含的中间候选主题词之间的第二相似度,包括:确定所述文本句单元对应的第二句向量,并计算所述第二句向量与每个中间候选主题词向量之间的所述第二相似度。12.根据权利要求3所述的方法,其特征在于,所述将所述待处理文本输入至所述主题词抽取模型进行处理,获得初始候选主题词,包括:构建所述待处理文本对应的文本特征,并将所述文本特征输入至所述主题词抽取模
型;通过所述主题词抽取模型中的编码单元对所述文本特征进行编码处理,获得编码向量;通过所述主题词抽取模型中的网络单元对所述编码向量进行转换处理,获得隐状态向量;通过所述主题词抽取模型中的线性单元对所述隐状态向量进行标注处理,获得所述待处理文本中每个字单元对应的标签;根据每个字单元对应的标签确定所述待处理文本对应的所述初始候选主题词,并输出所述主题词抽取模型。13.一种文本处理装置,其特征在于,包括:获取模块,被配置为获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素;处理模块,被配置为将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词;构建模块,被配置为基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表;筛选模块,被配置为根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。14.一种计算设备,其特征在于,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至12任意一项所述方法的步骤。15.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。

技术总结


本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取待处理文本,并确定所述待处理文本的基准主题词和文本组成元素;将所述待处理文本输入至主题词抽取模型进行处理,根据处理结果确定候选主题词;基于所述候选主题词查询知识图谱得到关联主题词,并根据所述关联主题词和所述候选主题词构建所述待处理文本对应的候选主题词表;根据所述基准主题词和所述文本组成元素,在所述候选主题词表中筛选所述待处理文本对应的文本主题词。实现通过结合图谱和模型的方式完成主题词抽取,可以进一步的提高主题词抽取精准度。以进一步的提高主题词抽取精准度。以进一步的提高主题词抽取精准度。


技术研发人员:

潘璋 李长亮

受保护的技术使用者:

北京金山数字娱乐科技有限公司

技术研发日:

2022.12.23

技术公布日:

2023/3/10

本文发布于:2024-09-20 14:42:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/69522.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:主题词   所述   文本   词表
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议