基于持续学习的事件抽取的模型训练、事件抽取的方法



1.本公开属于自然语言处理技术领域,尤其涉及一种基于持续学习的事件抽取的模型训练、事件抽取的方法、装置、电子设备。


背景技术:



2.随着大数据时代互联网的发展,社交媒体、新媒体、自媒体等新兴媒体快速发展起来,产生了海量文本数据。新闻较为常见的载体是文本,文本是一种较为容易获取有价值信息的方式。新闻的来源较为广泛,产生新闻信息的方式各种各样,导致新闻文本的格式和蕴含的信息杂乱无章,同时产生的新闻信息的数量较为庞大,完全依赖人工较难以实现新闻事件的检测。
3.虽然针对动态新增的事件类型而言,利用事件检测模型可以解决一定的问题,但是也存在一定的缺点,例如:需要将新增的文本数据和历史数据进行整合,重新训练模型,但这种方法需要较长时问且占用较多的资源,且不能较好的对新增待抽取的事件进行正确检测、分类。
4.因此,训练一个具有持续学习能力的事件抽取模型,实现持续抽取新增事件的能力,具有重要的研究与应用价值。


技术实现要素:



5.鉴于上述问题,本公开提供了一种基于持续学习的事件抽取的模型训练、事件抽取的方法、装置、电子设备。
6.根据本公开的第一个方面,提供了一种基于持续学习的事件抽取的模型训练方法,包括:
7.获取文本流数据集,文本流数据集包括第0~第t-1个模型已经记忆的历史文本流数据和第t~第n个需要判识的新增文本流数据,其中,t≥1,n≥t;
8.将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与文本流数据集中文本对应的第一融合特征向量
9.采用知识蒸馏的方式,利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到的基于持续学习的事件抽取模型,包括:
10.将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;
11.通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量;
12.将前t-1个第一融合特征向量输入至待训练的基于持续学习的教师网络中,得到前t-1个第三特征向量;
13.根据第t个第一特征向量和有标签文本流数据,得到第一损失值;
14.根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;
15.将第一损失值和第二损失值加和,得到总损失值;
16.利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。
17.根据本公开的实施例,获取训练流数据集,包括:
18.获取文本流数据;
19.对获取文本流数据进行清洗,得到无标签文本流数据;
20.对无标签文本流数据进行标注,得到有标签文本流数据;
21.将有标签文本流数据和无标签文本流数据进行融合,得到文本流数据集。
22.根据本公开的实施例,将文本流数据集输入至预训练的语言模型和自注意力机制中,得到与文本流数据集中文本对应的第一融合特征向量包括:
23.将文本流数据集中的每个文本流数据输入基于预训练的语言模型中,输出与文本流数据对应的文本流特征向量,得到n个文本流特征向量,每个文本流特征向量中包括不同子句分别对应的第一特征子向量;
24.针对每个文本流特征向量,利用自注意力机制对文本流特征向量中的第一特征子向量进行融合,得到与文本流数据集中文本对应的第一融合特征向量。
25.根据本公开的实施例,历史增强特征转移网络由全连接层神经网络和非线性激活层组成。
26.根据本公开的实施例,基于持续学习的事件抽取的模型训练方法还包括:
27.对训练完成的基于持续学习的事件抽取模型进行更新,更新包括:
28.将训练完成的基于持续学习的事件抽取模型的学生网络作为教师网络,将第t+1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中进行新一轮的基于持续学习的事件抽取模型训练,得到更新后的基于持续学习的事件抽取模型。
29.本公开的第二个方面提供了一种基于持续学习的事件抽取方法,包括:
30.获取待抽取文本流数据,其中,待抽取文本流数据为需要判识的新增文本数据;
31.将待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与待抽取文本流数据中待抽取文本相对应的第二融合特征向量;
32.将第二融合特征向量输入至基于持续学习的事件抽取模型中,得到事件抽取结果,其中,基于持续学习的事件抽取模型是由上述实施例中一种基于持续学习的事件抽取的模型训练方法训练得到;
33.将事件抽取结果输入至序列分类模型中,得到事件抽取类别;
34.其中,将待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与待抽取文本流数据中待抽取文本相对应的第二融合特征向量包括:
35.将待抽取文本流数据输入至预训练语言模型中,得到待抽取文本流特征向量,待抽取文本流特征向量包括不同子句分别对应的第二特征子向量;
36.针对待抽取文本流特征向量,利用自注意机制对待抽取文本流特征向量中的第二特征子向量进行融合,得到与待抽取文本流数据中待抽取文本对应的第二融合特征向量。
37.根据本公开的实施例,待抽取文本流数据是通过如下方式得到:
38.获取待抽取文本流数据;
39.对获取的待抽取文本流数据进行清洗,得到无标签待抽取文本流数据;
40.对无标签待抽取文本流数据进行标注,得到有标签待抽取文本流数据,
41.将有标注待抽取文本流数据和无标签的待抽取文本流数据融合,得到待抽取文本流数据。
42.本公开的第三个方面,提供了一种基于持续学习的事件抽取的模型训练装置,包括:
43.第一获取模块,用于获取文本流数据集,文本流数据集包括第0~第t-1个模型已经记忆的历史流数据和第t~第n个需要判识的新增流数据,其中,t≥1,n≥t;
44.第一处理模块,用于将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与文本流数据集中文本对应的第一融合特征向量;
45.模型训练模块,用于采用知识蒸馏的方式,利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型包括:
46.将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;
47.通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量;
48.将前t-1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量;
49.根据第t个第一特征向量和有标签文本流数据,得到第一损失值;
50.根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;
51.将第一损失值和第二损失值加和,得到总损失值;
52.利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。
53.本公开的第四个方面,提供了一种基于持续学习的事件抽取装置,包括:
54.第二获取模块,用于获取待抽取文本流数据,其中,待抽取文本流数据为需要判识的新增文本数据;
55.第二处理模块,用于将待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与待抽取文本流数据中待抽取文本相对应的第二融合特征向量;
56.事件抽取模块,用于将第二融合特征向量输入至基于持续学习的事件抽取模型中,得到事件抽取结果,其中,基于持续学习的事件抽取模型由上述实施例中一种基于持续学习的事件抽取的模型训练方法训练得到;
57.分类模块,用于将事件抽取结果输入至序列分类模型中,得到事件抽取类别。
58.本公开的第五个方面,提供了一种电子设备,包括:
59.一个或多个处理器;
60.存储装置,用于存储一个或多个程序,
61.其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述基于持续学习的事件抽取的模型训练、事件抽取的方法。
62.本公开的第六个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述基于持续学习的事件抽取的模型、事件抽取的方
法。
63.根据本公开的实施例,获取文本流数据集,将文本流数据集中的每个文本流数据输入至预训练的语言模型和自注意力机制中进行处理,通过预训练语言模型将文本流数据转化为文本流特征向量,其中,n个文本流数据对应着n个文本流特征向量,n≥t。每个文本流特征向量中包括不同子句分别对应的第一特征向量,然后再利用自注意力机制对文本流特征向量中的第一特征子向量进行融合,在融合过程中构建每个文本流中每个子句与其它子句之间的上下文关系,得到与文本流数据集中文本对应的第一融合特征向量。
64.然后,采用知识蒸馏的方式,利用第一融合特征向量对待训练的基于持续学习的事件抽取模型中的学生网络和教师网络进行学习,通过将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,利用学生网络对新增的流数据进行学习,得到第t个第一特征向量;将前t-1个第一融合特征向量输入至待训练的基于持续学习的教师网络中,利用教师网络对前t-1个数据进行学习,得到前t-1个第三特征向量;通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,即利用历史增强特征转移网络将需要判识的新增文本流特征向量映射至历史文本流特征向量的特征维度中,得到第t-1个第二特征向量,利用历史增强特征转移网络能够通过重构历史文本流数据中的特征来保留和调整新增文本流数据和历史文本流数据的特征分布。使得重构后的历史文本流数据的特征空间负责保存历史特征数据,新增文本流数据的特征空间只专注于学习新增文本流数据的特征分类,从而实现模型在学习新增文本流数据中特征的同时不遗忘历史文本流数据中的特征。
65.最后,根据第t个第一特征向量和有标签文本流数据,得到第一损失值,根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;将第一损失值和第二损失值加和,得到总损失值;利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络并对其进行优化,从而得到基于持续学习的事件抽取模型,该模型具有良好的记忆能力能够在每一次训练完成一个新增文本流数据中的特征信息以后,能够保留历史文本流数据中的特征分布信息。
附图说明
66.通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
67.图1示意性示出了传统事件抽取模型的检测示意图;
68.图2示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练、事件抽取的方法、装置、设备的系统架构图;
69.图3示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练方法的流程图;
70.图4示意性示出了根据本公开实施例基于持续学习的事件抽取的模型训练方法中特征转移网络的架构示意图;
71.图5示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练方法的模型架构图;
72.图6示意性示出了根据本公开另一实施例种基于持续学习的事件抽取的模型训练
方法的流程图;
73.图7示意性示出了根据本公开实施例的基于持续学习的事件抽取方法的流程图;
74.图8示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练装置的结构框图;
75.图9示意性示出了根据本公开实施例的基于持续学习的事件抽取装置的结构框图;以及
76.图10示意性示出了根据本公开实施例的适于实现基于持续学习的事件抽取的模型、事件抽取的方法的电子设备的方框图。
具体实施方式
77.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
78.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
79.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
80.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
81.事件抽取包括事件类型识别和和事件论元抽取,事件类型抽取指的是从给定的文本数据中抽取存在的事件触发词并判断事件类型,事件论元抽取指的是从给定文本中抽取出事件的论元,并识别参与者的类型。
82.传统的事件抽取检测模型通常在模型训练和测试期间的所有数据服从相互的独立分布,通过此方法训练得到的事件抽取模型过于理想化。因为新的事件类型会不断出现并形成新的不同的分类,对于实时流数据而言,理想化的模型并不适用于实际应用。为了解决这种问题,一种较为简单的方法是在训练好的传统事件抽取模型上对新增事件类型进行微调,例如:如图1所示,利用meet事件数据(会晤事件或其它事件类型)对事件抽取模型进行训练,得meet事件上训练好的事件抽取模型,该事件抽取模型最初可以正确分类meet事件的类别。当利用elect事件(推选事件)对meet事件上训练好的事件抽取模型进行微调之后,meet事件类型的输出特征空间与elect事件类型的输出特征空间混合在一起,当再次将meet事件数据输入至微调后的事件抽取模型(在elect事件类型上训练好的meet事件抽取模型)中,微调后的事件抽取模型错误地将meet事件类型分类为elect事件类型,这种现象被称为灾难性遗忘。
83.为了解决这一问题,提出了一种基于知识蒸馏框架的传统事件抽取模型,知识蒸馏框架是一种教师-学生网络结构,通常是以已经训练好的教师网络来提供历史事件类型知识,学生网络通过知识蒸馏训练来获取教师网络中的知识,其可以以较小的性能损失为代价将从复杂的教师网络中学习到的特征知识迁移到简单的学生网络中,学生网络可以再继续学习新增事件知识(新增事件类型特征知识)。知识蒸馏还具有在训练过程中不需要额外的工具或数据存储优势,减少资源的使用。
84.但是,基于知识蒸馏算法的传统事件抽取模型也存在一些主要问题,如模型在训练过程中,模型不能同时实现历史事件类型特征的保留与模型在新增事件类型学习中共享的输出特征之间存在的保留和调整冲突问题,即传统的事件抽取模型在历史事件类型学习的特征空间与新增事件类型学习的特征空间可能存在一定程度的交叉和混合,可能使模型丢失一定程度的特征知识;以及在模型训练过程中,因事件抽取模型未能充分利用历史事件类型的特征知识,容易使事件抽取模型容易忘记已经学习到的知识,从而不能有效的利用历史事件类型的特征知识的问题,从而导致模型对新增事件类型和历史事件类型的学习效果均产生影响,也就无法直接将知识蒸馏算法运用到传统的事件抽取模型中实现持续事件的检测。
85.为此,本公开提供了一种基于知识蒸馏框架和历史增强特征转移网络的持续学习的事件抽取的模型训练方法,该方法能够对事件进行持续性抽取检测,其中抽取的事件可以关于实时的经济新闻、娱乐新闻、小说等文本内容。本公开的基于持续学习的事件抽取是事件抽取的扩展任务,能够不断从实时的新增文本事件中学习新的事件类型特征知识,并能保存大部分已经学习过的历史事件类型知识。本公开利用知识蒸馏框架,通过采用预先训练好的教师网络的输出作为监督信号去训练另一个简单的学生网络,通过教师网络的指导,学生网络可以更好的保留教师网络中的特征信息。另外,本公开提供的基于持续学习的事件抽取模型在面对需要判识的新增事件类型时,不需要重新建立知识库或训练文本流数据集,而是在原有训练完成的基于持续学习的事件抽取模型基础上,直接训练新增事件,即可实现新增事件类型的检测。同时,通过利用历史增强特征转移网络,在尽可能不影响历史事件类型特征分布的情况下将新增事件类型特征分布补充到历史事件的特征空间上,通过重构历史事件类型的特征分布来分离保留、调整新增事件和历史事件的特征分布。重构后的历史事件的特征空间负责保存历史特征数据,新增事件的特征空间只专注于学习新增事件的特征分布,从而使基于持续学习的事件抽取模型具有良好的记忆能力,保证模型能够有效的区分不同事件类型的特征分布,以及在学习新增事件类型知识的同时不会忘记以前学到的历史事件类型知识,仍可实现历史事件的检测。
86.根据本公开的实施例,提供了一种基于持续学习的事件抽取的模型训练方法,包括:
87.获取文本流数据集,文本流数据集包括第0~第t-1个模型已经记忆的历史文本流数据和第t~第n个需要判识的新增文本流数据,其中,t≥1,n≥t;
88.将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与文本流数据集中文本对应的第一融合特征向量;
89.采用知识蒸馏的方式,利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型,包括:
90.将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;
91.通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量;
92.将前t-1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量;
93.根据第t个第一特征向量和有标签文本流数据,得到第一损失值;
94.根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;
95.将第一损失值和第二损失值加和,得到总损失值;
96.利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。
97.图2示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练、事件抽取的方法、装置、设备的系统架构图。
98.如图2所示,根据该实施例的应用场景200可以包括第一终端设备201、第二终端设备202、第三终端设备203。网络204用以在第一终端设备201、第二终端设备202、第三终端设备203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
99.用户可以使用第一终端设备201、第二终端设备202、第三终端设备203通过网络204与服务器205交互,以接收或发送消息等。第一终端设备201、第二终端设备202、第三终端设备203上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
100.第一终端设备201、第二终端设备202、第三终端设备203可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
101.服务器205可以是提供各种服务的服务器,例如对用户利用第一终端设备201、第二终端设备202、第三终端设备203所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
102.需要说明的是,本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的方法一般可以由服务器205执行。相应地,本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的装置一般可以设置于服务器205中。本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的方法也可以由不同于服务器205且能够与第一终端设备201、第二终端设备202、第三终端设备203和/或服务器205通信的服务器或服务器集执行。相应地,本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的装置也可以设置于不同于服务器205且能够与第一终端设备201、第二终端设备202、第三终端设备203和/或服务器205通信的服务器或服务器集中。
103.本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的方法也可以由第一终端设备201、第二终端设备202、第三终端设备203执行。相应地,本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的装置一般也可以设置于第一终端设备
201、第二终端设备202、第三终端设备203中。本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的方法也可以由不同于第一终端设备201、第二终端设备202、第三终端设备203的其它终端执行。相应地,本公开实施例所提供的基于持续学习的事件抽取的模型、事件抽取的装置也可以设置于不同于第一终端设备201、第二终端设备202、第三终端设备203的其它终端中。
104.应该理解,图2中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
105.以下将基于图2描述的场景,通过图3~图7对公开实施例的基于持续学习的事件抽取的模型训练、事件抽取方法进行详细描述。
106.图3示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练方法的流程图。
107.如图3所示,该实施例的基于持续学习的事件抽取的模型训练方法包括操作s310~操作s330。
108.在操作s310,获取文本流数据集,文本流数据集包括第0~第t-1个模型已经记忆的历史流数据和第t~第n个需要判识的新增流数据,其中,t≥1,n≥t。
109.在操作s320,将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与文本流数据集中文本对应的第一融合特征向量。
110.在操作s330,采用知识蒸馏的方式,利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型,包括:
111.将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;
112.通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量;
113.将前t-1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量;
114.根据第t个第一特征向量和有标签文本流数据,得到第一损失值;
115.根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;
116.将第一损失值和第二损失值加和,得到总损失值;
117.利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。
118.根据本公开实施例,在步骤s310中,获取的文本流数据集中有n个流,n个流可以是n句话。对于n个文本流数据而言,其中,第0~第t-1个为模型已经记忆的历史文本流数据和第t~第n个为需要判识的新增文本流数据,其中,t≥1,n≥t。
119.根据本公开的实施例,获取文本流数据集包括:
120.获取文本流数据;
121.对获取文本流数据进行清洗,得到无标签文本流数据;
122.对无标签文本流数据进行标注,得到有标签文本流数据;
123.将有标签文本流数据和无标签文本流数据进行融合,得到文本流数据集。
124.根据本公开的实施例,根据需求,利用网络爬虫技术从网页中获取相关的文本流
数据,相关的文本流数据可以是实时的新闻、小说等文本信息。所谓网络爬虫,即是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,具体表现为:首先通过网页请求,获得目标服务器的响应,然后利用相关脚本对返回的相应进行解析,并且获取其中重要的资源。
125.根据本公开的实施例,因网络爬取到的数据存在乱码、重复等问题,需要利用相关的正则表达式规则来对数据进行清洗,去除文本流数据中重复、乱码等文本数据,以及对错误的文本数据进行纠正,使得最终输出的文本尽量能够通顺,并且通过阅读可以理解文本含义,即得到无标签文本流数据。
126.根据本公开的实施例,因经过网络爬取和数据清洗的文本流数据一般是不带有标签,因此需要通过人工标注的方法对文本流数据进行标注来提供基于持续学习的事件抽取模型的训练标签。对实时的无标签文本流数据进行标注后,得到有标签文本流数据。本公开实施例中标注的方式可以为bio标注、bioes标注、iob标注等或其它标注方式,其中,b,即begin,表示开始;i,即intermediate,表示中间;o,即other,其他(非实体);e,即end,表示结束;s,即single,表示单个字符。
127.例如:对“学生研发的手机降噪技术荣获全国竞赛二等奖”文本内容进行标注,标注的事件类型为“创新:技术研发”,标签为“{o,o,o,o,o,o,o,o,o,o,b-研究,i-研究,o,o,o,o,o,o,o,o}。
128.根据本公开的实施例,该文本流数据集中的文本数据包括有标签的文本流数据和无标签的文本流数据。例如:
129.t={(x1,y1),(x2,y2),...,(xn,yn)};
130.其中,i=1,2,...,n,xi是输入的无标签的文本流数据序列;yi是相应的标签文本数据序列,n是文本流数据个数,对不同的文本流数据有不同的值。标签yi为文本流数据中的每一个字打一个二分类标签(b-,i-,或o-),b-代表该字不属于某类的开头,i-代表该字属于某类,b、i、o所代表的含义如上述实施例中的解释。
131.根据本公开的实施例,在步骤s320中,将文本流数据集输入至预训练的语言模型和自注意力机制中,得到与文本流数据集中文本对应的第一融合特征向量包括:
132.利用预训练的语言模型将输入的文本流数据集中的每个文本流数据,输出为与文本流数据对应的流特征向量,n个文本流数据,得到n个文本流特征向量,每个文本流特征向量中包括不同子句分别对应的第一特征子向量。
133.以文本流数据集其中一个的文本流数据x
t
进行举例说明,具体如下:
[0134][0135]
其中,x
t
为文本流数据,该文本流数据可以是一句话;t表示第t个文本流事件;w表示句子分词产生的token(字符),m表示产生的token个数,可以是一句话中的字数。
[0136]
具体表现为:利用预训练的语言模型(bert模型,bidirection encoder representation from transformer),将文本流数据x
t
转化为与文本流数据x
t
对应的文本流特征向量h
t
,即获得隐藏层向量h
t
,例如可以将一句话文本转化为与一句话对应的文本流
特征向量。
[0137]
在本公开的实施例中,将文本流数据x
t
转化为与文本流数据x
t
对应的流特征向量h
t
具体包括:
[0138]
将文本流数据输入至预训练的语言模型中,预训练的语言模型经过嵌入矩阵查与文本中每一个字相对应的嵌入向量,在嵌入矩阵中,每一行都是一个字嵌入向量,其能够表征该文本中每一个字/词的语义信息。另外,因出现在文本不同位置的字/词所携带的语义存在差异,预训练的语言模型无法获取每个字的相对位置,因此在模型输入时还需要引入位置编码信息,用于向模型指出文本中字/词的顺序,如第一个字/词的位置信息为1,第二个字/词的位置信息为2,第m个字/词的位置信息为m,以此类推,然后并将该位置信息通过位置向量矩阵映射成位置向量。最后,将位置向量和字嵌入向量进行加和,得到与文本流数据中每个子句(字/句)分别对应的第一特征子向量h1。
[0139]
获得该隐藏层向量h
t
所涉及的公式如式(1)所示:
[0140][0141]
其中,h
t
表示隐藏层向量;h1表示第一特征子向量;m表示文本流特征向量中包括不同子句的个数,即产生token的第一特征向量的个数。
[0142]
根据本公开的实施例,针对每个文本流特征向量,利用自注意力机制对文本流特征向量中的第一特征子向量进行融合,得到与文本流数据集中文本对应的第一融合特征向量。
[0143]
例如,针对以第k个隐藏层向量与第j个隐藏层为例进行融合,其所涉及到的公式如下:
[0144][0145][0146]ek,j
=a(hk·hj
)=v
t tanh(whk+uhj);
ꢀꢀꢀ
式(4)
[0147]
其中,a(
·
)是非线性对齐函数,v,w,u均是对应维度的超参数,在训练模型时同步学习调整,hj是第j个第一特征子向量,hk是第k个第一特征子向量,e
k,j
表示第k个隐藏层向量与第j个隐藏层的相似度。
[0148]
根据本公开的实施例,利用自注意力机制对第t个文本流特征向量中的第一特征向量进行融合,能够使输入的第一特征子向量之间的进行深度交互,学习到句子级别的特征表达,从而得到与第t个文本流数据中文本对应的第一融合特征向量具体如下:
[0149][0150]
其中,表示第一个第一融合特征向量,表示第m个第一融合特征向量。
[0151]
根据本公开的实施例,在操作s330中,采用知识蒸馏的方式,利用第一融合特征向量训练待训练事件抽取模型的学生网络,得到事件抽取模型,包括:操作s3301~操作
s3304。
[0152]
操作s3301,将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量。
[0153]
操作s3302,通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量。
[0154]
操作s3303,将前t-1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量。需要说明的是,前t-1个第一融合特征向量获得方式与第t个第一融合特征向量获得方法相同,在此不再赘述。
[0155]
操作s3304,根据第t个第一特征向量和有标签文本流数据,得到第一损失值;根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;将第一损失值和第二损失值加和,得到总损失值;利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型,该模型具有良好的记忆能力能够在每一次训练完成一个新增文本流数据中的特征信息以后,能够保留历史文本流数据中的特征分布信息。
[0156]
根据本公开的实施例,为了缓解现有基于知识蒸馏方法中存在的新增事件与历史事件存在的保留与调整冲突问题,提出利用历史增强特征转移网络来恢复历史事件的特征空间,在学习新增事件时通过历史增强特征转移网络能够将需要判识的新增事件的特征空间重新映射到历史事件的特征空间上,同时避免在较高维度特征空间内不同类型的事件特征分布存在交叉混合和遗忘的问题。
[0157]
图4示意性示出了根据本公开实施例基于持续学习的事件抽取的模型训练方法中特征转移网络的架构示意图。
[0158]
如图4所示,历史增强特征转移网络采用多层反馈神经网络、非线性激活层和多层前馈神经网络组成,其核心思想是在相邻两个文本流数据(或者相邻两个事件)中进行特征映射,将新增事件的特征重新映射到历史事件的特征空间,实现新增事件和历史事件之间特征知识的相互迁移学习。假设基于持续学习的事件抽取模型已经在前t-1个事件上完成了训练,接下来要进行第t个事件的训练。此时,利用多层反馈神经网络将第t个第一融合特征向量的d维度特征投影到较小维度h上,然后再通过非线性激活层和多层前馈神经网络再将h维度的特征向量投影回d维度上,同时将第t个事件的第一融合特征向量和经多层前馈神经网络投影回d维度的特征向量进行加和,从而实现将第t个第一特征向量通过历史增强特征转移网络映射至第t-1个第一特征向量,得到第t-1个第二特征向量,即能够在不影响历史事件特征空间分布的情况下,将新增事件的特征空间分布重新映射到历史事件的特征空间分布上,且避免在较高维度特征空间内不同类型的事件特征向量分布存在交叉混合,同时在保证模型能够有效的区分不同事件类型的特征分布情况下,实现新增事件和历史事件之间知识的相互迁移学习,进而使基于持续学习的事件抽取模型能够进行持续性事件检测。
[0159]
在知识蒸馏框架中,为了从教师网络能够记忆更多的历史事件知识,本公开实施例中采用原文本增强回放机制来储蓄属于历史事件类型的文本流数据作为记忆数据,即平均划分每个历史事件类型的文本流数据,保障训练过程中都有已经记忆的历史文本流和需要判识的新增文本流。换言之,通过将记忆数据和新增文本流数据结合起来训练基于持续
学习的事件抽取模型。在知识蒸馏的框架中,能够将具有历史记忆的教师网络中的知识迁移到学生网路中,实现知识的蒸馏。基于教师网络的知识迁移,学生网络能够继续学习新增事件的持续学习,同时因历史增强特征转移网络的存在,学生网络不会忘记已经学习过的历史知识。
[0160]
图5示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练方法的模型架构图。
[0161]
如图5所示,输入的文本流数据经过预训练的语言模型进行编码和自注意力机制进行特征融合以后,将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量。接着,将第t个第一特征向量通过历史增强特征转移网络映射至第t-1个第一特征向量,得到第t-1个第二特征向量。与此同时,还将前t-1个第一融合特征向量输入至待训练的基于持续学习的教师网络中,得到前t-1个第三特征向量。
[0162]
根据第t个第一特征向量和有标签文本流数据,得到第一损失值;根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;将第一损失值和第二损失值加和,得到总损失值;利用总损失值来训练待训练的事件抽取模型,得到事件抽取模型。
[0163]
根据本公开的实施例,根据第t个第一特征向量和有标签文本流数据,得到第一损失值l
cross-entropy
,具体表现为:
[0164]
将t个第一融合特征向量输入到待训练的基于持续学习的事件抽取模型的学生网络中,利用激活函数实现第t个新增文本事件类型的判断,所涉及的公式如式(5)所示:
[0165][0166]
其中,p
(t)
表示学生网络输出的事件类别;w
t
表示学生网络参数。
[0167]
为了评估学生网络输出的准确率,通过设计最小的交叉损失函数来约束学生网络输出结果与真实标签的误差,以提升待训练的基于持续学习的事件抽取模型中学生网络的学习性能,所涉及的具体损失函数如式(6)所示:
[0168]
l
cross-entropy
=f
bce
(p
(t)
,y
(t)
);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(6)
[0169]
其中,y
(t)
是文本流的真实标签类别。
[0170]
结合图4中的模型架构,为了使需要判识的新增事件的输出能够融合历史事件的输出,采用特征转移网络实现将需要判识的新增事件的特征向量空间重新映射到历史事件的特征向量空间实现特征的融合,同时避免在较高维度特征空间内不同类型的事件特征向量分布存在交叉混合的问题。
[0171]
根据本公开的实施例,通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量,其中所涉及的计算公式如式(7)所示:
[0172][0173]
其中,表示第t-1个第二特征向量;ftm
t,t-1
中下标表示将特征向量从第t个事件转移到第t-1个事件。
[0174]
接下来,采用知识蒸馏机制,利用教师-学生框架将知识从教师网络转移到学生网络,具体表现为,采用余弦相似度损失函数度量教师网络和学生网络输出的特征差异度,通
过最小化损失函数强化学生网络向教师网络学习的一致性,即根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值,其中计算第二损失值所涉及到具体公式如式(8)所示:
[0175][0176]
其中,第二损失值l
distill
;表示教师网络基于前t-1个事件训练输出的前t-1个第三特征向量;f
cs
(
·
)指的是余弦相似度函数。
[0177]
根据本公开的实施例,利用总损失值来训练待训练的事件抽取模型,得到事件抽取模型,具体表现为:
[0178]
通过组合交叉熵分类损失函数和余弦相似度蒸馏损失函数,形成整体损失函数,得到总损失值,所涉及的具体计算公式如式(9)所示:
[0179]
l
total
=l
cross-entropy

·
l
distill

ꢀꢀꢀꢀꢀꢀ
式(9)
[0180]
其中,l
total
表示总损失值;λ是平衡参数,控制各损失函数的影响,取值范围[0,1]。
[0181]
基于持续学习的事件抽取模型优化的目标函数是最小化l
total
,采用随机梯度下降法对基于持续学习的事件抽取模型进行迭代优化和参数的更新学习。另外,每一个事件类型都有一个分类器,前t-1事件分类器可以识别前t-1事件属于哪个类别的概率,第t个事件分类器可以识别第t个事件类别概率。
[0182]
例如:事件抽取模型中的教师网络已经完成训练“人事:获得资格、”“生活:人口出生”、“移动:物流运输”等各个类型的事件特征的学习,通过知识蒸馏的方式实现学生网络向教师网络的学习,同时当前学生网络能够继续学习“创新:技术研发”类型的事件特征知识。
[0183]
基于持续学习的事件抽取模型的学习过程分为基础学习阶段和增量学习阶段,在基础学习阶段,基于持续学习的事件抽取模型学习一批类型的事件,形成教师网络;在增量学习阶段,基于持续学习的事件抽取模型面对需要判识的新增事件,利用知识蒸馏算法进行教师网络和学生网络的联合训练,使学生网络能够快速学习需要判识的新增事件,并具有能够检测新增事件的能力,从而达到持续演进学习和检测目的。当本次的基于持续学习的事件抽取模型训练完成以后,在下一次迭代中,本次学习完成的学生网络已经成为教师网络,可以指导下一个新的学生网络进行训练,周而复始的进行训练工作,使事件抽取模型能够持续性的学习不同的事件类型。
[0184]
图6示意性示出了根据本公开另一实施例基于持续学习的事件抽取的模型训练方法的流程图。
[0185]
如图6所示,根据本公开的实施例,基于持续学习的事件抽取的模型训练方法还包括:对训练完成的基于持续学习的事件抽取模型进行更新,更新包括:
[0186]
将训练完成的基于持续学习的事件抽取模型作为教师网络,将第t+1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中进行新一轮的基于持续学习的事件抽取模型训练,得到更新后的基于持续学习的事件抽取模型。
[0187]
例如,利用第t个第一特征向量、第t-1个第二特征向量、前t-1个第三特征向量和有标签文本流数据来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到训练完成的基于持续学习的事件抽取模型,即得到关于第t个事件的基于持续学习的
事件抽取模型。然后,在进行第t+1个事件事件类型训练(模型没有学习过的事件类型)时,将第t+1个第一融合特征向量输入至基于持续学习的事件抽取模型的学生网络中进行新一轮的基于持续学习的事件抽取模型训练,得到更新后的基于持续学习的事件抽取模型,即第t+1个事件抽取模型。
[0188]
在本公开的实施例中,事件抽取模型通过不断的更新,能够不断地从新增文本流数据中学习新的事件类型知识,即使事件抽取模型在面对新增文本流数据时也可以在原有事件抽取模型基础上进行学习新增事件知识,同时保留模型大部分已经学习过的历史事件类型知识,也能够实现历史事件类型的检测。
[0189]
图7示意性示出了根据本公开实施例的基于持续学习的事件抽取方法的流程图。
[0190]
如图7所示,该实施例中的基于持续学习的事件抽取方法包括:操作s710~s740。
[0191]
操作s710,获取待抽取文本流数据,其中,待抽取文本流数据为需要判识的新增文本数据。
[0192]
在本公开的实施例中,在操作s710中,获取的待抽取文本流数据为需要判识的新增文本数据,该新增文本流数据可以是与经济新闻、社会新闻、娱乐新闻、小说等相关的实时文本信息。
[0193]
操作s720,将待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与待抽取文本流数据中待抽取文本相对应的第二融合特征向量。
[0194]
根据本公开的实施例,在操作s720中,得到与待抽取文本流数据中待抽取文本相对应的第二融合特征向量包括:
[0195]
将待抽取文本流数据输入至预训练语言模型中,得到待抽取文本流特征向量,待抽取文本流特征向量包括不同子句分别对应的第二特征子向量。
[0196]
针对待抽取文本流特征向量,利用自注意机制对待抽取文本流特征向量中的第二特征子向量进行融合,得到与待抽取文本流数据中待抽取文本对应的第二融合特征向量。
[0197]
在本公开的实施例中,该待抽取文本流特征向量与待抽取文本流数据相对应,该待抽取文本特征向量中包括位置信息,便于后续对待抽取文本的识别检测。然后再利用自注意力机制对待抽取文本流特征向量中第二特征子向量进行融合,构建第二特征子向量之间的上下文关系,得到与待抽取文本对应的第二融合特征向量。
[0198]
操作s730,将第二融合特征向量输入至基于持续学习的事件抽取模型中,得到事件抽取结果,其中,事件抽取模型由基于持续学习的事件抽取的模型训练方法训练得到。
[0199]
在本公开的实施例中,因基于持续学习的事件抽取模型已经学习过该待抽取文本的事件类型,当待抽取文本输入至事件抽取模型中,该模型可以确定出该待抽取文本中每一个字的预测结果(即事件抽取结果)。
[0200]
操作s740,将事件抽取结果输入至序列分类模型中,得到事件抽取类别。
[0201]
在本公开的实施例中,根据待抽取文本中每一个字/词的预测结果,需要对各个字属于哪一个类别进行组合,最终得到以词为单位的预测结果,从而确定出该待抽取文本属于哪一个事件类别。
[0202]
例如:输入的新闻“经过专业辅导,再通过相应的考试,合格者可以获得人事管理的岗位资格”,对于本公开提供的基于持续学习的事件抽取模型而言可以准确判断其是

人事:获得资格

类型的事件。
[0203]
根据本公开的实施例,待抽取文本流数据是通过如下方式得到:
[0204]
获取待抽取文本流数据;
[0205]
对获取的待抽取文本流数据进行清洗,得到无标签待抽取文本流数据;
[0206]
对无标签待抽取文本流数据进行标注,得到有标签待抽取文本流数据,
[0207]
将有标注待抽取文本流数据和无标签的待抽取文本流数据融合,得到待抽取文本流数据。
[0208]
在本公开的实施例中,用网络爬虫获取待抽取文本流数据,并对获取到的数据进行清洗,去除待抽取文本流数据中重复、乱码等文本数据,以及对错误的文本数据进行纠正,使得最终输出的文本尽量能够通顺,从而得到干净的无标签待抽取文本流数据。接着,采用人工标注的方式对无标签待抽取文本流数据进行标注,得到有标注待抽取文本流数据。最后,将将有标注待抽取文本流数据和无标签的待抽取文本流数据融合,得到待抽取文本流数据。本公开实施例中采用的人工标注方式可以为bio标注、bioes标注、iob标注等或其它标注方式,因前文已经叙述,在此不再做更进一步的限定。
[0209]
基于上述基于持续学习的事件抽取的模型训练方法,本公开还提供了一种基于持续学习的事件抽取的模型训练装置。以下将结合图8对该装置进行详细描述。
[0210]
图8示意性示出了根据本公开实施例的基于持续学习的事件抽取的模型训练装置的结构框图。
[0211]
如图8所示,该实施例的基于持续学习的事件抽取的模型训练装置800包括第一获取模块810、第一处理模块820和模型训练模块830。
[0212]
第一获取模块810用于获取文本流数据集,文本流数据集包括第0~第t-1个模型已经记忆的历史文本流数据和第t~第n个需要判识的新增文本流数据,其中,t≥1,n≥t。
[0213]
在一实施例中,第一获取模块810包括:第一文本获取单元、第一清洗单元、第一标注单元和第一融合单元。
[0214]
其中,第一文本获取单元,用于网络爬虫获取文本流数据。
[0215]
第一清洗单元,用于对获取文本流数据进行清洗,得到无标签文本流数据,利用相关的正则表达式规则来对数据进行清洗,去除文本流数据中重复、乱码等文本数据,以及对错误的文本数据进行纠正,使得最终输出的文本尽量能够通顺,并且通过阅读可以理解文本含义,即得到无标签文本流数据。
[0216]
第一标注单元,用于对无标签文本流数据进行标注,得到有标签文本流数据。
[0217]
第一融合单元,用于将有标签文本流数据和无标签文本流数据进行融合,得到文本流数据集。
[0218]
第一处理模块820用于将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与文本流数据集中文本对应的第一融合特征向量。其中,第一处理模块包括第一特征编码单元和第一特征融合单元。
[0219]
第一特征编码单元,用于将文本流数据集中的每个文本流数据输入基于预训练的语言模型中,输出与文本流数据对应的文本流特征向量,得到n个文本流特征向量,每个文本流特征向量中包括不同子句分别对应的第一特征子向量。
[0220]
第一特征融合单元,用于针对每个文本流特征向量,利用自注意力机制对文本流特征向量中的第一特征子向量进行融合,得到与文本流特征向量对应的第一融合特征向
量。
[0221]
模型训练模块830用于采用知识蒸馏的方式,利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型包括:
[0222]
将第t个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;
[0223]
通过历史增强特征转移网络,将第t个第一特征向量映射至第t-1个第一特征向量,得到第t-1个第二特征向量;
[0224]
将前t-1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量;
[0225]
根据第t个第一特征向量和有标签文本流数据,得到第一损失值;
[0226]
根据第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;
[0227]
将第一损失值和第二损失值加和,得到总损失值;
[0228]
利用总损失值来训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。
[0229]
根据本公开的实施例,基于持续学习的事件抽取的模型训练装置还包括对更新模块,用于对训练完成的事件抽取模型进行更新,更新模块包括:
[0230]
将训练完成的基于持续学习的事件抽取模型作为教师网络,将第t+1个第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中进行新一轮事件的基于持续学习的抽取模型训练,得到更新后的基于持续学习的事件抽取模型。
[0231]
根据本公开的实施例,第一获取模块810、第一处理模块820和模型训练模块830中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块810、第一处理模块820和模型训练模块830中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块810、第一处理模块820和模型训练模块830中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0232]
基于上述动态事件抽取方法,本公开还提供了一种基于持续学习的事件抽取的模型训练装置。以下将结合图9对该装置进行详细描述。
[0233]
图9示意性示出了根据本公开实施例的基于持续学习的事件抽取装置的结构框图。
[0234]
如图9所示,该实施例的基于持续学习的事件抽取的模型训练装置900包括第二获取模块910、第二处理模块920事件抽取模块930和分类模块940。
[0235]
第二获取模块910用于获取待抽取文本流数据,其中,待抽取文本流数据为需要判识的新增文本数据。
[0236]
在一实施例中,第二获取模块910包括:第二文本获取单元、第二清洗单元、第二标
注单元和第二融合单元。
[0237]
其中,第二文本获取单元用于网络爬虫获取待抽取文本数据。
[0238]
第二清洗单元用于对获取的待抽取文本流数据进行清洗,得到无标签待抽取文本流数据。
[0239]
第二标注单元用于对无标签待抽取文本流数据进行标注,得到有标签待抽取文本流数据。
[0240]
第二融合单元用于将有标注待抽取文本流数据和无标签的待抽取文本流数据融合,得到待抽取文本流数据。
[0241]
第二处理模块920,用于将待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与待抽取文本流数据中待抽取文本相对应的第二融合特征向量。其中,第二处理模块包括第二特征编码单元和第二融合单元。
[0242]
第二特征编码模块用于将待抽取文本流数据输入至预训练语言模型中,得到待抽取文本流特征向量,待抽取文本流特征向量包括不同子句分别对应的第二特征子向量。
[0243]
第二融合模块用于针对待抽取文本流特征向量,利用自注意机制对待抽取文本流特征向量中的第二特征子向量进行融合,得到与待抽取文本流特征向量对应的第二融合特征向量。
[0244]
事件抽取模块930用于将第二融合特征向量输入至基于持续学习的事件抽取模型中,得到事件抽取结果,其中,基于持续学习的事件抽取模型由基于持续学习的事件抽取的模型训练方法训练得到。
[0245]
分类模块940用于将事件抽取结果输入至序列分类模型中,得到事件抽取类别。
[0246]
根据本公开的实施例,第二获取模块910、第二处理模块920事件抽取模块930和分类模块940中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第二获取模块910、第二处理模块920事件抽取模块930和分类模块940中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第二获取模块910、第二处理模块920事件抽取模块930和分类模块940中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0247]
图10示意性示出了根据本公开实施例的适于实现基于持续学习的事件抽取的模型、事件抽取的方法的电子设备的方框图。
[0248]
如图10所示,根据本公开实施例的电子设备1000包括处理器1001,其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0249]
在ram 1003中,存储有电子设备1000操作所需的各种程序和数据。处理器1001、rom 1002以及ram 1003通过总线1004彼此相连。处理器1001通过执行rom 1002和/或ram 1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 1002和ram 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0250]
根据本公开的实施例,电子设备1000还可以包括输入/输出(i/o)接口1005,输入/输出(i/o)接口1005也连接至总线1004。电子设备1000还可以包括连接至i/o接口1005的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0251]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0252]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 1002和/或ram 1003和/或rom 1002和ram 1003以外的一个或多个存储器。
[0253]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
[0254]
在该计算机程序被处理器1001执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0255]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1009被下载和安装,和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0256]
在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0257]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0258]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0259]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0260]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

技术特征:


1.一种基于持续学习的事件抽取的模型训练方法,包括:获取文本流数据集,所述文本流数据集包括第0~第t-1个模型已经记忆的历史文本流数据和第t~第n个需要判识的新增文本流数据,其中,t≥1,n≥t;将所述文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与所述文本流数据集中文本对应的第一融合特征向量;采用知识蒸馏的方式,利用所述第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型,包括:将第t个所述第一融合特征向量输入至所述待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;通过历史增强特征转移网络,将所述第t个第一特征向量映射至第t-1个所述第一特征向量,得到第t-1个第二特征向量;将前t-1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量;根据所述第t个第一特征向量和有标签文本流数据,得到第一损失值;根据所述第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;将所述第一损失值和第二损失值加和,得到总损失值;利用所述总损失值来训练所述待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。2.根据权利要求1所述的方法,其中,获取所述文本流数据集,包括:获取文本流数据;对所述获取文本流数据进行清洗,得到无标签文本流数据;对所述无标签文本流数据进行标注,得到有标签文本流数据;将所述有标签文本流数据和无标签文本流数据进行融合,得到文本流数据集。3.根据权利要求1所述的方法,其中,所述将所述文本流数据集输入至预训练的语言模型和自注意力机制中,得到与所述文本流数据集中文本对应的第一融合特征向量包括:将所述文本流数据集中的每个文本流数据输入基于预训练的语言模型中,输出与所述文本流数据对应的文本流特征向量,得到n个所述文本流特征向量,每个所述文本流特征向量中包括不同子句分别对应的第一特征子向量;针对每个所述文本流特征向量,利用自注意力机制对所述文本流特征向量中的第一特征子向量进行融合,得到与所述文本流数据集中文本对应的第一融合特征向量。4.根据权利要求1所述的方法,其中,所述历史增强特征转移网络由全连接层神经网络和非线性激活层组成。5.根据权利要求1所述的方法,还包括:对训练完成的基于持续学习的事件抽取模型进行更新,所述更新包括:将训练完成的基于持续学习的事件抽取模型的学生网络作为教师网络;将第t+1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的学生网络中进行新一轮的基于持续学习的事件抽取模型训练,得到更新后的基于持续学习的事件抽取模型。6.一种基于持续学习的事件抽取方法,包括:
获取待抽取文本流数据,其中,所述待抽取文本流数据为需要判识的新增文本数据;将所述待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与所述待抽取文本流数据中待抽取文本相对应的第二融合特征向量;将所述第二融合特征向量输入至基于持续学习的事件抽取模型中,得到事件抽取结果,其中,所述基于持续学习的事件抽取模型由权利要求1-5中任一项所述的基于持续学习的事件抽取的模型训练方法训练得到;将所述事件抽取结果输入至序列分类模型中,得到事件抽取类别;其中,所述将所述待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与所述待抽取文本流数据中待抽取文本相对应的第二融合特征向量包括:将所述待抽取文本流数据输入至预训练语言模型中,得到待抽取文本流特征向量,所述待抽取文本流特征向量包括不同子句分别对应的第二特征子向量;针对所述待抽取文本流特征向量,利用自注意机制对所述待抽取文本流特征向量中的第二特征子向量进行融合,得到与所述待抽取文本流数据中待抽取文本对应的第二融合特征向量。7.根据权利要求6所述的方法,其中,所述待抽取文本流数据是通过如下方式得到:获取待抽取文本流数据;对所述获取的待抽取文本流数据进行清洗,得到无标签待抽取文本数据;对所述无标签待抽取文本数据流进行标注,得到有标签待抽取文本流数据,将所述有标注待抽取文本流数据和无标签的待抽取文本流数据融合,得到待抽取文本流数据。8.一种基于持续学习的事件抽取的模型训练装置,包括:第一获取模块,用于获取文本流数据集,所述文本流数据集包括第0~第t-1个模型已经记忆的历史文本流数据和第t~第n个需要判识的新增文本流数据,其中,t≥1,n≥t;第一处理模块,用于将所述文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与所述文本流数据集中文本对应的第一融合特征向量;模型训练模块,用于采用知识蒸馏的方式,利用所述第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型包括:将第t个所述第一融合特征向量输入至所述待训练的基于持续学习的事件抽取模型的学生网络中,得到第t个第一特征向量;通过历史增强特征转移网络,将所述第t个第一特征向量映射至第t-1个所述第一特征向量,得到第t-1个第二特征向量;将前t-1个所述第一融合特征向量输入至待训练的基于持续学习的事件抽取模型的教师网络中,得到前t-1个第三特征向量;根据所述第t个第一特征向量和有标签文本流数据,得到第一损失值;根据所述第t-1个第二特征向量和前t-1个第三特征向量,得到第二损失值;将所述第一损失值和第二损失值加和,得到总损失值;利用所述总损失值来训练所述待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型。
9.一种基于持续学习的事件抽取装置,包括:第二获取模块,用于获取待抽取文本流数据,其中,所述待抽取文本流数据为需要判识的新增文本数据;第二处理模块,用于将所述待抽取文本流数据输入至预训练语言模型和自注意机制中,得到与所述待抽取文本流数据中待抽取文本相对应的第二融合特征向量;事件抽取模块,用于将所述第二融合特征向量输入至基于持续学习的事件抽取模型中,得到事件抽取结果,其中,所述基于持续学习的事件抽取模型由权利要求1-5中任一项所述的基于持续学习的事件抽取的模型训练方法训练得到;分类模块,用于将所述事件抽取结果输入至序列分类模型中,得到事件抽取类别。10.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。

技术总结


本公开提供了一种基于持续学习的事件抽取的模型训练、事件抽取的方法、装置及设备,属于自然语言处理技术领域,其中,该方法包括:获取文本流数据集;将文本流数据集输入至预训练的语言模型和自注意力机制中进行处理,得到与文本流数据集中文本对应的第一融合特征向量;采用知识蒸馏的方式,利用第一融合特征向量训练待训练的基于持续学习的事件抽取模型的学生网络和教师网络,得到基于持续学习的事件抽取模型,通过知识蒸馏框架实现知识迁移学习,利用历史增强特征转移网络使事件抽取模型能够在学习新事件知识的同时不会遗忘已经学习过的历史事件知识,在对新增事件类型检测的同时仍可以对历史事件类型进行检测,实现持续性事件学习和检测。事件学习和检测。事件学习和检测。


技术研发人员:

孙显 金力 张泽 李晓宇 马豪伟 魏楷文 耿雪冬

受保护的技术使用者:

中国科学院空天信息创新研究院

技术研发日:

2022.10.21

技术公布日:

2022/12/30

本文发布于:2024-09-24 06:29:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/49962.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:向量   文本   特征   事件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议