一种医学实体匹配的方法及装置与流程

1.本技术涉及医学实体识别领域，特别是一种医学实体匹配的方法及装置。

背景技术：

2.随着深度学习的快速发展、智慧医疗的普及，利用自然语言处理技术识别医学信息的需求日益增长。其中，医学实体匹配的目的是对于一组纯医学文本文档，能够利用机器识别并抽取出与医学临床相关的实体，并将它们与预定义好的类别匹配以便归类，从而提高临床科研的效率和质量。
3.现有技术中的医学信息识别模型，主要为语义匹配模型，其以实体为基本单元，从实体名称的字面表达和语义层面获取标签并匹配。但在手术实体的匹配任务中，仅考虑实体信息进行的匹配效果欠佳。因此，如何提升医学实体匹配准确度成为亟需解决的问题。

技术实现要素：

4.基于上述问题，本技术提供了一种医学实体匹配的方法及装置。目的是使实体匹配结果更准确、高效。
5.本技术公开了一种医学实体匹配的方法，所述方法包括：
6.根据医学实体的特征和实体子属性的特征，设计实体提示模板和实体子属性提示模板；
7.将所述实体提示模板和实体子属性提示模板输入至基于掩码语言模型mlm的预训练模型，获取各模板对应的输出结果；
8.拼接所述输出结果；
9.根据拼接后的结果得到实体匹配结果。
10.可选的，在设计实体提示模板和实体子属性提示模板前，所述方法还包括：基于预定义的实体大类，对每一类实体的子属性进行归纳。
11.可选的，所述设计实体提示模板和实体子属性提示模板，包括：如果实体没有子属性，则以无作为实体子属性值填入实体子属性提示模版。
12.可选的，所述获取各模板对应的输出结果，包括：获取所述实体提示模板和实体子属性提示模板中掩码词的向量表示。
13.可选的，所述根据拼接后的结果得到实体匹配结果，包括：将所述拼接后的结果输入至卷积神经网络中的分类层，得到所述实体一致性的预测值。
14.基于上述方法，本技术还公开了一种医学实体匹配的装置，包括：设计单元、输出结果获取单元、拼接单元和匹配单元。
15.所述设计单元，用于设计实体提示模板和实体子属性提示模板；
16.所述输出结果获取单元，用于基于掩码语言模型mlm的预训练模型获取各模板对应的输出结果；
17.所述拼接单元，用于拼接所述输出结果；
18.所述匹配单元，用于得到实体匹配结果。
19.可选的，所述装置还包括：归纳单元，用于对每一类实体的子属性进行归纳。
20.可选的，所述设计单元用于：如果实体没有子属性，则以无作为实体子属性值填入实体子属性提示模版。
21.可选的，所述输出结果获取单元用于：获取所述实体提示模板和实体子属性提示模板中掩码词的向量表示。
22.可选的，所述匹配单元用于：将所述拼接后的结果输入至卷积神经网络中的分类层，得到所述实体一致性的预测值。
23.本技术公开了一种医学实体匹配的方法及装置，预先设计实体和实体子属性的提示模板，通过基于掩码语言模型mlm的预训练模型，分别提取实体和实体子属性的掩码词向量，再拼接结合来完成实体匹配。本技术所述方法融合了实体完整语义和实体子属性信息，并以实体子属性为基本单元，实现了细粒度的实体匹配，提升了匹配的准确度。设计实体子属性提示模板有助于模型根据实体的子属性特点进行特征提取，有利于模型区分困难样本。
附图说明
24.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
25.图1为本技术实施例公开的一种医学实体匹配的方法的流程示意图；
26.图2为本技术实施例公开的另一种医学实体匹配的方法的流程示意图；
27.图3为本技术实施例公开的一种医学实体匹配的装置的结构示意图。
具体实施方式
28.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.实施例一：本技术公开了一种医学实体匹配的方法，应用于医学实体识别领域，通过基于掩码语言模型mlm的预训练模型，分别提取实体和实体子属性的掩码词向量，再拼接结合来完成实体匹配。
30.具体的，请参阅图1，本实施例公开的一种医学实体匹配的方法包括以下步骤：
31.步骤101：根据医学实体的特征和实体子属性的特征，设计实体提示模板和实体子属性提示模板。
32.本实施例所述方法中，在设计实体提示模板和实体子属性提示模板之前，作为可选的实现方式，可以首先根据预定义的实体大类对实体子属性进行归纳，根据实体的名称特征：特征甲+特征乙，可归纳实体子属性特征为甲子属性和乙子属性。例如，“手术”实体的名称特征：“解刨部位+手术术式”，可归纳实体子属性为“解刨部位”和“手术术式”。
33.所述归纳实体子属性的方法仅作为示例，对子属性的数量不做具体限定。在对子属性归纳完成后进行提示模板的设计。
34.作为一种可行的方法，所述设计提示模板的步骤为：设计实体提示模板为{第一实体}和{第二实体}是否是同一类{实体}，将答案设置为掩码词。设计实体子属性提示模板为{第一甲子属性}和{第二甲子属性}是否是同一类{甲子属性}，将答案设置为掩码词。手术术式提示：{第一乙子属性}和{第二乙子属性}是否是同一类{乙子属性}，将答案设置为掩码词。
35.在本技术所述实施例中，所述第一实体和第二实体为需要进行实体匹配的输入样本，在本技术所述实施例的解释说明中，第一实体可以为手术实体中的眼睑切开术，第二实体可以为手术实体中的眼眶切开术。所述甲子属性和乙子属性根据实体名称特征进行归类得到，如手术实体中的解剖部位和手术术式，在本技术所述实施例的解释说明中，甲子属性可以为眼睑/眼眶，乙子属性可以为切开术。所述掩码词可以为是或否，也可以为对或错等。以上举例均仅作为示范，不做具体限定。
36.其中，所述答案均为是或否。所述实体子属性的个数可以为零个、一个，也可以为两个及以上，此处不做限定。当实体子属性为零时，输入子属性值为“无”或能够表示该实体没有子属性的任意字符，并直接与该实体预定义的实体大类匹配。
37.步骤102：将所述实体提示模板和实体子属性提示模板输入至基于掩码语言模型mlm的预训练模型，获取各模板对应的输出结果。
38.所述mlm(mask language model)模型的任务是将句子中的一部分词(token)遮盖(也可以说是替换为mask)，根据句子的剩余部分，试图去还原这部分掩码词(mask token)。在本实施例所述方法中，所述预训练模型最终会分别输出句子中每个词对应的向量表示，然后获取掩码词对应的向量表示。由于在本实施例所述方法中，所述模板设置的掩码词为是或否，故所述向量表示为是或否的向量表示，从语义上说是对是或否的判断。
39.步骤103：拼接所述输出结果。
40.即对输出的掩码词对应的向量表示进行向量拼接。所述向量拼接是通用的特征融合方法，如特征向量v1∈rn,v2∈rm，将其在同一个阶进行拼接，则融合特征向量为v＝[v1,v2]∈r
n+m
。其中，r表示向量空间，m、n为向量的维数，m和n可以相等也可以不等。本技术所述方法发明点主要在于医学实体匹配的方法，故此处不再做过多解释。
[0041]
其中所述掩码词对应的向量表示个数与步骤101所设计模板中设置的掩码词个数相对应，在此不做具体限定。
[0042]
步骤104：根据拼接后的结果得到实体匹配结果。
[0043]
将拼接后的向量输入卷积神经网络中的分类层，分类层输出实体一致性的预测值。
[0044]
所述实体匹配结果为对实体匹配一致性的预测值，以数值形式呈现。在本实施例所述方法中，作为一种可行的方法，分类层输出{第一实体}和{第二实体}一致性的预测值，数值的大小表示实体匹配度的高低。当实体匹配度高时，表示两实体属于同一预定义的实体大类。其中，所述实体的个数为步骤101所设计模板中设置，在此不做具体限定。
[0045]
本实施例所述方法预先设计实体和实体子属性的提示模板，有助于模型根据实体的子属性特点进行特征提取。且相比仅通过实体特征进行匹配的现有技术，本实施例所述
方法以实体子属性为基本单元，实现了细粒度的实体匹配，提升了匹配的准确度。
[0046]
实施例二：本技术公开了一种场景下医学实体匹配的方法，请参阅图2，本实施例所述方法针对手术实体的实体匹配过程进行介绍。
[0047]
步骤201：根据预定义的实体大类归纳实体子属性。
[0048]
在本实施例所述方法中，作为一种可行的方法，根据“手术”实体的名称特点“解刨部位+手术术式”，可归纳实体子属性为“解刨部位”和“手术术式”。
[0049]
以上归纳实体子属性的方法仅作为示例。
[0050]
步骤202：设计实体提示模板。
[0051]
在本实施例所述方法中，作为一种可行的方法，实体提示模板为：
[0052]
手术实体提示：{眼睑切开术}和{眼眶切开术}是否是同一类{手术}：[mask]。所述mask为提示模板设计的掩码词，在本实施例所述方法中，作为一种可行的方法，所述掩码词为“是”或“否”。
[0053]
步骤203：设计实体子属性提示模板。
[0054]
在本实施例所述方法中，作为一种可行的方法，实体子属性提示模板为：
[0055]
解刨部位提示：{眼睑}和{眼眶}是否是同一类{解刨部位}：[mask]；手术术式提示：{切开术}和{切开术}是否是同一类{手术术式}：[mask]。
[0056]
以上设计提示的方法仅作为示例。
[0057]
步骤204：把各提示模板输入基于mlm模型的预训练模型。
[0058]
步骤205：获取对应的掩码词向量。
[0059]
步骤206：拼接实体和实体子属性的掩码词向量，输入分类层。
[0060]
在本实施例所述方法中，作为一种可行的方法，所述拼接操作为三个mask对应的一维向量维度是768，拼接之后维度就是768*3。
[0061]
步骤207：分类层输出预测结果。
[0062]
所述预测结果为对实体匹配一致性的预测值，以数值形式呈现。在本实施例所述方法中，作为一种可行的方法，分类层输出{眼睑切开术}和{眼眶切开术}一致性的预测值，数值在0-1之间，数值越大表示实体匹配度越高，即一致性越大。
[0063]
本实施例所述方法针对手术实体的实体匹配过程进行介绍，通过设计实体和实体子属性提示模板，使模型更好地根据不同实体类别的特点进行特征提取。并且，问答式的设计可以使模型在输入端从最底层进行实体的匹配。拼接掩码词向量时考虑到了实体子属性的特征，可使模型更好地对困难样本进行区分。
[0064]
基于上述实施例公开的一种医学实体匹配的方法，本实施例对应公开了一种医学实体匹配的装置，请参阅图3，该装置包括：设计单元301、输出结果获取单元302、拼接单元303和匹配单元304。
[0065]
所述设计单元301，用于设计实体提示模板和实体子属性提示模板；
[0066]
所述输出结果获取单元302，用于基于mlm的预训练模型获取各模板对应的输出结果；
[0067]
所述拼接单元303，用于拼接所述输出结果；
[0068]
所述匹配单元304，用于得到实体匹配结果。
[0069]
可选的，所述装置还包括：归纳单元，用于对每一类实体的子属性进行归纳。
[0070]
可选的，所述设计单元301用于：如果实体没有子属性，则以无作为实体子属性值填入实体子属性提示模版。
[0071]
可选的，所述输出结果获取单元302用于：获取所述实体提示模板和实体子属性提示模板中掩码词的向量表示。
[0072]
可选的，所述匹配单元304用于：将所述拼接后的结果输入至卷积神经网络中的分类层，得到所述实体一致性的预测值。
[0073]
本说明书中实施例采用递进的方式描述。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0074]
还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0075]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0076]
本说明书中实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本技术。
[0077]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种医学实体匹配的方法，其特征在于，所述方法包括：根据医学实体的特征和实体子属性的特征，设计实体提示模板和实体子属性提示模板；将所述实体提示模板和实体子属性提示模板输入至基于掩码语言模型mlm的预训练模型，获取各模板对应的输出结果；拼接所述输出结果；根据拼接后的结果得到实体匹配结果。2.根据权利要求1所述的方法，其特征在于，在设计实体提示模板和实体子属性提示模板前，所述方法还包括：基于预定义的实体大类，对每一类实体的子属性进行归纳。3.根据权利要求1所述的方法，其特征在于，所述设计实体提示模板和实体子属性提示模板，包括：如果实体没有子属性，则以无作为实体子属性值填入实体子属性提示模版。4.根据权利要求1所述的方法，其特征在于，所述获取各模板对应的输出结果，包括：获取所述实体提示模板和实体子属性提示模板中掩码词的向量表示。5.根据权利要求1所述的方法，其特征在于，所述根据拼接后的结果得到实体匹配结果，包括：将所述拼接后的结果输入至卷积神经网络中的分类层，得到所述实体一致性的预测值。6.一种医学实体匹配的装置，其特征在于，包括：设计单元、输出结果获取单元、拼接单元和匹配单元。所述设计单元，用于设计实体提示模板和实体子属性提示模板；所述输出结果获取单元，用于基于掩码语言模型mlm的预训练模型获取各模板对应的输出结果；所述拼接单元，用于拼接所述输出结果；所述匹配单元，用于得到实体匹配结果。7.根据权利要求6所述的装置，其特征在于，所述装置还包括：归纳单元，用于对每一类实体的子属性进行归纳。8.根据权利要求6所述的装置，其特征在于，所述设计单元用于：如果实体没有子属性，则以无作为实体子属性值填入实体子属性提示模版。9.根据权利要求6所述的装置，其特征在于，所述输出结果获取单元用于：获取所述实体提示模板和实体子属性提示模板中掩码词的向量表示。10.根据权利要求6所述的装置，其特征在于，所述匹配单元用于：将所述拼接后的结果输入至卷积神经网络中的分类层，得到所述实体一致性的预测值。

技术总结

本申请公开了一种医学实体匹配的方法及装置，预先设计实体和实体子属性的提示模板，通过基于掩码语言模型MLM的预训练模型，分别提取实体和实体子属性的掩码词向量，再拼接结合来完成实体匹配。本申请所述方法融合了实体完整语义和实体子属性信息，并以实体子属性为基本单元，实现了细粒度的实体匹配，提升了匹配的准确度。设计实体子属性提示模板有助于模型根据实体的子属性特点进行特征提取，有利于模型区分困难样本。模型区分困难样本。模型区分困难样本。