用于将医学文本报告分割到区段中的方法和设备与流程


用于将医学文本报告分割到区段中的方法和设备
1.相关申请的交叉引用本技术要求来自2021年6月15日提交的欧洲专利申请no. 21179656.0的优先权的权益,其内容通过引用并入本文。
技术领域
2.本公开涉及用于区段分割的方法和设备,更具体地,涉及用于将医学文本报告分割到区段中的方法和设备。


背景技术:



3.报告(诸如,医学文本报告)常常采用自由文本叙述的形式。例如,护理人员以临床笔记或其他医学文本报告的形式将医院中产生的大量患者信息作为自由文本记入文档。这些文本可以包含护理人员关于患者健康做出的重要见解和观察。这些文本常常具有不同的区段(section),例如,关于患者的过去医学状况的信息可以在“临床历史”区段中到,而护理人员对患者当前健康的观察和发现可以在“发现”区段中到。
4.对医学文本报告内包含的所存储信息的高效检索存在问题。例如,即使在仅需要报告的特定区段中的信息的情况下,也可能需要检索整个文本报告,这是低效的。
5.区段分割(即,自动将文本报告分区成其组成区段)是重要的任务,因为它可以便于精确且高效地检索文本报告内包含的信息。这对护理人员可能是有用的,例如,急诊科的转诊医师(referring physician)可能仅希望查看放射学报告的特定区段中的信息,以便向紧急手术(urgent procedure)进行告知。然而,这也可以允许高效运行下游的计算机实现的任务,诸如文档汇总(summarization)和比较、以及信息提取。
6.为了允许区段分割的益处——即,改进的信息检索效率,重要的是将报告中的文本的部分准确且可靠地指派给正确的区段。因此,改进报告的文本的部分被指派给一区段的准确性和可靠性是合期望的。
7.一种用于临床文本的已知区段分割方法将区段分割视为文本分类问题,其中文本的每个部分(即,句子(sentence)或区段)被分别地映射到预定义的类别标签上。然而,这种已知的区段分割具有缺点。首先,在该已知的区段分割中,个体句子到预定义类别标签的映射的准确性和可靠性是次优的。其次,该已知的区段分割涉及手动制作该分类所基于的特征,这既是劳动密集型的,也未能在不同的、未见过的文本报告布局上很好地泛化(generalize)。


技术实现要素:



8.根据本框架的一个方面,提供了一种用于将医学文本报告分割到区段中的计算机实现方法,所述医学文本报告包括多个句子。所述方法可以包括:(a)针对每个句子,获得所述句子的多个单词中的每个单词的单词嵌入;(b)针对每个句子,确定所述句子的第一句子表示。第一句子表示可以通过以下方式来确定:针对每个句子,将所述句子的多个单词中的
每个单词的单词嵌入顺序地(sequentially)输入到第一神经网络中,以生成所述句子的单词级上下文表示(word-level context representation);以及将每个句子的单词级上下文表示顺序地输入到第二神经网络中,从而生成每个句子的第一句子表示。
9.所述方法可以进一步包括:(c)针对每个句子,通过以下方式来确定所述句子的第二句子表示:针对每个句子,对所述句子的单词嵌入应用聚合操作(aggregating operation)以生成所述句子的聚合表示;以及将每个句子的聚合表示顺序地输入到第三神经网络中,从而生成每个句子的第二句子表示;(d)针对每个句子,基于所述句子的第一句子表示和第二句子表示的组合来确定第三句子表示;(e)针对每个句子,通过将所述句子的第三句子表示输入到区段分类器中来确定所述句子的区段分类;以及(f)针对每个句子,向所述句子指派针对所述句子确定的区段分类。
附图说明
10.图1是示意性地图示了根据示例的用于将医学文本报告分割到区段中的方法的流程图;图2是示意性地图示了医学文本报告的示例的示图;图3是示意性地图示了根据示例的数据结构的示图;图4是示意性地图示了根据示例的输出数据的示图;图5是示意性地图示了根据示例的神经网络的功能块的示图;图6是示意性地图示了根据示例的训练用于将医学文本报告分割到区段中的神经网络的方法的流程图;图7a和7b是绘制了针对句子(图7b)和比较模型(comparative model)(图7a)的所确定的句子表示的二维投影的图解;以及图8是示意性地图示了根据示例的设备的示图。
具体实施方式
11.参考图1,图示了用于将医学文本报告分割到区段中的计算机实现方法。图2中图示了该方法可以被应用到的医学文本报告的示例。如图2中所示,示例性医学文本报告220包括多个(在该示例中为九个)句子,s1至s9。每个句子由多个单词组成。示例性医学文本报告220采用自由文本叙述的形式,即,它由连续的文本块组成。在该示例中,该医学文本报告是放射学报告,具体地是磁共振成像(mri)报告。图2中所图示的是医学文本报告220在理想情况下将被分割到其中的概念区段。具体地,句子s1在理想情况下将是“描述”区段(即,描述了医学文本报告的区段)的一部分,句子s2在理想情况下将在“临床历史”区段(即,描述了患者的临床历史的区段)中,并且句子s3至s9在理想情况下将在“发现”区段(即,描述了放射技师关于mri图像评估的临床发现的区段)中。作为说明性示例,本文中公开的方法和设备的任务可以是自动地将医学文本报告220分割到这些区段中,即,向每个句子s1至s9指派分类k,该分类k对应于该句子在理想情况下将被包括在其中的区段。
12.返回到图1,概括地说,该计算机实现方法包括:(a)在步骤102中,针对每个句子si,获得该句子的多个单词中的每个单词的单词嵌入w
it

(b)在步骤104中,针对每个句子si,通过以下方式来确定该句子的第一句子表示c
senti
:(i)针对每个句子,将该句子的多个单词中的每个单词的单词嵌入w
it
顺序地输入到第一经训练的神经网络中,以生成该句子的单词级上下文表示c
wordi
;以及(ii)将每个句子的单词级上下文表示c
wordi
顺序地输入到第二经训练的神经网络中,从而生成每个句子的第一句子表示c
senti
(c)在步骤106中,针对每个句子si,通过以下方式来确定该句子的第二句子表示gi:(i)针对每个句子,对该句子的多个单词中的每个单词的单词嵌入应用聚合操作,以生成该句子的聚合表示pi;以及(ii)将每个句子的聚合表示pi顺序地输入到第三经训练的神经网络中,从而生成每个句子的第二句子表示gi;(d)在步骤108中,针对每个句子si,基于该句子的第一句子表示c
senti
和第二句子表示gi的组合来确定第三句子表示ui;(e)在步骤110中,针对每个句子si,通过将该句子的第三句子表示ui输入到经训练的区段分类器中来确定该句子的区段分类ki;以及(f)在步骤112中,针对每个句子s1至s9,向该句子指派针对该句子确定的区段分类ki。
13.通过这种方法,可以准确且可靠地向每个句子si指派区段分类(例如,“描述”、“临床历史”或“发现”),并且因此可以提供医学文本报告的准确且可靠的区段分割。
14.具体地,医学文本报告内的文本在本质上是顺序的。因此,句子在理想情况下将被指派到的区段可能会受到该句子的顺序上下文(即,该句子在前和/或在后的句子)所影响。为了实现这一点,根据特征(b)和(c),将每个句子的(基于单词嵌入的)表示顺序地传递到经训练的神经网络(其可以是例如递归神经网络rnn)中,以生成编码了每个句子的顺序上下文的句子表示(即,特征向量)。
15.然而,本发明人已经认识到,可以通过组合两个不同但互补的分支或途径(approach)来编码句子的顺序上下文以生成句子表示,从而获得特别准确/可靠的区段分类:按照特征(b),第一“局部”分支通过以下方式来采取层级式途径(hierarchical approach):首先确定该句子的单词级上下文表示(通过将单词嵌入顺序地传递到第一神经网络(例如,第一rnn)中),并且然后确定该句子的编码了句子级顺序上下文的第一句子表示(通过将单词级上下文表示顺序地传递经过第二经训练的神经网络(例如,第二rnn))。这帮助捕获局部句子之间、诸如区段内的句子之间的细粒度差别。另一方面,按照特征(c),第二“全局”分支取得该句子的聚合表示(例如,该句子的单词嵌入的平均值),并且使用它来确定编码了句子级顺序上下文的第二句子表示(通过将聚合表示顺序地传递经过经训练的第三神经网络(例如,第三rnn))。这帮助捕获句子之间、诸如不同区段中的句子之间的更加粗粒度的上下文改变。
16.例如与单独使用任一个分支相比,按照特征(d)组合来自两个分支的句子表示(例如,通过将它们级联(concatenate))并且按照特征(e)将该组合输入到经训练的区段分类器中以确定每个句子的区段分类导致了按照特征(f)将区段分类更加准确和/或可靠地指
派给每个句子。因此,提供了准确和/或可靠的区段分割。
17.在一些示例中,该方法可以包括生成输出数据,在该输出数据中,医学文本报告220的文本被分割到区段中,每个区段与特定区段分类ki相关联,并且包括医学文本报告220中的已经向其指派了特定区段分类ki的那些句子。
18.图3中图示了所生成的输出数据的示例。参考图3,输出数据采取表格330的形式,表格330包括“区段”列,其列出了区段分类“描述”、“临床历史”和“发现”;以及“句子”列,其针对每个特定区段分类列出了已经被指派有特定区段分类的句子s1至s9。在图2中,为了简洁,句子用它们的参考符号s1至s9来表示。在一些示例中,输出数据330可以包括表示句子而不是实际文本本身的标记(token)。例如,标记可以充当指向文本本身的指针,文本本身可以被分离地存储。在其他示例中,输出数据330可以包括每个句子的文本(例如,按照图3,但是在其中由医学文本报告220的相应句子的文本来替换参考符号s1至s9)。
19.在一些示例中,该方法可以包括将输出数据330存储在结构化存储装置中,使得每个区段与相应的相关联的区段分类相关联地被存储。例如,图3的表格330的数据可以被存储在数据库(诸如关系数据库)中。例如,关系数据库可以将每个区段分类与医学文本报告220(即,例如以图3中所图示的格式向其指派了区段分类的句子)的相关联区段进行关联。
20.以这种方式存储输出数据可以提供对医学文本报告内包含的信息的高效检索。例如,在仅需要该报告的特定区段的情况下,例如与提取整个医学文本报告相比,可以高效且精确地从数据库中查询和提取该特定区段。例如,结构化存储装置可以由在线医学查询平台和/或其他信息检索系统来访问和询问,以向用户返回关于搜索查询更相关和/或更精确的信息。信息的高效提取可以进而允许下游的计算机实现的任务(诸如,文档汇总和比较以及信息提取)的高效运行。
21.图4中图示了可以生成的输出数据的另一个示例。在该示例中,输出数据440采用医学文本报告的形式,其类似于图2的形式,但是在其中已经根据被指派给每个句子的区段分类将区段分隔符442、444、446插入到文本中。在所图示的示例中,区段分隔符是区段标识符442、444、446,并且更具体地是对应于区段分类的标题(“描述”、“临床历史”和“发现”),并且每个标题被放置在对应的区段分类已经被指派到的区段(即,一个或多个句子的组)的开始处。在其他示例(未示出)中,区段分隔符可以采取其他形式,诸如区段之间的线或其他标志,以指示一个区段与邻接区段之间的划界(delineation)。同样,在图4中,为了简洁,使用参考s1至s9来代替句子的实际文本,但是将领会的是,在一些示例中,输出数据440可以包括参考s1至s9所指代的句子的实际文本。输出数据440可以允许提供其中不同的区段可容易辨别的医学文本报告,例如相比于其中不同的区段不容易辨别的图2中的医学文本报告220。
22.在一些示例中,该方法可以包括在诸如计算机监视器(未示出)之类的显示器上显示输出数据330、440。这可以允许用户容易地辨别医学文本报告的不同区段,并且因此可以允许用户与报告中包含的信息的更高效交互。
23.现在将另外参考图5来描述上面参考图1至4描述的方法的步骤的示例细节。
24.图5是图示了经过神经网络的功能块的示例过程流程的示意图,通过该神经网络,可以实现该方法。该示例神经网络架构包括:第一模块或分支554,其包括第一rnn 556和第二rnn 558;第二模块或分支552,其包括第三rnn 590;组合器591;以及分类器592。
25.如所已知的,去往rnn的输入是顺序的,并且由某个输入得到的rnn的状态或输出取决于由先前输入得到的状态或输出、或者受由先前输入得到的状态或输出所影响。在图5中,为了表示去往各种rnn的输入的顺序性质,图示了该神经网络的两个状态,一个状态针对句子s1(医学文本报告中的第一个句子)并且一个状态针对句子sn(医学文本报告中的最后一个句子)。状态之间的三个点是为了说明对于第一个句子与最后一个句子之间的句子也发生了相同的过程。这两个状态中的第二rnn 558之间的虚线箭头是为了说明每个句子si的第一句子表示c
wordi
被顺序地输入到第二rnn 588中。类似地,这两个状态中的第三rnn 590之间的虚线箭头是为了说明每个句子si的聚合表示pi被顺序地输入到第三rnn 590中。将领会的是,这是用于说明性目的的示例,并且根据该方法可以使用其他架构和过程流程。
26.如所提到的,该方法包括,在步骤102中,针对每个句子si,获得该句子的多个单词中的每个单词的单词嵌入w
it
。如图5中所图示,n是待分割的医学文本报告中的句子si的总数,并且m是给定句子si的单词t的总数。可以从医学文本报告中分割和提取句子,例如通过经预处理的神经句子标记器(tokenizer)。然后,获得该句子的多个单词中的每个单词的嵌入548。在该示例中,针对每个句子si,针对该句子的每个单词获得单词嵌入w
it

27.如所已知的,单词嵌入是在多维空间中表示单词的含义或语义的向量。存在预先训练的单词嵌入的库。在一些示例中,可以通过在这种库中查给定单词的单词嵌入来获得该给定单词的单词嵌入。在一些示例中,可以使用预先训练的模型来获得单词嵌入。例如,医学文本报告的每个单词可以被传递经过词块标记器(wordpiece tokenzier)以返回一组标记,每个标记表示一单词,并且该组标记可以被传递经过预先训练的模型以生成每个单词的单词嵌入。例如,可以使用bert(来自变换器的双向编码器表示)模型,其中每个句子被传递经过bert词块标记器,并且每个所得到的标记被传递经过预先训练的bert模型,以从中获得每个单词的嵌入w
it
。这可以允许准确地捕获单词之间的相似性和规律性。将领会的是,在一些示例中,可以用其他方式来获得单词嵌入。
28.如所提到的,该方法包括:在步骤104中,针对每个句子,确定该句子的第一句子表示c
senti

29.具体地,作为步骤104的第一部分,针对每个句子si,将该句子的多个单词中的每个单词的单词嵌入w
it
顺序地输入到经训练的第一rnn 556(递归神经网络)中,以生成该句子的单词级上下文表示c
wordi

30.在一些示例中,第一rnn 556可以是双向递归神经网络。也就是说,针对每个单词,第一rnn可以将过去和未来的上下文两者并入到针对该单词计算的隐藏状态h
it
中(即,该句子中的该单词在前的单词的上下文以及该单词在后的单词的上下文)。这可以允许每个单词的在前和在后上下文两者被并入到该句子的单词级上下文表示c
wordi
中,这可以进而改进句子的单词级上下文可以被表示的准确性。
31.在一些示例中,第一rnn 556可以包括一个或多个门控递归单元(gru)r。这可以允许例如与普通的rnn或长短期记忆(lstm)单元相比以高性能和计算效率来计算每个单词的隐藏状态h
it
。在第一rnn 566是双向rnn的情况下,第一rnn可以包括至少两个gru r,一个gru在与另一个gru不同的顺序方向上操作。
32.例如,针对每个句子si,对于具有单词嵌入w
it
的单词,gru r中的隐藏状态h
it
可以使用以下等式利用更新门(update gate)和重置门(reset gate)来计算:
其中,表示两个向量的逐元素乘积,σ是sigmoid函数,w和v是参数矩阵,b是参数向量,h
it
是隐藏状态、即输出向量,是候选激活向量,z
it
是更新门向量,并且r是重置门向量。在双向gru(bigru)的情况下,一个gru计算前向隐藏状态,并且另一个gru计算后向隐藏状态,并且这些可以被级联以表示单词的隐藏状态h
it
。因此,bigru可以将每个句子的单词序列si={w
t
, 1:m}编码成隐藏状态序列hi={h
t
, 1:m}。
33.在一些示例中,针对每个句子,从第一rnn 556输出的针对句子si的每个单词的隐藏状态h
it
可以被求和以获得该句子的单词级句子表示c
wordi

34.然而,在一些示例中,如图5中所图示,生成每个句子的单词级上下文表示c
wordi
可能涉及采用注意力机制a。采用注意力机制可以允许单词级上下文表示c
wordi
朝向与句子上下文相关的语义信息最丰富的单词被偏向(bias)。这可以进而帮助改进区段分类的准确性。
35.例如,应用注意力机制可以包括:针对该句子的每个单词,确定指示单词w
it
与句子si的上下文zi的相关性的得分a
it
;以及使用针对单词w
it
确定的得分a
it
来对与单词w
it
相关联的对单词级上下文表示c
wordi
的贡献h
it
进行加权。例如,与单词w
it
相关联的对单词级上下文表示c
wordi
的贡献h
it
可以包括第一rnn 556的递归单元r的与该单词相关联的隐藏状态h
it
。该句子的单词级上下文表示c
wordi
可以包括与句子si的单词相关联的隐藏状态h
it
的加权和,每个隐藏状态h
it
由针对该相关联的单词确定的得分a
it
来加权。该句子的上下文zi可以由该句子的所有单词的隐藏状态h
it
的聚合来表示。例如,隐藏状态的聚合可以是该句子的所有单词的隐藏状态h
it
的级联。
36.可以基于在与该单词相关联的隐藏状态h
it
和隐藏状态的聚合zi之间应用的激活函数(例如,tanh)的输出来确定指示该单词与该句子的上下文zi的相关性的得分a
it
。例如,每个隐藏状态h
it
与句子si的上下文向量zi之间的得分a
it
可以使用以下等式来计算:可以使用以下等式来计算:其中va、w1和w2是所学习的权重矩阵。如所提到的,句子si的上下文向量zi可以是该句子的所有单词的隐藏状态h
it
的级联。相关性得分a
it
的较高值指示该单词所携带的信息相对于整个句子上下文zi的较高显著性(salience)。
37.然后,句子的隐藏状态h
it
可以通过利用其得分a
it
对每个隐藏状态h
it
进行加权而
被变换成句子si的单词级上下文表示c
wordi
,例如使用以下等式:这可以针对每个句子而重复,以获得每个句子的单词级内容表示c
wordi

38.在步骤104的第二部分中,将每个句子的单词级上下文表示c
wordi
顺序地输入到第二经训练的rnn 558中,从而生成每个句子si的第一句子表示c
senti

39.在一些示例中,第二rnn 558可以是双向rnn。在一些示例中,第二rnn 558可以包括一个或多个门控递归单元r。例如,第二rnn 558可以类似于上面针对第一rnn 556所描述的那样操作,但是例如其中每个句子的单词级上下文表示c
wordi
被顺序地输入到第二rnn 558中,而不是根据第一rnn 556的句子的每个单词的单词嵌入w
it
。例如,第二rnn 558可以使用上面列出的等式(1)-(4)来操作,除了用每个句子的单词级上下文表示c
wordi
来替换句子的每个单词的单词嵌入w
it

40.步骤104的第二部分将来自周围句子的语义相关上下文捕获到每个句子的第一句子表示c
senti
中。已经基于每个句子的单词级上下文表示c
wordi
的每个句子的第一句子表示c
senti
对其他句子当中的该句子的细粒度主题语义进行编码,并且可以帮助指示句子之间、诸如区段内的句子之间的更细微且更加细粒度的关系。
41.如所提到的,该方法包括:在步骤106中,针对每个句子si,确定该句子的第二句子表示gi。
42.步骤106的第一部分包括:针对每个句子si,对该句子的单词嵌入w
it
应用聚合操作p,以生成该句子的聚合表示pi。例如,应用聚合操作p可以包括取得该句子的单词的单词嵌入的均值。在这种情况下,该句子的聚合表示pi可以是该句子的单词的单词嵌入w
it
的平均值(均值)。均值操作可能是特别高效的,因为它在计算上是简单的,但是它允许该句子的所有单词对聚合表示pi做出贡献,从而有效地捕获该句子的总体或全局上下文。在一些示例中,可以通过应用均值池化操作(mean pooling operation)来计算均值。将领会的是,在一些示例中,可以使用其他聚合操作。例如,在一些示例中,聚合操作可以是应用于该句子的单词嵌入w
it
的池化操作,以生成该句子的池化表示pi。例如,池化操作可以是最大池化(例如,其中单词嵌入w
it
的最大值或单词嵌入w
it
的子区域的最大值被作为该单词嵌入的代表性值)、或者例如最小池化(例如,其中单词嵌入w
it
的最小值或单词嵌入w
it
的子区域的最小值被作为该单词嵌入的代表性值)。
43.步骤106的第二部分包括:将每个句子的聚合表示pi顺序地输入到第三经训练的rnn 590中,从而生成每个句子的第二句子表示gi。例如,第三rnn 590可以是双向rnn,即,由此将在前的句子和在后的句子两者的上下文编码到该句子的第二句子表示gi中。在一些示例中,类似于如上所描述的那样,第三rnn可以包括gru r。已经基于每个句子的聚合或全局表示pi的每个句子的第二句子表示gi对其他句子当中的该句子的粗粒度主题语义进行编码,并且可以帮助指示句子之间、诸如不同区段中的句子之间的更加粗粒度的上下文改变。
44.如所提及的,在步骤108中,该方法包括:针对每个句子,基于该句子的第一句子表示c
senti
和第二句子表示gi的组合来确定第三句子表示ui。例如,这可以由图5的神经网络的组合器591模块来执行。例如,给定句子的第三或统一句子表示ui可以基于该给定句子的第一句子表示c
senti
和第二句子表示gi的级联来确定,例如通过对该给定句子的第一句子表示csenti
和第二句子表示gi进行级联。更正式地说,第三句子表示可以写为u
i =[c
senti
;gi]。
[0045]
如所提及的,该方法包括:在步骤108中,针对每个句子,通过将该句子的第三句子表示ui输入到经训练的区段分类器中来确定该句子的区段分类ki。例如,分类器592可以被训练成基于句子的输入第三句子表示来确定该句子的区段分类。例如,分类器可以包括全连接的softmax层s。这可以针对多个预定义区段分类中的每一个给出该输入句子si属于该区段分类的概率。例如,softmax层可以输出给定句子属于区段“描述”、“临床历史”或“发现”的概率,尽管将领会的是,经训练的区段分类器可以被配置成根据它已经在其上被训练的区段分类来输出针对任何数量的预定义区段分类的概率。在一些示例中,区段分类器可以确定与softmax层所输出的最高概率相关联的区段分类,作为输入句子的区段分类。
[0046]
如所提到的,该方法包括:在步骤110中,针对每个句子,向该句子指派针对该句子确定的区段分类。例如,如果句子s1的区段分类k1被确定为“描述”,则将该区段分类器指派给该句子。例如,可以将标签指派给表示该句子的数据,以指示相关联的分类。在一些示例中,可以例如如上面参考图2至图3所描述的那样生成并存储输出数据。
[0047]
基于更加细粒度的第一句子表示c
senti
和更加粗粒度的第二句子表示gi两者的组合ui的每个句子的区段分类允许更准确和/或可靠地指派区段分类,例如与单独使用句子表示中的任一个相比。因此,可以提供准确和/或可靠的区段分割。要注意的是,下面将参考图7来描述这一点的示例演示。
[0048]
参考图6,图示了训练用于将医学文本报告分割到区段中的神经网络的计算机实现方法。例如,可以根据图6中概述的方法来训练上面参考图1至4描述的第一神经网络、第二神经网络、第三神经网络和分类器。例如,参考图6描述的方法可以用于训练上面参考图5描述的示例神经网络。该方法包括:在步骤602中,提供神经网络。例如,该神经网络可以是如上面参考图5所描述的那样。
[0049]
该神经网络包括第一句子表示模块554,第一句子表示模块554包括:(i)第一神经网络556,其被配置成,针对每个句子si,基于该句子的多个单词中的每个单词的单词嵌入w
it
的顺序输入来生成该句子的单词级上下文表示c
wordi
。例如,第一神经网络556可以是rnn,并且在一些示例中可以与上面参考图5描述的第一rnn 556相同或类似。第一句子表示模块554还包括:(ii)第二神经网络558,其被配置成,针对每个句子,基于该句子的单词级上下文表示c
wordi
的顺序输入来生成该句子的第一句子表示c
senti
。例如,第二神经网络558可以是rnn,并且在一些示例中可以与上面参考图5描述的第二rnn 558相同或类似。
[0050]
该神经网络包括第二句子表示模块552,第二句子表示模块552包括:第三神经网络590,其被配置成,针对每个句子,基于该句子的聚合表示pi的顺序输入来生成第二句子表示gi,该聚合表示已经通过对该句子的多个单词中的每个单词的单词嵌入w
it
应用聚合操作p而被生成。例如,第三神经网络590可以是rnn神经网络,并且在一些示例中可以与上面参考图5描述的第三rnn神经网络590相同或类似。
[0051]
该神经网络包括:区段分类器592,其被配置成,针对每个句子,基于该句子的第三句子表示ui的输入来确定该句子的区段分类ki,该第三句子表示ui是该句子的所生成的第一句子表示c
senti
和所生成的第二句子表示gi的组合。例如,区段分类器592可以与上面参考图5描述的相同或类似。
[0052]
该方法包括:在步骤604中,提供训练数据。该训练数据包括多个医学文本报告,每
个医学文本报告包括多个句子si,每个句子包括多个单词,该训练数据进一步包括每个句子的地面真值区段分类yi,该地面真值区段分类yi指示该句子所属的该医学文本报告的特定区段。例如,该训练数据的医学文本报告的句子可能已经被注释,例如由专家注释或自动地注释,以指示该句子所属于或应当属于的区段分类。
[0053]
该方法包括:在步骤606中,基于该训练数据来训练该神经网络。该神经网络被训练成:最小化由区段分类器592针对句子确定的区段分类ki与句子的对应地面真值区段分类yi之间的损失函数。例如,该损失函数可以包括由区段分类器592针对句子确定的区段分类ki与句子的对应地面真值区段分类yi之间的交叉熵。例如,损失函数l可以根据以下等式来计算:其中r是训练数据集中的医学文本报告的总数,并且n是训练数据集的每个文本报告r中的句子的总数。
[0054]
以这种方式来训练第一rnn 556、第二rnn 558、第三rnn 590和分类器592允许特征构造(即,句子表示的生成)和模型训练两者一起自动进行,而无需人类交互。这允许通过来自模型优化的指导来学习特征。这减少了如在已知区段分割中那样对于手动制作特征的需要,并且因此减少了与训练该模型相关联的人工劳动,以及提供了在未见过的布局上的更好泛化。
[0055]
在上面参考图5描述的示例中,第一神经网络、第二神经网络和第三神经网络中的每一个是递归神经网络rnn,并且更具体地是双向rnn。然而,将领会的是,这并不一定是这种情况,并且在一些示例中,其他类型的神经网络可以被用于第一、第二和/或第三神经网络。例如,在一些示例(未示出)中,可以使用被配置成取得顺序输入并且产生表示顺序上下文的输出的其他顺序神经网络,例如变换器神经网络等等。
[0056]
提供了根据本文中公开的示例的方法在将区段分类正确地指派给医学文本报告中的句子方面的有效性的演示。该演示出于说明性目的而提供。具体地,执行了一项研究,以评估与其他模型相比该方法的有效性。出于该说明性研究的目的,本文中公开的用于神经网络的训练的参数如下:针对100个时期(epoch)的0.001的学习率,被设置为28的批大小,gru隐藏状态的维度被设置为100,注意力机制的维度被设置为10,bert单词嵌入维度是768,并且使用glorot统一初始化器(uniform initializer)来初始化所有其他权重。
[0057]
该研究是针对如下四个不同的数据集来执行的:mtsamples(mt),其由从mtsamples下载的抄录医学报告组成;nationalrad(nr),其由从nationalrad/radiology/reports下载的抄录放射学报告组成;jh,其由从医院提供的样本报告组成;以及nlp,其由另一个医院提供的样本报告组成。下面在表格1中概述了这些数据集在报告数量和句子数量两者方面的数据大小。数据集all包括被加在一起的所有mt、nr、jh和nlp数据集。
[0058]

[0059]
出于说明性研究的目的,每个数据集被划分成80%的训练、10%的验证和10%的测试。
[0060]
每个模型的性能通过该报告中的每个句子的区段分类是否被正确地预测(如地面真值所确定的那样)的加权平均准确率(accuracy)、精确率(precision)、召回率(recall)和f得分(f-score)来表示。
[0061]
与当前公开的方法的性能进行比较的其他模型包括朴素贝叶斯(nb)模型、支持向量机(svm)模型、最大熵(me)模型、随机森林(rf)模型、卷积神经网络(cnn)模型、多层感知器(mlp)模型、来自变换器的跨段双向编码器表示(cs-bert)模型、双向长短期记忆(bi-lstm)模型、以及堆叠式gru(st-gru)模型。下面在表格2中示出了针对all数据集的nb、svm、me和rf模型与当前公开的方法(medtextseg)相比的性能。
[0062]

[0063]
下面在表格3中示出了针对mt、nr、jh、nlp和all数据集的cnn、mlp、cs-bert、bi-bert和st-gru模型与当前公开的模型(medtextseg)相比的性能。
[0064]

[0065]
可以看出,当前公开的方法medtextseg能够在准确率、精确率、召回率和f得分度量中的每一个方面针对所有数据集胜过所有的比较模型。例如,在all数据集上,相比于bi-bert,medtextseg方法/模型的准确率有5.93%的百分比提高,精确率有9.99%的百分比提高,召回率有5.93%的百分比提高,并且f得分有7.58%的百分比提高。尽管cs-bert、bi-bert和st-gru是顺序模型,但是它们仅对每个句子的局部上下文进行建模。相比之下,如上所讨论,当前公开的方法/模型还能够通过使用第二“全局”编码模块或分支590来捕获区段内的总体主题信息,并且因此能够更好地执行。
[0066]
还进行了消融研究(ablation study)以说明移除第一模块554(包括第一rnn 556和第二rnn 558)或第二模块552(包括第三rnn 590)中的任一个对性能的影响。针对all数据集,下面在表格4中示出了结果,其中medtextseg指示在使用所公开的方法/模型时的结果,hem指示在仅使用第一模块554时的结果,并且gem指示在仅使用第二模块552时的结果。
[0067]

[0068]
可以看出,与完整模型相比,移除任一个模块都会损害分割性能。特别地,在hem的情况下,f得分下降了7.76%,并且在gem的情况下,f得分下降了1.49%。这用于说明:按照本文中公开的方法,使用包括编码了更局部的上下文的第一句子表示c
senti
和编码了句子的更全局的上下文的第二句子表示gi两者的第三句子表示ui允许改进的性能,并且因此允许更准确和/或可靠的分割。
[0069]
还执行了对所学习的特征的定性评估。出于该说明性研究,获得了来自相应模型中的最后的层(即,softmax层之前的层)的输出句子表示。在本公开的medtextseg模型的情况下,这对应于从组合器591输出的第三句子表示ui。其与来自mlp模型的输出句子表示进行了比较。具体地,针对训练数据集的测试集的每个句子,使用主成分分析(pca)将该输出句子表示投影到二维空间,并且然后应用t-分布式随机近邻嵌入(t-sne),以基于句子根据地面真值分类所属的区段来对这些句子进行分组。图7中示出了结果。图7(a)的图解和图7(b)的图解两者中的轴是特征空间的两个维度,输出句子表示使用pca被投影到这两个维度上。在图7中,图解(a)对应于mlp模型,并且图解(b)对应于本公开的medtextseg方法/模型。在所述图解中,每个符号对应于测试集中的句子,并且其形状(即,三角形、圆、正方形等)表示其地面真值区段分类。对于在向句子正确地指派区段分类方面提供了理想性能的假设模型而言,具有相同区段分类的句子将被集在一起,并且属于不同区段的句子将存在于不同的、几何上遥远的集中。
[0070]
出于说明的目的,绘制了椭圆以指示通过审视(inspect)所述图解而明显的符号的某些分组。参考图7(a),椭圆702仅包含与分类标签“过程(procedure)”相关联的圆,椭圆704仅包含与分类标签“侧面信息(side info)”相关联的三角形,但是椭圆708包含了所有分类标签的混合。参考图7(b),椭圆710几乎排他性地包含与分类标签“过程”相关联的圆,椭圆712仅包含与分类标签“侧面信息”相关联的三角形,并且椭圆714仅包含与分类标签“检查的原因(reason for exam)”相关联的加号。从图7中显然的是,如在图7(b)中由本公开的模型medtextseg引发的句子表示中的区段可分离性(separability)比在图7(a)中针对mlp的区段可分离性更加明显。该定性分析与实证分析(empirical analysis)一致,即本公开的第三句子表示ui能够更好地捕获区段语义以及其总体主题性。
[0071]
参考图8,图示了示例性设备880。设备880包括输入接口886、输出接口888、处理器882和存储器装置884。处理器882和存储器装置884可以被配置成执行根据上面参考图1至7描述的示例中的任何一个的方法。存储器装置884可以存储计算机可读程序代码,当由处理器882执行时,该程序代码使得处理器882能够执行根据上面参考图1至图7描述的示例中的任何一个的方法。计算机可读程序代码可以被存储在任何计算机可读介质上,该介质例如
一个或多个非暂时性计算机可读介质。
[0072]
例如,输入接口886可以接收医学文本报告(或其文本、或其分割的句子、或其每一个句子的多个单词的单词嵌入),处理器882可以对医学文本报告(或其数据)实现上面参考图1描述的方法,并且处理器882可以经由输出接口888来输出表示被指派给每个句子的区段分类的数据,例如上面参考图3或4描述的输出数据。在一些示例中,输出数据可以被传输到结构化存储装置(未示出),使得输出数据被存储在结构化存储装置中,例如如上面参考图3所描述的那样。在一些示例中,输出数据可以被传输到显示设备(未示出),以允许用户审阅输出数据,例如如上面参考图4所描述的那样。在一些示例中,替代地或附加地,输出数据可以被存储在存储器装置884中。
[0073]
作为另一个示例,替代地或附加地,输入接口886可以按照上面描述的示例中的任何一个来接收训练数据集,处理器882可以实现例如如上面参考图6所描述的神经网络的训练,并且处理器882可以经由输出接口888来输出经训练的神经网络或表示经训练的神经网络的数据。在一些示例中,经训练的神经网络或表示经训练的神经网络的数据可以被存储在外部存储装置(未示出)中,或者被传输到另一个计算机(未示出),以用于由另一个计算机(未示出)使用以执行根据上面参考图1至图5描述的示例中的任何一个的方法。在一些示例中,经训练的神经网络或表示经训练的神经网络的数据可以替代地或附加地被存储在设备880的存储器装置884或另一个本地存储装置中,例如用于由设备880来使用以实现根据上面参考图1至图5描述的示例中的任何一个的方法。
[0074]
设备880可以被实现为处理系统和/或计算机。将领会的是,根据上面参考图1至图7描述的示例中的任何一个的方法是计算机实现方法,并且这些方法可以由设备880来实现。
[0075]
上述示例应理解为本发明的说明性示例。要理解的是,关于任何一个示例所描述的任何特征可以单独使用,或者与所描述的其他特征结合地使用,并且也可以与任何其他示例的一个或多个特征结合地使用,或者与任何其他示例的任何组合结合地使用。此外,也可以采用上面没有描述的等同物和修改,而不脱离由所附权利要求限定的本发明的范围。

技术特征:


1.一种用于将医学文本报告分割到区段中的计算机实现方法,所述医学文本报告包括多个句子,所述方法包括:(a)针对每个句子,获得所述句子的多个单词的单词嵌入;(b)针对每个句子,通过以下方式来确定所述句子的第一句子表示:针对每个句子,将所述句子的所述多个单词的单词嵌入顺序地输入到第一神经网络中,以生成所述句子的单词级上下文表示;以及将每个句子的所述单词级上下文表示顺序地输入到第二神经网络中,以生成每个句子的第一句子表示;(c)针对每个句子,通过以下方式来确定所述句子的第二句子表示:针对每个句子,对所述句子的单词嵌入应用聚合操作,以生成所述句子的聚合表示;以及将每个句子的所述聚合表示顺序地输入到第三神经网络中,以生成每个句子的第二句子表示;(d)针对每个句子,基于所述句子的第一句子表示和第二句子表示的组合来确定第三句子表示;(e)针对每个句子,通过将所述句子的第三句子表示输入到区段分类器中来确定所述句子的区段分类;以及(f)针对每个句子,向所述句子指派针对所述句子确定的区段分类。2.根据权利要求1所述的计算机实现方法,其中所述方法进一步包括:(g)生成输出数据,在所述输出数据中,所述医学文本报告的文本被分割到区段中,每个区段与特定区段分类相关联,并且包括所述医学文本报告中的已经向其指派了所述特定区段分类的那些句子。3.根据权利要求2所述的计算机实现方法,其中所述方法进一步包括:(h)将所述输出数据存储在结构化存储装置中,使得每个区段与相应的相关联的区段分类相关联地被存储。4.根据权利要求1所述的计算机实现方法,其中生成每个句子的所述单词级上下文表示包括,针对所述句子的每个单词:确定指示所述单词与所述句子的上下文的相关性的得分;以及使用针对所述单词确定的所述得分来对与所述单词相关联的对所述单词级上下文表示的贡献进行加权。5.根据权利要求4所述的计算机实现方法,其中针对所述句子的每个单词,与所述单词相关联的对所述单词级上下文表示的贡献包括第一神经网络的递归单元的与所述单词相关联的隐藏状态。6.根据权利要求5所述的计算机实现方法,其中所述句子的上下文由与所述句子的所有单词相关联的隐藏状态的聚合来表示。7.根据权利要求1所述的计算机实现方法,其中第三句子表示是基于第一句子表示和第二句子表示的级联来确定的。8.根据权利要求1所述的计算机实现方法,其中应用所述聚合操作包括:取得所述句子的所述多个单词的单词嵌入的均值。
9.根据权利要求1所述的计算机实现方法,其中第一神经网络、第二神经网络和第三神经网络中的一个或多个包括双向递归神经网络。10.根据权利要求1所述的计算机实现方法,其中第一神经网络、第二神经网络和第三神经网络中的一个或多个包括一个或多个门控递归单元。11.根据权利要求1所述的计算机实现方法,进一步包括:提供训练数据,所述训练数据包括多个医学文本报告,每个医学文本报告包括多个句子,所述训练数据进一步包括每个句子的地面真值区段分类,所述地面真值区段分类指示所述句子所属的所述医学文本报告的特定区段;以及基于所述训练数据来训练第一神经网络、第二神经网络、第三神经网络和区段分类器,以便最小化由所述区段分类器针对所述句子确定的区段分类与所述句子的对应地面真值区段分类之间的损失函数。12.一种训练用于将医学文本报告分割到区段中的神经网络的计算机实现方法,所述医学文本报告包括多个句子,所述方法包括:提供所述神经网络,所述神经网络包括:(a)第一句子表示模块,包括:第一神经网络,其被配置成:针对每个句子,基于所述句子的多个单词的单词嵌入的顺序输入来生成所述句子的单词级上下文表示;第二神经网络,其被配置成:针对每个句子,基于所述句子的所述单词级上下文表示的顺序输入来生成所述句子的第一句子表示,(b)第二句子表示模块,包括:第三神经网络,其被配置成:针对每个句子,基于所述句子的聚合表示的顺序输入来生成第二句子表示,所述聚合表示已经通过对所述句子的所述多个单词的单词嵌入应用聚合操作而被生成,以及(c)区段分类器,其被配置成:针对每个句子,基于所述句子的第三句子表示的输入来确定所述句子的区段分类,第三句子表示是所述句子的所生成的第一句子表示和所生成的第二句子表示的组合;提供训练数据,所述训练数据包括多个医学文本报告,每个医学文本报告包括多个句子,所述训练数据进一步包括每个句子的地面真值区段分类,所述地面真值区段分类指示所述句子所属的所述医学文本报告的特定区段;以及基于所述训练数据来训练所述神经网络,以便最小化由所述区段分类器针对所述句子确定的区段分类与所述句子的对应地面真值区段分类之间的损失函数。13.根据权利要求12所述的计算机实现方法,其中所述损失函数包括由所述区段分类器针对所述句子确定的区段分类与所述句子的对应地面真值区段分类之间的交叉熵。14.根据权利要求12所述的计算机实现方法,其中第一神经网络、第二神经网络和第三神经网络中的一个或多个包括双向递归神经网络。15.一种设备,包括:非暂时性存储器装置,其用于存储计算机可读程序代码;以及处理器,其与所述非暂时性存储器装置进行通信,所述处理器可利用所述计算机可读程序代码来操作以执行用于将医学文本报告分割到区段中的方法,所述医学文本报告包括
多个句子,所述方法包括:(a)针对每个句子,获得所述句子的多个单词的单词嵌入;(b)针对每个句子,通过以下方式来确定所述句子的第一句子表示:针对每个句子,将所述句子的所述多个单词的单词嵌入顺序地输入到第一神经网络中,以生成所述句子的单词级上下文表示;以及将每个句子的所述单词级上下文表示顺序地输入到第二神经网络中,以生成每个句子的第一句子表示;(c)针对每个句子,通过以下方式来确定所述句子的第二句子表示:针对每个句子,对所述句子的单词嵌入应用聚合操作,以生成所述句子的聚合表示;以及将每个句子的所述聚合表示顺序地输入到第三神经网络中,以生成每个句子的第二句子表示;(d)针对每个句子,基于所述句子的第一句子表示和第二句子表示的组合来确定第三句子表示;(e)针对每个句子,通过将所述句子的第三句子表示输入到区段分类器中来确定所述句子的区段分类;以及(f)针对每个句子,向所述句子指派针对所述句子确定的区段分类。16.根据权利要求15所述的设备,其中生成每个句子的所述单词级上下文表示包括,针对所述句子的每个单词:确定指示所述单词与所述句子的上下文的相关性的得分;以及使用针对所述单词确定的所述得分来对与所述单词相关联的对所述单词级上下文表示的贡献进行加权。17.根据权利要求16所述的设备,其中针对所述句子的每个单词,与所述单词相关联的对所述单词级上下文表示的贡献包括第一神经网络的递归单元的与所述单词相关联的隐藏状态。18.根据权利要求17所述的设备,其中所述句子的上下文由与所述句子的所有单词相关联的隐藏状态的聚合来表示。19.根据权利要求15所述的设备,其中第三句子表示是基于第一句子表示和第二句子表示的级联来确定的。20.根据权利要求15所述的设备,其中应用所述聚合操作包括:取得所述句子的所述多个单词的单词嵌入的均值。

技术总结


公开了一种用于将医学文本报告分割到区段中的框架。针对该报告的每个句子,通过将每个句子的单词级上下文表示顺序地输入到神经网络中来确定第一句子表示。通过将每个句子的聚合表示顺序地输入到另一个神经网络中来确定第二句子表示。针对每个句子,基于第一和第二句子表示的组合来确定第三句子表示,并且通过将第三句子表示输入到区段分类器中来确定该句子的区段分类。向每个句子指派针对该句子确定的区段分类。确定的区段分类。确定的区段分类。


技术研发人员:

S

受保护的技术使用者:

西门子医疗有限公司

技术研发日:

2022.06.14

技术公布日:

2022/12/15

本文发布于:2024-09-22 14:36:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/43134.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:句子   区段   所述   单词
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议