一种自动生成符合医学要求的现病史病历的方法及系统与流程

1.本发明涉及自然语言处理及医疗应用技术领域，特别是涉及一种自动生成符合医学要求的现病史病历的方法及系统。

背景技术：

2.随着信息技术和ai技术的发展，病史系统也越来越信息化，便捷化。在现有病史系统中，一般包括主诉、现病史、既往史、个人史和家族史等。现有技术中，生成患者现病史病历的方法通常为：根据需求预置癌种模版，不同的癌种模版有不同的处理方式，在系统上，医生只需要根据实际情况选填相应内容，系统根据选择的内容，自动生成现病史病历。但使用现有病史系统，在自动化方面存在缺陷，系统预置的病史模版是根据医生提供的病史报告抽取出的规则配置的，是根据有限的病史数据配置的规则，具有一定局限性，系统预置的病史模版会在生成病史的时候对于文本拼接进行一定的润修饰，但是这一过程需要人为提前设定规则，无法做到全面准确，甚至比较呆板，例如，统一在医生填写的医院内容里面加上“在”，如果医生自己填写了“在xx医院”，最终生成的报告就会出现“在在xx医院”。另外，人为设定的方式在某些场景下过于主观，不同的主治医师和研究者书写习惯都不相同，很难得到一套客观的复合所有研究者的书写模版。
3.因此，业界迫切需要一种能够自动生成符合医学要求的现病史病历的技术，以解决上述问题。

技术实现要素：

4.为克服上述现有技术存在的不足，本发明之目的在于提供一种自动生成符合医学要求的现病史病历的方法及系统，通过对现病史报告文本进行第一次识别分词和第二次识别分词，实现自动生成符合医学要求的现代病史病历的目的。
5.为达上述目的，本发明提出一种自动生成符合医学要求的现病史病历的方法，包括如下步骤：
6.切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉字库中，生成医学术语字典库。
7.获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果。
8.将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历。
9.在本发明的一个实施例中，所述切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉文字库中，生成医学术语字典库，包括：
10.将所述临床实验医学病历报告文本按照不同的类别进行划分，得到病历报告文本划分结果，所述病历报告文本划分结果包括但不限于医学术语和常见药物名词；
11.将所述病历报告文本划分结果置入普通汉字库中，并对所述病历报告文本划分结
果进行标注，得到普通词条和标注词条；
12.将所述普通词条和所述标注词条设置不同权重，生成医学术语字典库。
13.在本发明的一个实施例中，所述获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果，包括：
14.抓取现病史报告文本，所述现病史报告文本包括单个患者现病史报告和多个患者现病史报告；
15.利用统计分词对所述现病史报告文本进行第一次划分，得到多个划分结果；
16.对所述多个划分结果通过统计概率计算句子可能性，并通过因子比率计算词性可能性，将概率最大的划分结果作为第一次划分结果。
17.在本发明的一个实施例中，所述对所述多个划分结果通过因子比率计算词性可能性，包括：
18.根据每个划分结果中各个词的特征值，计算各个词的因子比率，得到各个词的性质；
19.其中，所述各个词的词性包括但不限于抽象词、反义词、同义词、程度词，数量介词、停用词和情态词。
20.在本发明的一个实施例中，所述对所述多个划分结果通过因子比率计算词性可能性，还包括：
21.选择名词的词性时，根据普通词条和标注词条的不同权重计算词性可能性。
22.在本发明的一个实施例中，所述对所述多个划分结果通过统计概率计算句子可能性，包括：
23.利用条件概率公式计算所述多个划分结果在医学术语字典库中的概率。
24.在本发明的一个实施例中，将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历，包括：
25.将第一次划分结果通过双向最大匹配算法与医学术语字典库中的词进行串匹配，得到正向划分结果和逆向划分结果；
26.对所述正向划分结果与所述逆向划分结果进行比较，判断两个划分结果是否相匹配；
27.响应于所述正向划分结果与所述逆向划分结果相同，将所述正向划分结果或所述逆向划分结果中的任一划分结果输出为现病史病历；
28.响应于所述正向划分结果与所述逆向划分结果不同，将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历。
29.在本发明的一个实施例中，所述将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历，包括：
30.利用因子得分函数计算各因子的得分，对正向匹配划分和逆向匹配划分赋予不同的权重，将所述正向划分结果和所述逆向划分结果量化为数值；
31.选取所述正向划分结果的得分与所述逆向划分结果的得分中分数最高的划分结果，输出为现病史病历。
32.在本发明的一个实施例中，所述医学术语字典库包括但不限于抽象关系库、反义关系库、同义关系库、程度副词库、数量介词库、停用词库和情态词库。
33.为达到上述目的，本发明还提供一种自动生成符合医学要求的现病史病历的系统，包括：
34.医学术语字典库生成模块，用于切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉字库中，生成医学术语字典库；
35.第一次识别分词模块，用于获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果；
36.第二次识别分词模块，用于将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历。
37.在本发明的一个实施例中，所述切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉文字库中，生成医学术语字典库，包括：
38.将所述临床实验医学病历报告文本按照不同的类别进行划分，得到病历报告文本划分结果，所述病历报告文本划分结果包括但不限于医学术语和常见药物名词；
39.将所述病历报告文本划分结果置入普通汉字库中，并对所述病历报告文本划分结果进行标注，得到普通词条和标注词条；
40.将所述普通词条和所述标注词条设置不同权重，生成医学术语字典库。
41.在本发明的一个实施例中，所述获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果，包括：
42.抓取现病史报告文本，所述现病史报告文本包括单个患者现病史报告和多个患者现病史报告；
43.利用统计分词对所述现病史报告文本进行第一次划分，得到多个划分结果；
44.对所述多个划分结果通过统计概率计算句子可能性，并通过因子比率计算词性可能性，将概率最大的划分结果作为第一次划分结果。
45.在本发明的一个实施例中，所述对所述多个划分结果通过因子比率计算词性可能性，包括：
46.根据每个划分结果中各个词的特征值，计算各个词的因子比率，得到各个词的性质；
47.其中，所述各个词的词性包括但不限于抽象词、反义词、同义词、程度词，数量介词、停用词和情态词。
48.在本发明的一个实施例中，所述对所述多个划分结果通过因子比率计算词性可能性，还包括：
49.选择名词的词性时，根据普通词条和标注词条的不同权重计算词性可能性。
50.在本发明的一个实施例中，所述对所述多个划分结果通过统计概率计算句子可能性，包括：
51.利用条件概率公式计算所述多个划分结果在医学术语字典库中的概率。
52.在本发明的一个实施例中，将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历，包括：
53.将第一次划分结果通过双向最大匹配算法与医学术语字典库中的词进行串匹配，得到正向划分结果和逆向划分结果；
54.对所述正向划分结果与所述逆向划分结果进行比较，判断两个划分结果是否相匹
配；
55.响应于所述正向划分结果与所述逆向划分结果相同，将所述正向划分结果或所述逆向划分结果中的任一划分结果输出为现病史病历；
56.响应于所述正向划分结果与所述逆向划分结果不同，将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历。
57.在本发明的一个实施例中，所述将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历，包括：
58.利用因子得分函数计算各因子的得分，对正向匹配划分和逆向匹配划分赋予不同的权重，将所述正向划分结果和所述逆向划分结果量化为数值；
59.选取所述正向划分结果的得分与所述逆向划分结果的得分中分数最高的划分结果，输出为现病史病历。
60.在本发明的一个实施例中，所述医学术语字典库包括但不限于抽象关系库、反义关系库、同义关系库、程度副词库、数量介词库、停用词库和情态词库。
61.与现有技术相比，本发明公开的一个方面的有益效果在于：
62.(1)本发明可以去除不恰当的重复词语，对缩写或拼写不完全的词汇进行完善，无需人为提前设定有关文本拼接润修饰的规则，就可以根据现病史文本自动生成具有润修饰的现病史病历，且相比人为提前设定更加全面、准确。
63.(2)本发明在普通汉字库注入医学术语和常见药物名词等医学常用专用词生成医学术语字典库，充分保障分词结果符合医学行业规律。
64.(3)本发明在第一次识别分词后，结合分类特征优化的方案和统计语言模型处理，使待第二次识别分词的文档已经偏向概率模型，无需再进行任何预处理。
65.(4)基于两次分词和医学术语字典库匹配分词，以及不断自动维护的医学术语字典库，能够使现病史病历文本更为准确。
附图说明
66.图1为本发明一种自动生成符合医学要求的现病史病历的方法的步骤流程图；
67.图2为本发明一种自动生成符合医学要求的现病史病历的系统的系统架构图。
具体实施方式
68.以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。
69.本发明提供了一种自动生成符合医学要求的现病史病历的步骤流程图，如图1所示，本发明一种自动生成符合医学要求的现病史病历的方法，包括如下步骤：
70.步骤101，切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉文字库中，生成医学术语字典库。
71.优选地，步骤101包括如下步骤：
72.步骤1011，将所述临床实验医学病历报告文本按照不同的类别进行划分，得到病
历报告文本划分结果，所述病历报告文本划分结果包括但不限于医学术语和常见药物名词；
73.具体地，所述临床实验医学病历报告文本与临床和医学业务高度关联，获取大量的临床实验医学病历报告文本并进行切分，按照不同的类别生成医学术语字典库。
74.步骤1012，将所述病历报告文本划分结果置入普通汉字库中，并对所述病历报告文本划分结果进行标注，得到普通词条和标注词条；
75.步骤1013，将所述普通词条和所述标注词条设置不同权重，生成医学术语字典库。
76.需要说明的是，步骤1011至步骤1013图中未标示。
77.优选地，使用结巴分词库，在所述结巴分词库中注入包括但不限于医学术语和常见药物名词，并对这部分词条进行标注，以结巴分词库中原本的词条作为普通词条，以标注的词条作为标注词条，对普通词条和标注词条分别设置不同的权重，形成医学术语词典库。
78.优选地，所述医学术语字典库包括但不限于抽象关系库、反义关系库、同义关系库、程度副词库、数量介词库、停用词库和情态词库。其中，抽象关系库中包括但不限于“手术”、“放射”等词，反义关系库中包括但不限于“增加/减轻”等词，同义关系库中包括但不限于“头晕/目眩”等词，程度副词库中包括但不限于“很”、“特别”等词，数量介词库中包括但不限于“约”、“大约”等词，停用词库中包括但不限于“？”、“，”、“的”、“着”等词，情态词库中包括但不限于“肯定”、“大概”等词。
79.步骤102，获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果。
80.优选地，步骤102包括如下步骤：
81.步骤1021，抓取现病史报告文本，所述现病史报告文本包括单个患者现病史报告和多个患者现病史报告。
82.具体地，所述现病史报告文本源于医生在系统中对患者情况进行勾选初步生成的文本，该文本可以为单个患者病史报告文本，也可以为多个患者的病史报告文本。抓取医生在系统中对患者情况进行勾选初步生成的文本，抓取触发包括定时触发和实时触发。
83.步骤1022，利用统计分词对所述现病史报告文本进行第一次划分，得到多个划分结果。
84.优选地，统计分词的方式可以为n-gram模型、隐马尔科夫模型，本发明不以此为限，另外，上述模型均为本领域所熟知的模型，在此不再赘述。
85.步骤1023，对所述多个划分结果通过统计概率计算句子可能性，并通过因子比率计算词性可能性，将概率最大的划分结果作为第一次划分结果。
86.也就是说，通过因子比率计算各个词的性质的可能性，通过统计概率计算句子的可能性，即统计概率用来判断一个完整的句子到底是多长，是由哪些词条组成的。优选地，在本实施例中，通过统计概率计算句子可能性时，可以利用条件概率公式计算划分结果在医学术语字典库中的概率，其中，条件概率公式为：
87.p(s)＝p(w1,w2...wn)，
88.p(w1,w2...wn)＝p(w1)
·
p(w2|w1)
·
p(w3|w2)
·
p(wi|w
i-1
)
·
p(wn|w
n-1
)，
89.其中，s为一个句子，也就是一个划分结果，w1,w2...wn为对句子的每个词所做的标记，n为句子的长度，i为句子中的任一词，p(wi|w
i-1
)为已知第i-1个词的前提下，第i个词出
现的概率。
90.需要说明的是，使用条件概率公式计算概率为本领域内的常用方法，对条件概率公式的其他描述，在此不再赘述。
91.优选地，通过因子比率计算各个词的性质的可能性，也就是说，根据各个词的特征值，计算各因子的比率，得到各个词的词性，包括但不限于抽象词、反义词、同义词、程度词、数量介词、停用词和情态词等。具体地，计算因子比率的公式可以为：
[0092][0093]
其中，fi为各因子得分，μ
j1
,μ
j2
,
…
,μ
jp
是第j个因子和原有变量间的因子值系数，xi为某一因素的值。所述函数就是某词条在因子上的坐标，然后根据各主要因子的特征值，计算各因子的比率，例如，若取两个主要因子，它们的特征值为(λ1,λ2)，则这两个因子的比率分别为
[0094]
需要说明的是，步骤1021至步骤1023图中未标示。
[0095]
优选地，于步骤1023中，所述通过因子比率计算词性可能性，还包括：
[0096]
选择名词的词性时，根据普通词条和标注词条的不同权重计算词性可能性。
[0097]
步骤103，将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历。
[0098]
优选地，步骤103包括如下步骤：
[0099]
步骤1031，将第一次划分结果通过双向最大匹配算法与医学术语字典库中的词进行串匹配，得到正向划分结果和逆向划分结果。
[0100]
具体地，根据扫描方式的不同，匹配分词方法可以分为正向匹配和逆向匹配，按照不同长度的优先匹配可以分为最大(最长)匹配和最小(最短)匹配，基于此，又有正向最大匹配法，也就是按照句子从左至右的方向进行匹配，以及逆向最大匹配法，也就是按照句子从右至左的方向进行匹配。在本实施例中，双向最大匹配算法就是将正向最大匹配和逆向最大匹配相结合，可以降低匹配的错误率。
[0101]
步骤1032，对所述正向划分结果与所述逆向划分结果进行比较，判断两个划分结果是否相匹配。
[0102]
步骤1033，响应于所述正向划分结果与所述逆向划分结果相同，将所述正向划分结果或所述逆向划分结果中的任一划分结果输出为现病史病历。
[0103]
步骤1034，响应于所述正向划分结果与所述逆向划分结果不同，将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历。
[0104]
需要说明的是，步骤1031至步骤1034图中未标示。
[0105]
优选地，步骤1034包括如下步骤：
[0106]
步骤10341，利用因子得分函数计算各因子的得分，对正向匹配划分和逆向匹配划分赋予不同的权重，将所述正向划分结果和所述逆向划分结果量化为数值；
[0107]
具体地，利用因子得分函数和正逆向划分权重不同，将正向划分结果和逆向划分结果中各个性质的词量化为一个数值，也就是各个词∑(因子比率*因子得分)。
[0108]
步骤10342，选取所述正向划分结果的得分与所述逆向划分结果的得分中分数最高的划分结果，输出为现病史病历。
[0109]
需要说明的是，步骤10341至步骤10342图中未标示。
[0110]
具体地，若正向划分结果a与逆向划分结果b不匹配，按照正向和逆向的不同比率，以及医学术语字典库中词条集c，得到最终的划分结果，通过公式表示为：
[0111]
p(abc)＝p(a)p(b)p(c)
[0112]
其中,p(abc)为词条最终结果，p(a)代表正向匹配结果分布，p(b)代表逆向匹配结果分布，p(c)代表医学术语字典库中匹配到的词条集c。根据影响因素和调节指数时就可以很方便地根据上面公式算出最终的结果p(abc)。也就是说，本公式用来说明在第一次分词结果前提下，进行第二次分词，结合字典库，分别得到正向和逆向分词结果，进一步计算两分词结果中得分高的分词结果，作为最终输出文本。
[0113]
本发明还提供了一种自动生成符合医学要求的现病史病历的方法的实施例进行具体说明：
[0114]
生成医学术语字典库：将临床实验医学病历报告文本按照不同的类别进行划分，得到病历报告文本划分结果，病历报告文本划分结果包括但不限于医学术语和常见药物名词，将所述病历报告文本划分结果置入结巴分词库，并对这部分词条进行标注，以结巴分词库中原本的词条作为普通词条，以标注的词条作为标注词条，对普通词条和标注词条分别设置不同的权重，生成医学术语字典库。
[0115]
第一次识别分词：抓取单个患者的现病史报告文本，现病史报告文本中的内容为“某某在在人民医院在2020.07.17发发热呕吐腹腔探测有异物3cm奥克立珠联合用药食欲下降减轻”，通过统计分词，可以得到类似词条，“某某”，“某某在”，“某某在在”，“在”，“人民医院”，“在人民医院”，“发热”，“呕吐”，“腹腔”，“腹腔探测”，“探测有异物”，“3cm”，“异物3cm”，“奥”，“克”，“立”，“柱”，“奥克立柱联合用药”，“联合用药”，“食欲”，“食欲下降减轻”，“食欲下降减轻”，有多种组合方式，如“某某，在在人民医院，在2020.07.17，发发热呕吐，腹腔探测，有异物3cm，奥克立珠联合用药失误下降减轻”，其他可能情况不一一描述。通过因子比率计算词性和条件概率公式计算句子可能性，得到最可能句子为“某某在在人民医院/在2020.07.17发发热呕吐/腹腔探测有异物3cm/奥克立珠联合用药，食欲下降减轻”。
[0116]
第二次识别分词：第一次划分结果为“某某在在人民医院在2020.07.17发发热呕吐腹腔探测有异物3cm奥克立珠联合用药，食欲下降减轻”，与医学术语字典库进行串匹配后，结合正向划分，得到结果为“某某在/在/人民医院/进行检查/2020.07.17有发热呕吐等症状/行腹腔探测术/见异物3cm/使用奥克立珠单抗联合用药方案”，结合逆向划分，得到结果为“某某/在/人民医院/2020.07.17/发热呕吐/腹腔探测/有异物/3cm/奥克立珠单抗/联合用药”，将正向划分结果与逆向划分结果比较，两者不相同，则将上述正向、逆向划分结果进行评分，选取的分数最高的划分结果，利用因子得分函数和正逆向划分权重不同，将正向划分结果和逆向划分结果中各个性质的词量化为一个数值作为两者的得分，得分最高的划分结果为“某某/在/人民医院/进行检查/2020.07.17有发热呕吐等症状/行腹腔探测术/见异物3cm/使用奥克立珠单抗联合用药方案”，该划分结果为最终的符合医学要求的现病史
病例。通过正逆向划词会去除重复的介词，重复的名词等，如本实施例中“在在人民医院”的“在”，同时结合字典库，会对一些缩写或者拼写不完全的词汇进行完善，对于一些读写生硬的地方进行润。
[0117]
本发明还提供了一种自动生成符合医学要求的现病史病历的系统的系统架构图，如图2所示，本发明还提供了一种自动生成符合医学要求的现病史病历的系统，包括：
[0118]
医学术语字典库生成模块200，用于切分临床实验医学病历报告文本，生成医学术语字典库；
[0119]
第一次识别分词模块210，用于获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果；
[0120]
第二次识别分词模块220，用于将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历。
[0121]
优选地，于医学术语字典库生成模块200中，所述切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉文字库中，生成医学术语字典库，包括：
[0122]
将所述临床实验医学病历报告文本按照不同的类别进行划分，得到病历报告文本划分结果，所述病历报告文本划分结果包括但不限于医学术语和常见药物名词；
[0123]
将所述病历报告文本划分结果置入普通汉字库中，并对所述病历报告文本划分结果进行标注，得到普通词条和标注词条；
[0124]
将所述普通词条和所述标注词条设置不同权重，生成医学术语字典库。
[0125]
优选地，所述医学术语字典库包括但不限于抽象关系库、反义关系库、同义关系库、程度副词库、数量介词库、停用词库和情态词库。
[0126]
优选地，于所述第一次识别分词模块210中，所述获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果，包括：
[0127]
抓取现病史报告文本，所述现病史报告文本包括单个患者现病史报告和多个患者现病史报告；
[0128]
利用统计分词对所述现病史报告文本进行第一次划分，得到多个划分结果；
[0129]
对所述多个划分结果通过统计概率计算句子可能性，并通过因子比率计算词性可能性，将概率最大的划分结果作为第一次划分结果。
[0130]
优选地，所述对所述多个划分结果通过因子比率计算词性可能性，包括：
[0131]
根据每个划分结果中各个词的特征值，计算各个词的因子比率，得到各个词的性质；
[0132]
其中，所述各个词的词性包括但不限于抽象词、反义词、同义词、程度词，数量介词、停用词和情态词。
[0133]
优选地，所述对所述多个划分结果通过因子比率计算词性可能性，还包括：
[0134]
选择名词的词性时，根据普通词条和标注词条的不同权重计算词性可能性。
[0135]
优选地，所述对所述多个划分结果通过统计概率计算句子可能性，包括：
[0136]
利用条件概率公式计算所述多个划分结果在医学术语字典库中的概率。
[0137]
优选地，于第二次识别分词模块220中，将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历，包括：
[0138]
将第一次划分结果通过双向最大匹配算法与医学术语字典库中的词进行串匹配，
得到正向划分结果和逆向划分结果；
[0139]
对所述正向划分结果与所述逆向划分结果进行比较，判断两个划分结果是否相匹配；
[0140]
响应于所述正向划分结果与所述逆向划分结果相同，将所述正向划分结果或所述逆向划分结果中的任一划分结果输出为现病史病历；
[0141]
响应于所述正向划分结果与所述逆向划分结果不同，将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历。
[0142]
优选地，所述将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历，包括：
[0143]
利用因子得分函数计算各因子的得分，对正向匹配划分和逆向匹配划分赋予不同的权重，将所述正向划分结果和所述逆向划分结果量化为数值；
[0144]
选取所述正向划分结果的得分与所述逆向划分结果的得分中分数最高的划分结果，输出为现病史病历。
[0145]
需要说明的是，本发明一种自动生成符合医学要求的现病史病历的系统与一种自动生成符合医学要求的现病史病历的方法相对应，其他描述可参照所述方法的描述，此处不予赘述。
[0146]
综上所述，本发明一种自动生成符合医学要求的现病史病历的方法及系统，首先，通过在普通汉字库注入医学术语和常见药物名词等医学常用专用词生成医学术语字典库，其中，该医学术语字典库中包含普通词条和标注词条；其次，利用统计分词对现病史报告文本划分，将多个划分结果通过统计概率和因子比率计算得到最合适的划分结果作为第一次分词结果；其中，利用因子比率计算句子中各个词的词性可能性，可以通过普通词条和标注词条设置不同的权重进行计算；最后，将第一次分词结果通过双向最大匹配算法与医学术语字典库进行串匹配，并根据串匹配结果分情况处理，若串匹配生成的正向划分结果与逆向划分结果相同，则任一结果都是最终输出的现病史病历，若串匹配生成的正向划分结果与逆向划分结果不同，则根据因子得分和正逆向划分权重，计算正向、逆向划分结果的得分，得分高者输出为现病史病历。
[0147]
可见，本发明的一个方面可以基于现病史报告文本自动生成符合医学要求的现病史病历，通过在普通汉字库基础上，结合医学行业特点建立的医学术语字典库，并在分词算法中通过因子比率和概率公式共同作用，选取最合适的划分结果，将该结果通过双向匹配算法与医学术语词典进行串匹配，选取得分最高的结果作为现病史病例，可以去除不符合语义的重复的介词、名词等词，并对句子缩写或拼写不完整的词汇进行完善，生成具有润修饰的现病史病历。
[0148]
上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

技术特征：

1.一种自动生成符合医学要求的现病史病历的方法，包括如下步骤：切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉字库中，生成医学术语字典库；获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果；将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历。2.如权利要求1所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，所述切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉字库中，生成医学术语字典库，包括：将所述临床实验医学病历报告文本按照不同的类别进行划分，得到病历报告文本划分结果，所述病历报告文本划分结果包括但不限于医学术语和常见药物名词；将所述病历报告文本划分结果置入普通汉字库中，并对所述病历报告文本划分结果进行标注，得到普通词条和标注词条；将所述普通词条和所述标注词条设置不同权重，生成医学术语字典库。3.如权利要求1所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，所述获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果，包括：抓取现病史报告文本，所述现病史报告文本包括单个患者现病史报告和多个患者现病史报告；利用统计分词对所述现病史报告文本进行第一次划分，得到多个划分结果；对所述多个划分结果通过统计概率计算句子可能性，并通过因子比率计算词性可能性，将概率最大的划分结果作为第一次划分结果。4.如权利要求3所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，对所述多个划分结果通过因子比率计算词性可能性，包括：根据每个划分结果中各个词的特征值，计算各个词的因子比率，得到各个词的性质；其中，所述各个词的词性包括但不限于抽象词、反义词、同义词、程度词，数量介词、停用词和情态词。5.如权利要求4所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，对所述多个划分结果通过因子比率计算词性可能性，还包括：选择名词的词性时，根据普通词条和标注词条的不同权重计算词性可能性。6.如权利要求3所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，所述对所述多个划分结果通过统计概率计算句子可能性，还包括：利用条件概率公式计算所述多个划分结果在医学术语字典库中的概率。7.如权利要求1所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，所述将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历，包括：将第一次划分结果通过双向最大匹配算法与医学术语字典库中的词进行串匹配，得到正向划分结果和逆向划分结果；
对所述正向划分结果与所述逆向划分结果进行比较，判断两个划分结果是否相匹配；响应于所述正向划分结果与所述逆向划分结果相同，将所述正向划分结果或所述逆向划分结果中的任一划分结果输出为现病史病历；响应于所述正向划分结果与所述逆向划分结果不同，将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历。8.如权利要求7所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，所述将所述正向划分结果和所述逆向划分结果分别评分，选取评分高的划分结果输出为现病史病历，包括：利用因子得分函数计算各因子的得分，对正向匹配划分和逆向匹配划分赋予不同的权重，将所述正向划分结果和所述逆向划分结果量化为数值；选取所述正向划分结果的得分与所述逆向划分结果的得分中分数最高的划分结果，输出为现病史病历。9.如权利要求1所述的一种自动生成符合医学要求的现病史病历的方法，其特征在于，所述医学术语字典库包括但不限于抽象关系库、反义关系库、同义关系库、程度副词库、数量介词库、停用词库和情态词库。10.一种自动生成符合医学要求的现病史病历的系统，包括：医学术语字典库生成模块，用于切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉字库中，生成医学术语字典库；第一次识别分词模块，用于获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果；第二次识别分词模块，用于将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历。

技术总结

本发明的一个实施例公开了一种自动生成符合医学要求的现病史病历的方法及系统，所述方法包括如下步骤：切分临床实验医学病历报告文本，将病历报告文本切分结果置入普通汉字库中，生成医学术语字典库；获取现病史报告文本，对所述现病史报告文本进行第一次识别分词，形成第一次划分结果；将所述第一次划分结果与所述医学术语字典库进行第二次识别分词，形成符合医学要求的现病史病历，本发明可以去除不符合语义的重复词汇，对缩写或拼写不完全的词汇进行完善，并自动生成具有润修饰的符合医学要求的现病史病历。要求的现病史病历。要求的现病史病历。