半监督自学习驱动的医学文本病症辨识方法

著录项
  • CN202011641493.9
  • 20201231
  • CN112735597A
  • 20210430
  • 荆门汇易佳信息科技有限公司
  • 刘秀萍;王辉
  • G16H50/70
  • G16H50/70 G16H10/60 G06N3/12 G06K9/62 G06F40/30 G06F40/253 G06F40/211

  • 湖北省荆门市高新区龙井大道238号(九派通创业园)
  • 湖北(42)
摘要
本发明提供的半监督自学习驱动的医学文本病症辨识方法,主要实现对医学文本的特征分类,特征包括患病对象类型、病情进展、是否发生疾病、病症严重程度、病症的条件性和病症的不确定性等,通过对这些特征的辨识和分类,使这些非结构化的医学文本结构化并在进一步的信息挖掘中可直接处理使用;本发明立足于医学文本标注文本较少,未标注文本多的特点,从特征抽取、优化分类模型方面展开;实验结果表明,本发明较好的弥补了标注文本较少的缺陷和不足,由于自学习方法易引入相似数据和错误分类数据,相比之下半监督SVM在利用未标注数据方面效果更好,证明了本发明方法的可行性和高效性。
权利要求

1.半监督自学习驱动的医学文本病症辨识方法,其特征在于,基于医学文本进行病症关键特征的辨识,特征包括病症严重程度、病症进展和病症描述对象,本发明从特征抽取、优化分类模型方面展开,主要包括:一是提取医学文本的语义特征,将病症表达词邻近文本的全局特征和局部上下文特征组织融合,并将其转化成为特征向量,作为之后文本分类模型的分类特征;二是采用一种自学习驱动的多分类器投票方法,将多个分类器分类为一致的未标注文本,加入到SVM训练集中;三是采用一种基于聚类假设的安全半监督SVM模型,分类超平面穿过低密度数据区域,考量不同分类超平面的差异性,使分类超平面间隔最大化和模型的整体适应性达到平衡;

本发明提出一种基于多Baseline方法投票原理的自学习驱动的SVM模型,当多个Baseline方法对未标记文本的分类结果一致时,则认为该未标记文本的正确分类和多数一致结果相同,同时将该文本标记为多数一致性的结果,并加入训练文本,优化SVM模型的训练,本发明采用Baseline方法,主要包括基于词语语义规则的方法、SVM模型、朴素贝叶斯优化分类算法和条件随机场优化模型,在各分类模型上设置了投票权值,并利用部分标记训练文本采用模拟退火优化算法优化每个分类模型的投票权重;

安全半监督SVM的参数优化:训练的参数有S1、S2和核函数参数σ的值,安全半监督SVM参数采用遗传算法进行优化,主要环节为:

环节一,待训练参数的编码:参数的编码采用实值编码方式,分别对影响因子S1、S2和核函数参数σ进行编码;

环节二,目标函数计算:目标函数的值越大代表其适应能力越强,被选为种子继续繁衍的机会越大,本发明的目标函数为安全半监督SVM的分类正确率;

环节三,个体选择:每次的遗传过程中选择适应能力强,即目标函数值大的个体进行下一次遗传操作,使参数逐渐接近最优值,随机选择初始个体集合,之后的个体选择都依据目标函数的大小选择;

环节四,交叉操作:利用原有个体产生新个体的过程,依据生物基因重组过程,参数都采用实数编码,交叉操作只能采用算术交叉,

其中α表示[0,1]的一个随机数,X表示交叉操作的对象个体;

环节五,变异操作:在特征参数优化的过程中允许非常规操作,跳出局部最优值,使特征训练的效果更佳,每次变异产生的新基因xW满足以下条件:

xW=xw+Δ(r,y)

其中Δ(r,y)表示[0,y]之间一个随遗传次数的增加y不断减小趋近于0的随机值,条件rand(0,1)=0|1表示变异的概率很低,只有当随机数等于0或1时,才可能激发个体的变异,分别为特征参数的最大值和最小值;

环节五,终止训练:当遗传次数达到临界值或特征的变化范围趋近于0时,停止遗传过程,完成参数优化。

2.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,自学习驱动的SVM中特征选取:向量空间模型将需要表示的文本特征转换成数字特征,映射成一个特征向量,U(C)=(T1,K1,R2,K2,…,Rn,Kn),其中(R1,R2,…,Rn)表示文本选择的特征集合,(K1,K2,…,Kn)表示相应特征项的权值集合,表征特征对最后分类结果的贡献程度;在进行特征抽取时,选取两类特征,一类是病症标注词上下文语义环境特征,另外一类是与病症标注词关联的语法特征,上下文语义环境特征包括关键词邻近的文本语境特征,与疾病标注关键词关联的特征包括和标注关键词存在依存关系和语法关系的词语,以及邻近出现的相关词。

3.根据权利要求2所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,特征选取包括:

句法依存分析,句法分析对句子或短语的结构进行分析,明确句子在句中的作用,以及短语与短语之间的关系,在语法关系的特征提取过程中,采用提取句子主干部分、主语、谓语和宾语成分作为语法特征,本发明重点是文本标注的疾病标注关键词,疾病相关属性最重要的是提取和该关键词关联的特征属性,和关键词具有关联关系的词语为重点,依存关系解决中心词和其它相关修饰词之间的依存关系,采样依存分析中和关键词存在直接和间接的依存关系词语,同时依存类别也作为分类特征;

N-Gram,N-Gram模型考量疾病关键词邻近的搭配信息,疾病关键词邻近的相关文本信息对特征的分类有重要作用,将邻近文本的词向量作为一个特征提取;

Word2Vector特征向量,根据大量的未标注文本采用无监督的方法计算出每个词语关联的多维特征向量,特征向量隐含词语的部分分布和语义信息,把Word2Vector向量作为特征;

WordNet词典辅助信息,WordNet以同义词集合作为词典的基本构建单位,在该字典中到目标词语的同义词和表示上下级关系、整体部分关系和同级关系的部分词语,利用这些信息辅助提高分类效果;

词语的词干化,相同的词干会引申出动词、名词和形容词不同形式的词语,利用关联的工具提取不同形式的词语词干作为一维特征信息,辅助分类模型分类;

特定词,文本内的否定词、连接词特定词语对文本的语义表达有重要作用,提取文本的部分特定词语信息;

病症标注表达词信息,文本标注描述病症内容的词语,是单个词语或者多个连续或离散的词语,所有特征提取都围绕病症表达词进行,提取病症表达词词性、语法特性本身的特性。

4.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,特征权重学习:采用特征描述方法U(C)=(R1,K1,R2,K2,…,Rn,Kn),其中(R1,R2,…,Rn)表示文本选择的特征集合,(K1,K2,…,Kn),表示相应特征项的权值集合,特征集合不仅包括特征表示,还包括表示特征对分类效果贡献值的特征权重值,调整特征权重的参数值:

其中令:K1+K2+K3+…+Kn=1且1>K1,K2,K3,…,Kn≧0

参数调整过程采用模拟退火优化法,在系统朝着能量降低的趋势下允许系统偶尔朝着能量较高的状态跳跃,最终到全局最优值,模拟退火优化调整特征权重步骤为:

步骤一,随机设置特征权重的(K1,K2,…,Kn)值,满足特征值大小的基本条件,求出在该条件最终分类效果的G值,并将该值作为模拟退火优化算法的反向能量函数;

步骤二,设置初始位移参数a=1,在满足特征值之和等于1,且(K1,K2,…,Kn)均属于[0,1)区间的条件下随机选择参数(K1,K2,…,Kn)值,并使得选择的特征权值和上次的特征权值向量欧式距离小于等于a′,位移参数a′满足:

其中R为参数特征权值调整的次数,a′随特征权值调整次数的增加,特征权值的变化范围逐渐缩小,完成分类并计算出最终的分类G′值,如果G′值较上一次增加,则接受这次权值变化,并将特征权值向量作为下次变化的起点,否则以一定的概率Q接受这次变化,概率Q满足:

其中W是调整系数常量W>0,且为正整数,概率Q随着G值逐渐稳定而逐渐降低趋近于0;

步骤三,当G值变化范围小于ε,ε趋近于0时,停止调整过程,否则跳转至步骤一;

经过多次的模拟退火优化法特征权值向量计算,最后将特征权值向量设置为G值最大的最优特征向量。

5.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,朴素贝叶斯优化分类:通过训练文本估算在测试文本出现的条件下各个分类类别的概率,测试文本属于概率最大的类别,朴素贝叶斯优化分类的定义为:

步骤1,设x={d1,d2,d3,…,dm}为待分类的测试文本,其中的每一项di表示x的一维特征属性;

步骤2,设分类的类别属性S={y1,y2,…,yn},其中n代表分类个数;

步骤3,分别计算Q(y1|x),Q(y2|x),…,Q(yn|x),即各种可能的分类概率大小;

步骤4,如果存在Q(yW|x)=max{Q(y1|x),Q(y2|x),…,Q(yn|x)},则认为分类为W;

整个分类问题转化成了步骤3中各条件概率的计算问题,计算每一个分类的条件概率,在训练文本的基础上利用贝叶斯公式计算各类别下的特征属性的条件概率,具体过程为:

第一,以训练文本为对象分别统计各个分类类别下的特征的条件概率估算值,即Q(a1|y1),Q(a2|y1),…,Q(am|y1),…;

第二,假设上述特征之间条件独立,根据贝叶斯定理用如下推导:

上式的分母均为常数,因此要是得该式的概率最大化只要分子最大化即可:

朴素贝叶斯优化分类分为准备阶段、分类器训练阶段、分类阶段。

6.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,条件随机场优化方法:条件随机场定义为:假设F=(U,B)是一个无向图,其中X={Uq|q∈U},是以F中结点为隐变量的随机关联变量的集合,在一定条件S下,X中每个随即变量都服从马尔科夫性质,即Q(Uq|S,Uv,其中v≠q)=Q(Uq|C,Uv,u~q),u~q表示u和q是相邻边,(S,X)构成一个条件随机场,马尔科夫性质是X中每个变量相对于其它变量的条件概率仅仅相当于和这个变量相连变量为条件的概率;

条件随机场优化模型在给定观察序列的条件下,求出整个标记序列的概率,即求出的是条件概率,条件随机场是一个判别式的模型,其中S={S1,S2,S3,…Sn}表示观察序列X={X1,X2,X3,…Xn}表示标记序列。

7.根据权利要求6所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,本发明条件随机场核心问题包括:

势函数,势函数直接关系到最终分类效果的效果,势函数取一元势函数和多元势函数,其中多元势函数表示多个空间相邻的特征之间的相互影响关系,将势函数表示为特征集合之中的一个元素和对应特征参数λ乘积的组合形式,一元势函数仅利用结点邻近的局部信息来计算对标注分类的概率,二元势函数利用特征结点之间的相互关系,依据特征之间相互变化规律预测分类的概率;

参数估算,条件随机场优化模型根据样本训练参数λ,对于给定的样本,采用最大似然估算参数,将条件概率转换成最大似然函数形式;

划分函数,本发明采用加速近似算法求出函数的近似值;

分类推断,完成参数估算和划分函数计算之后,在测试集上进行分类,利用最大后验概率原则对文本进行分类;

本发明针对每一个单独的任务具体步骤为:

第一步,根据文本的数据特征计算特征参数向量λ,并计算一元势函数和二元势函数;

第二步,计算划分函数;

第三步,计算后验概率Q(Xi|S,λ);

第四步,根据分类公式给每条文本标注一个后验概率最大值的标准类别。

8.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,本发明提出一种自学习驱动的SVM模型,引入部分未标注数据,最终分类效果进一步的改善;

自学习驱动的SVM模型先利用标记好的训练数据训练基于Baseline各种分类模型,然后利用这些模型预测未标记文本的分类,如果多个Baseline分类器的分类结果一致,则认为分类结果就是该未标记文本的分类类别,将这部分未标记数据加入训练文本集合重新训练SVM模型,但对未标记的数据进行分类预测有一定的错误预测数据,将这部分错误预测数据挑选出来,加入训练文本集时特别处理,严格限制每次加入模型的数据量,分多次选择未标记的数据加入到训练数据集中,对于未标记数据的选择,设计一个分类准确的置信度函数T,当满足设置的置信度临界值时,将未标记数据全部分批次加入训练数据中,最后终止自学习的过程。

9.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,根据分类任务的特性,提出一个和未标记数据分类结果关联的置信度,表示该结果分类正确性的可信度Ti函数,

Ti=G(K1D1i+K2D2i+K3D3i+K4D4i)

其中:

K1+K2+K3+K4=1,K1,K2,K3,K4≥0

置信度函数采用多分类器投票的方法,当多个分类器分类结果越相同,计算得出的分类正确性可信值也越大,函数Ti中i表示未标记文本的标号,D表示一个N维的向量,N代表分类任务的可分类数量,D1i,D2i,D3i,D4i分别表示基于词语语义规则分类方法、朴素贝叶斯模型、条件随机场优化模型和SVM模型的N维分类值向量,若该分类模型的结果为第j个类别,就令该分类值向量中的第j位为1,其余均为0,G函数表示求这个N维向量的模。

10.根据权利要求1所述的半监督自学习驱动的医学文本病症辨识方法,其特征在于,投票权重的优化:利用标记的训练文本学习和调整特征权重值,具体步骤为:

第1步,计算条件随机场优化模型衡量分类效果的G值,将其作为模拟退火优化算法的能量函数,并初始化迭代次数R=0;

第2步,随机分配参数K1,K2,K3,满足K1,K2,K3≥0,且K1+K2+K3=1,利用参数完成置信函数对未标记数据评估和判断,循环选择置信函数值ROP-K的未标记文本加入到条件随机场优化模型训练集中优化模型,计算出能量函数变化值ΔG;

第3步,如果ΔG≥0,接受参数K1,K2,K3;否则当ΔG<0时,以一定的概率接受该变化:

第4步,R=R+1;

第5步,如果|ΔG|≦ξ,其中ξ为大于零的极小正常数,表示该系统达到了平衡,结束计算,此时的K1,K2,K3为最终的结果,否则继续调整参数值;

第6步,给参数随机分配一个位移,类比第2步计算调整参数之后模型的分类能力G值计算出能量函数变化值ΔG,跳转至第3步,其中位移范围满足:

其中R表示参数循环迭代计算的次数,AR表示第R次循环时,参数分配位移的最大值,此处位移采用欧式距离计算。

说明书
技术领域

本发明涉及一种医学文本病症辨识方法,特别涉及一种半监督自学习驱动的医学文本病症辨识方法,属于医学文本病症辨识技术领域。

随着信息科技的高速发展和现代医学体系不断完善,电子病历等和病人关联的就医记录信息化不断丰富,其重要性也日益凸显,已经逐渐成为现代医疗发展与高效管理的重要保障,医学文本电子信息化是科技发展进步的必然趋势。生物医学语料是伴随信息技术高速发展,改变传统难以信息化的书写记录方式而用现代化电子病历替代后的产物,包含大量珍贵信息的非结构化临床文档,这些临床文本记录了患者的病史、就医时的病征、医生的诊疗方法和医嘱,充分反映了患者的就医情况。医学文本对患者病情的发展以及整体掌握某种疾病的诊疗方法具有极其重要的价值。这些信息同时也对提高医学就诊记录的规范性与完整性、病人信息的整理与共享、加强医疗质量的监测监督、减轻医生的工作量、提高医务人员的工作效率等方面具有非常重要的价值。

近年来,一些机构建立了医学文档信息化管理系统,但由于信息化系统软件开发的不足和认识不到位,大多数单位医疗信息化系统远未达到标准,没有体现这些医学文本的真实价值,加上之前医学机构累积了大量手写医学文本资料,文本信息严重缺乏规范性,录入系统时也未完全按照要求,致使信息可用性不足,多方面因素造成需要对现有的大量医学文本进行再次开发利用,在这些珍贵的文本记录之中暗含着重要的病人病情真实资料,不仅有助于单个或同类病人的诊疗康复,还有助于了解该类疾病的特点,有助于医学专业人员从事研究和实际对疾病进行预防和诊疗。以电子病历为主体的医学文本的普及极大的促进当代人健康水平的提升,医学文本广泛包含了由专业医务人员通过电子信息系统填写和生成的包含大量文本信息的医学资料,这些信息可利用信息技术的手段进行管理和开发利用,其中包含患者就诊过程中医务人员撰写的患者医学活动记录,这些医学资料涵盖入院检查、针对该症状采取的诊疗方案、用药情况、及后续诊疗效果等,包含大量的医学专业的知识,可以在医学文本资料中提取到具有实际指导意义的临床资料,但由于其非结构化的文本结构对进一步分析研究带来了较大困难,因此利用自然语言处理技术处理医学文本语料十分必要。

医学文本的特征辨识利用数据挖掘和机器学习等自然语言处理方法将非结构文本转化成亟需的特定目标数据,得到患者病症种类,诊疗方案是否有效,病症是否严重,症状是否减轻等等,这些信息对总结诊疗方案很重要,能有效的跟踪病人病情变化,掌握疾病的发展动向和有效的评估诊疗方案等。

现有技术的数据互换平台及方法的现状和不足,以及本发明拟解决的问题表现在:

第一,现有技术的医学文档信息化管理系统,由于软件开发的不足和认识不到位,大多数医疗信息化系统远未达到标准,没有体现这些医学文本的真实价值,加上之前医学机构累积了大量手写医学文本资料,文本信息严重缺乏规范性,录入系统时也未完全按照要求,致使信息可用性不足,多方面因素造成需要对现有的大量医学文本进行再次开发利用,在这些珍贵的文本记录之中暗含着重要的病人病情真实资料,不仅有助于单个或同类病人的诊疗康复,还有助于了解该类疾病的特点,有助于医学专业人员从事研究和实际对疾病进行预防和诊疗,现有技术对此的开发和利用明星不足;

第二,现有技术的自然语言处理技术在一般的通用领域已取得了较好的效果,有了较普遍的方法,但在医学文本的特征辨识上,由于医学文本的特殊性和专业性较强,语言结构和一般性文本语料又不太一样,再加上特征关系的特殊性,处理过程中较依赖专业性的词典和知识,因此在实际的特征辨识过程有较大难度;

第三,现有技术无法实现对医学文本的特征分类,无法实现对患病对象类型、病情进展、是否发生疾病、病症严重程度、病症的条件性和病症的不确定性特征的辨识和分类,现有技术无法使这些非结构化的医学文本结构化并在进一步的信息挖掘中可直接处理使用;针对医学文本标注文本较少,未标注文本多的缺陷和不足,现有技术的自学习方法易引入相似数据和错误分类数据,在利用未标注数据方面效果不好,可行性较差;

第四,现有技术的自学习文本辨识方法,仅考虑基于现有数据的单个最优分类决策分类面,可能对现有数据过度拟合,模型参数选择具有一定的盲目性,使模型偏离合理化,无论是在多任务的整体分类效果上还是对于更严格的基于记录的分类效果上,现有技术的普通Baseline模型效果都不理想,准确性和可行性不好。

针对现有技术的不足,本发明提供的半监督自学习驱动的医学文本病症辨识方法,在特征辨识技术的基础上,对方法和特征进行改进,在特征辨识过程中既要保证特征抽取和分类的准确率,又要保证特征抽取的召回率,最终在这两项指标上达到最佳平衡,医学文本的特征辨识有助于将非结构化的临床文档转化成结构化的医学临床信息,以便进行信息的深度加工,利用这些信息有助于专业的医务人员更好的掌握病人的病情发展和走势,对预防疾病和进一步研究疾病病灶、机理及诊疗方法具有非常重要的作用。

为达到以上技术效果,本发明所采用的技术方案如下:

半监督自学习驱动的医学文本病症辨识方法,基于医学文本进行病症关键特征的辨识,特征包括病症严重程度、病症进展和病症描述对象,本发明从特征抽取、优化分类模型方面展开,主要包括:一是提取医学文本的语义特征,将病症表达词邻近文本的全局特征和局部上下文特征组织融合,并将其转化成为特征向量,作为之后文本分类模型的分类特征;二是采用一种自学习驱动的多分类器投票方法,将多个分类器分类为一致的未标注文本,加入到SVM训练集中;三是采用一种基于聚类假设的安全半监督SVM模型,分类超平面穿过低密度数据区域,考量不同分类超平面的差异性,使分类超平面间隔最大化和模型的整体适应性达到平衡;

本发明提出一种基于多Baseline方法投票原理的自学习驱动的SVM模型,当多个Baseline方法对未标记文本的分类结果一致时,则认为该未标记文本的正确分类和多数一致结果相同,同时将该文本标记为多数一致性的结果,并加入训练文本,优化SVM模型的训练,本发明采用Baseline方法,主要包括基于词语语义规则的方法、SVM模型、朴素贝叶斯优化分类算法和条件随机场优化模型,在各分类模型上设置了投票权值,并利用部分标记训练文本采用模拟退火优化算法优化每个分类模型的投票权重;

安全半监督SVM的参数优化:训练的参数有S1、S2和核函数参数σ的值,安全半监督SVM参数采用遗传算法进行优化,主要环节为:

环节一,待训练参数的编码:参数的编码采用实值编码方式,分别对影响因子S1、S2和核函数参数σ进行编码;

环节二,目标函数计算:目标函数的值越大代表其适应能力越强,被选为种子继续繁衍的机会越大,本发明的目标函数为安全半监督SVM的分类正确率;

环节三,个体选择:每次的遗传过程中选择适应能力强,即目标函数值大的个体进行下一次遗传操作,使参数逐渐接近最优值,随机选择初始个体集合,之后的个体选择都依据目标函数的大小选择;

环节四,交叉操作:利用原有个体产生新个体的过程,依据生物基因重组过程,参数都采用实数编码,交叉操作只能采用算术交叉,

其中α表示[0,1]的一个随机数,X表示交叉操作的对象个体;

环节五,变异操作:在特征参数优化的过程中允许非常规操作,跳出局部最优值,使特征训练的效果更佳,每次变异产生的新基因xW满足以下条件:

xw=xw+Δ(r,y)

其中Δ(r,y)表示[0,y]之间一个随遗传次数的增加y不断减小趋近于0的随机值,条件rand(0,1)=0|1表示变异的概率很低,只有当随机数等于0或1时,才可能激发个体的变异,分别为特征参数的最大值和最小值;

环节五,终止训练:当遗传次数达到临界值或特征的变化范围趋近于0时,停止遗传过程,完成参数优化。

半监督自学习驱动的医学文本病症辨识方法,进一步的,自学习驱动的SVM中特征选取:向量空间模型将需要表示的文本特征转换成数字特征,映射成一个特征向量,U(C)=(T1,K1,R2,K2,…,Rn,Kn),其中(R1,R2,…,Rn)表示文本选择的特征集合,(K1,K2,…,Kn)表示相应特征项的权值集合,表征特征对最后分类结果的贡献程度;在进行特征抽取时,选取两类特征,一类是病症标注词上下文语义环境特征,另外一类是与病症标注词关联的语法特征,上下文语义环境特征包括关键词邻近的文本语境特征,与疾病标注关键词关联的特征包括和标注关键词存在依存关系和语法关系的词语,以及邻近出现的相关词。

半监督自学习驱动的医学文本病症辨识方法,进一步的,特征选取包括:

句法依存分析,句法分析对句子或短语的结构进行分析,明确句子在句中的作用,以及短语与短语之间的关系,在语法关系的特征提取过程中,采用提取句子主干部分、主语、谓语和宾语成分作为语法特征,本发明重点是文本标注的疾病标注关键词,疾病相关属性最重要的是提取和该关键词关联的特征属性,和关键词具有关联关系的词语为重点,依存关系解决中心词和其它相关修饰词之间的依存关系,采样依存分析中和关键词存在直接和间接的依存关系词语,同时依存类别也作为分类特征;

N-Gram,N-Gram模型考量疾病关键词邻近的搭配信息,疾病关键词邻近的相关文本信息对特征的分类有重要作用,将邻近文本的词向量作为一个特征提取;

Word2Vector特征向量,根据大量的未标注文本采用无监督的方法计算出每个词语关联的多维特征向量,特征向量隐含词语的部分分布和语义信息,把Word2Vector向量作为特征;

WordNet词典辅助信息,WordNet以同义词集合作为词典的基本构建单位,在该字典中到目标词语的同义词和表示上下级关系、整体部分关系和同级关系的部分词语,利用这些信息辅助提高分类效果;

词语的词干化,相同的词干会引申出动词、名词和形容词不同形式的词语,利用关联的工具提取不同形式的词语词干作为一维特征信息,辅助分类模型分类;

特定词,文本内的否定词、连接词特定词语对文本的语义表达有重要作用,提取文本的部分特定词语信息;

病症标注表达词信息,文本标注描述病症内容的词语,是单个词语或者多个连续或离散的词语,所有特征提取都围绕病症表达词进行,提取病症表达词词性、语法特性本身的特性。

半监督自学习驱动的医学文本病症辨识方法,进一步的,特征权重学习:采用特征描述方法U(C)=(R1,K1,R2,K2,…,Rn,Kn),其中(R1,R2,…,Rn)表示文本选择的特征集合,(K1,K2,…,Kn),表示相应特征项的权值集合,特征集合不仅包括特征表示,还包括表示特征对分类效果贡献值的特征权重值,调整特征权重的参数值:

其中令:K1+K2+K3+…+Kn=1且1>K1,K2,K3,…,Kn≧0

参数调整过程采用模拟退火优化法,在系统朝着能量降低的趋势下允许系统偶尔朝着能量较高的状态跳跃,最终到全局最优值,模拟退火优化调整特征权重步骤为:

步骤一,随机设置特征权重的(K1,K2,…,Kn)值,满足特征值大小的基本条件,求出在该条件最终分类效果的G值,并将该值作为模拟退火优化算法的反向能量函数;

步骤二,设置初始位移参数a=1,在满足特征值之和等于1,且(K1,K2,…,Kn)均属于[0,1)区间的条件下随机选择参数(K1,K2,…,Kn)值,并使得选择的特征权值和上次的特征权值向量欧式距离小于等于a′,位移参数a′满足:

其中R为参数特征权值调整的次数,a′随特征权值调整次数的增加,特征权值的变化范围逐渐缩小,完成分类并计算出最终的分类G′值,如果G′值较上一次增加,则接受这次权值变化,并将特征权值向量作为下次变化的起点,否则以一定的概率Q接受这次变化,概率Q满足:

其中W是调整系数常量W>0,且为正整数,概率Q随着G值逐渐稳定而逐渐降低趋近于0;

步骤三,当G值变化范围小于ε,ε趋近于0时,停止调整过程,否则跳转至步骤一;

经过多次的模拟退火优化法特征权值向量计算,最后将特征权值向量设置为G值最大的最优特征向量。

半监督自学习驱动的医学文本病症辨识方法,进一步的,朴素贝叶斯优化分类:通过训练文本估算在测试文本出现的条件下各个分类类别的概率,测试文本属于概率最大的类别,朴素贝叶斯优化分类的定义为:

步骤1,设x={d1,d2,d3,…,dm}为待分类的测试文本,其中的每一项di表示x的一维特征属性;

步骤2,设分类的类别属性S={y1,y2,…,yn},其中n代表分类个数;

步骤3,分别计算Q(y1|x),Q(y2|x),…,Q(yn|x),即各种可能的分类概率大小;

步骤4,如果存在Q(yW|x)=max{Q(y1|x),Q(y2|x),…,Q(yn|x)},则认为分类为W;

整个分类问题转化成了步骤3中各条件概率的计算问题,计算每一个分类的条件概率,在训练文本的基础上利用贝叶斯公式计算各类别下的特征属性的条件概率,具体过程为:

第一,以训练文本为对象分别统计各个分类类别下的特征的条件概率估算值,即Q(a1|y1),Q(a2|y1),…,Q(am|y1),…;

第二,假设上述特征之间条件独立,根据贝叶斯定理用如下推导:

上式的分母均为常数,因此要是得该式的概率最大化只要分子最大化即可:

朴素贝叶斯优化分类分为准备阶段、分类器训练阶段、分类阶段。

半监督自学习驱动的医学文本病症辨识方法,进一步的,条件随机场优化方法:条件随机场定义为:假设F=(U,B)是一个无向图,其中X={Uq|q∈U},是以F中结点为隐变量的随机关联变量的集合,在一定条件S下,X中每个随即变量都服从马尔科夫性质,即Q(Uq|S,Uv,其中v≠q)=Q(Uq|C,Uv,u~q),u~q表示u和q是相邻边,(S,X)构成一个条件随机场,马尔科夫性质是X中每个变量相对于其它变量的条件概率仅仅相当于和这个变量相连变量为条件的概率;

条件随机场优化模型在给定观察序列的条件下,求出整个标记序列的概率,即求出的是条件概率,条件随机场是一个判别式的模型,其中S={S1,S2,S3,…Sn}表示观察序列X={X1,X2,X3,…Xn}表示标记序列。

半监督自学习驱动的医学文本病症辨识方法,进一步的,本发明条件随机场核心问题包括:

势函数,势函数直接关系到最终分类效果的效果,势函数取一元势函数和多元势函数,其中多元势函数表示多个空间相邻的特征之间的相互影响关系,将势函数表示为特征集合之中的一个元素和对应特征参数λ乘积的组合形式,一元势函数仅利用结点邻近的局部信息来计算对标注分类的概率,二元势函数利用特征结点之间的相互关系,依据特征之间相互变化规律预测分类的概率;

参数估算,条件随机场优化模型根据样本训练参数λ,对于给定的样本,采用最大似然估算参数,将条件概率转换成最大似然函数形式;

划分函数,本发明采用加速近似算法求出函数的近似值;

分类推断,完成参数估算和划分函数计算之后,在测试集上进行分类,利用最大后验概率原则对文本进行分类;

本发明针对每一个单独的任务具体步骤为:

第一步,根据文本的数据特征计算特征参数向量λ,并计算一元势函数和二元势函数;

第二步,计算划分函数;

第三步,计算后验概率Q(Xi|S,λ);

第四步,根据分类公式给每条文本标注一个后验概率最大值的标准类别。

半监督自学习驱动的医学文本病症辨识方法,进一步的,本发明提出一种自学习驱动的SVM模型,引入部分未标注数据,最终分类效果进一步的改善;

自学习驱动的SVM模型先利用标记好的训练数据训练基于Baseline各种分类模型,然后利用这些模型预测未标记文本的分类,如果多个Baseline分类器的分类结果一致,则认为分类结果就是该未标记文本的分类类别,将这部分未标记数据加入训练文本集合重新训练SVM模型,但对未标记的数据进行分类预测有一定的错误预测数据,将这部分错误预测数据挑选出来,加入训练文本集时特别处理,严格限制每次加入模型的数据量,分多次选择未标记的数据加入到训练数据集中,对于未标记数据的选择,设计一个分类准确的置信度函数T,当满足设置的置信度临界值时,将未标记数据全部分批次加入训练数据中,最后终止自学习的过程。

半监督自学习驱动的医学文本病症辨识方法,进一步的,根据分类任务的特性,提出一个和未标记数据分类结果关联的置信度,表示该结果分类正确性的可信度Ti函数,

Ti=G(K1D1i+K2D2i+K3D3i+K4D4i)

其中:

K1+K2+K3+K4=1,K1,K2,K3,K4≥0

置信度函数采用多分类器投票的方法,当多个分类器分类结果越相同,计算得出的分类正确性可信值也越大,函数Ti中i表示未标记文本的标号,D表示一个N维的向量,N代表分类任务的可分类数量,D1i,D2i,D3i,D4i分别表示基于词语语义规则分类方法、朴素贝叶斯模型、条件随机场优化模型和SVM模型的N维分类值向量,若该分类模型的结果为第j个类别,就令该分类值向量中的第j位为1,其余均为0,G函数表示求这个N维向量的模。

半监督自学习驱动的医学文本病症辨识方法,进一步的,投票权重的优化:利用标记的训练文本学习和调整特征权重值,具体步骤为:

第1步,计算条件随机场优化模型衡量分类效果的G值,将其作为模拟退火优化算法的能量函数,并初始化迭代次数R=0;

第2步,随机分配参数K1,K2,K3,满足K1,K2,K3≥0,且K1+K2+K3=1,利用参数完成置信函数对未标记数据评估和判断,循环选择置信函数值ROP-K的未标记文本加入到条件随机场优化模型训练集中优化模型,计算出能量函数变化值ΔG;

第3步,如果ΔG≥0,接受参数K1,K2,K3;否则当ΔG<0时,以一定的概率接受该变化:

第4步,R=R+1;

第5步,如果|ΔG|≦ξ,其中ξ为大于零的极小正常数,表示该系统达到了平衡,结束计算,此时的K1,K2,K3为最终的结果,否则继续调整参数值;

第6步,给参数随机分配一个位移,类比第2步计算调整参数之后模型的分类能力G值计算出能量函数变化值ΔG,跳转至第3步,其中位移范围满足:

其中R表示参数循环迭代计算的次数,AR表示第R次循环时,参数分配位移的最大值,此处位移采用欧式距离计算。

与现有技术相比,本发明的贡献和创新点在于:

第一,本发明提供的半监督自学习驱动的医学文本病症辨识方法,在特征辨识技术的基础上,对方法和特征进行改进,在特征辨识过程中既要保证特征抽取和分类的准确率,又要保证特征抽取的召回率,最终在这两项指标上达到最佳平衡,医学文本的特征辨识有助于将非结构化的临床文档转化成结构化的医学临床信息,以便进行信息的深度加工,利用这些信息有助于专业的医务人员更好的掌握病人的病情发展和走势,对预防疾病和进一步研究疾病病灶、机理及诊疗方法具有非常重要的作用;

第二,本发明提供的半监督自学习驱动的医学文本病症辨识方法,主要实现对医学文本的特征分类,特征包括患病对象类型、病情进展、是否发生疾病、病症严重程度、病症的条件性和病症的不确定性等,通过对这些特征的辨识和分类,使这些非结构化的医学文本结构化并在进一步的信息挖掘中可直接处理使用;本发明基于医学文本进行病症关键特征的辨识,立足于医学文本标注文本较少,未标注文本多的特点,从特征抽取、优化分类模型方面展开;实验结果表明,本发明较好的弥补了标注文本较少的缺陷和不足,由于自学习方法易引入相似数据和错误分类数据,相比之下半监督SVM在利用未标注数据方面效果更好,证明本发明方法的可行性和高效性;

第三,本发明提供的半监督自学习驱动的医学文本病症辨识方法,提出一种基于多Baseline方法投票原理的自学习驱动的SVM模型,当多个Baseline方法对未标记文本的分类结果一致时,则认为该未标记文本的正确分类和多数一致结果相同,同时将该文本标记为多数一致性的结果,并加入训练文本,优化SVM模型的训练,提高分类效果,本发明采用Baseline方法,主要包括基于词语语义规则的方法、SVM模型、朴素贝叶斯优化分类算法和条件随机场优化模型,由于不同Baseline有不同的优势和缺陷,为提高分类效果,在各分类模型上设置了投票权值,并利用部分标记训练文本采用模拟退火优化算法优化每个分类模型的投票权重,使置信函数对未标记文本分类准确性的衡量更精确和高效;

第四,本发明提供的半监督自学习驱动的医学文本病症辨识方法,对于半监督SVM模型可能出现分类效果下降的问题,引入安全半监督SVM模型,安全半监督SVM模型同时考察多个分类较优低密度分类决策面,因为仅考虑基于现有数据的单个最优分类决策分类面可能对现有数据过度拟合,安全半监督SVM模型考虑多个分类决策面,核心思想为:计算出满足一定条件的决策分类面,不仅考虑分类面的间隔最大化问题,还利用大量未标记数据的分布情况优化分类决策面的选择,使得在最坏的情况下,相对于全监督的条件随机场优化模型效果提升最大化;

第五,本发明提出安全半监督SVM的方法和实现步骤,考虑多个分类界线的可能性,使最终选择的分类界线符合大量未标记文本的分布特征,避免和标记数据过度拟合,改善最终效果,由于该模型参数选择具有一定的盲目性,因此本发明采用基于遗传算法的参数优化过程优化参数值,使模型更趋于加合理化,本发明无论是在多任务的整体分类效果上还是对于更严格的基于记录的分类效果上相比普通Baseline模型都有明显提高,准确性和可行性好。

图1是本发明的改进SVM模型分类流程示意图。

图2是本发明的朴素贝叶斯优化分类流程示意图。

图3是本发明的条件随机场流程示意图。

图4是本发明置信函数权值学习和调整过程示意图。

图5是本发明安全半监督SVM参数遗传算法训练流程图。

下面结合附图,对本发明提供的半监督自学习驱动的医学文本病症辨识方法的技术方案进行进一步的描述,使本领域的技术人员能更好的理解本发明并能予以实施。

医学文本中包含大量的医学知识,利用这些临床医学文本数据可以辅助疾病的预防和诊疗,还能够跟踪患者的诊疗过程,构建诊疗周期模型,为患者构建合适的诊疗方案,这已成为医学智能化的重要趋势。目前医学文本中包含的都是非结构化的文本信息,其中最主要的是患者的临床信息,患者病史和诊疗方案。

本发明基于医学文本进行病症关键特征的辨识,这些特征包括病症严重程度、病症进展和病症描述对象,本发明立足于医学文本标注文本较少,未标注文本多的特点,从特征抽取、优化分类模型方面展开,主要包括:

一是提取医学文本的语义特征,将病症表达词邻近文本的全局特征和局部上下文特征组织融合,并将其转化成为特征向量,作为之后文本分类模型的分类特征;二是基于标注文本较少,未标注文本较多的特点,采用一种自学习驱动的多分类器投票方法,将多个分类器分类为一致的未标注文本,加入到SVM训练集中,提高模型分类效果;三是采用一种基于聚类假设的安全半监督SVM模型,分类超平面穿过低密度数据区域,考量不同分类超平面的差异性,使分类超平面间隔最大化和模型的整体适应性达到平衡,使得在最坏的情况下,相对于全监督的SVM效果提升最大化;实验结果表明,本发明较好的弥补了标注文本较少的缺陷和不足,由于自学习方法易引入相似数据和错误分类数据,相比之下半监督SVM在利用未标注数据方面效果更好,证明本发明方法的可行性和高效性。

本发明辨识已标记疾病病症的相关特征和要素,主要包括以下几类:一是患者所患疾病病症的严重程度特征,包括:未说明、轻微,温和和严重四种分类,最后输出病症严重程度的类别;二是疾病病症否定存在特征,表示未发生某种病症的情况认定,最终输出no表示未出现或yes表征出现了该病症现象;三是对该病症的诊断是否是非确定的,即仅评估或推测还是有明确性的诊断,如果仅是对该病症的预诊断或推测就输出yes,否则输出no类别;四是病症的发展趋势,分为未说明、改变、增多、减少,改善,恶化,治愈,分别表示疾病病症加重减轻及恶化治愈的变化情况,最后对该特征给出基于以上类别的分类;五是该病症的是否具有条件存在性,存在分类输出TRUE,不存在分类输出FALSE;六是该病症的主体跟医学对象之间的关系,是患者自己,还是患者家属,捐献者,捐献者家属,其它人,没有具体对象等情况。

一、自学习驱动的SVM

(一)特征选取

向量空间模型将需要表示的文本特征转换成数字特征,映射成为一个特征向量,U(C)=(T1,K1,R2,K2,…,Rn,Kn),其中(R1,R2,…,Rn)表示文本选择的特征集合,(K1,K2,…,Kn)表示相应特征项的权值集合,表征特征对最后分类结果的贡献程度;在进行特征抽取时,选取两类特征,一类是病症标注词上下文语义环境特征,另外一类是与病症标注词关联的语法特征,上下文语义环境特征包括关键词邻近的文本语境特征,与疾病标注关键词关联的特征包括和标注关键词存在依存关系和语法关系的词语,以及邻近出现的相关词。

1.句法依存分析,句法分析是对句子或短语的结构进行分析,明确句子在句中的作用,以及短语与短语之间的关系,在语法关系的特征提取过程中,采用提取句子主干部分、主语、谓语和宾语成分作为语法特征,本发明重点是文本标注的疾病标注关键词,疾病相关属性最重要的是提取和该关键词关联的特征属性,和关键词具有关联关系的词语为重点,依存关系解决中心词和其它相关修饰词之间的依存关系,采样依存分析中和关键词存在直接和间接的依存关系词语,同时依存类别也作为分类特征;

2.N-Gram,N-Gram模型考量疾病关键词邻近的搭配信息,疾病关键词邻近的相关文本信息对特征的分类有重要作用,因为对分类有突出贡献的线索词很多出现在疾病标注的表达词邻近,将邻近文本的词向量作为一个特征提取;

3.Word2Vector特征向量,根据大量的未标注文本采用无监督的方法计算出每个词语关联的多维特征向量,特征向量隐含词语的部分分布和语义信息,而疾病关键词关联的语义信息正是分类所需的,所以把Word2Vector向量也作为一个特征;

4.WordNet词典辅助信息,WordNet以同义词集合作为词典的基本构建单位设计完成,在该字典中到目标词语的同义词和表示上下级关系、整体部分关系和同级关系的部分词语,利用这些信息辅助提高分类效果;

5.词语的词干化,相同的词干会引申出动词、名词和形容词不同形式的词语,利用关联的工具提取不同形式的词语词干作为一维特征信息,辅助分类模型分类;

6.特定词,文本内的否定词、连接词特定词语对文本的语义表达有重要作用,因此提取文本的部分特定词语信息;

7.病症标注表达词信息,病症表达词是文本标注的描述病症内容的词语,是单个词语或者多个连续或离散的词语,所有特征提取都是围绕病症表达词进行,病症表达词在文本内所起的作用也是重要特征,所以提取病症表达词词性、语法特性本身的特性也具有分类作用。

(二)特征权重学习

本发明采用特征描述方法U(C)=(R1,K1,R2,K2,…,Rn,Kn),其中(R1,R2,…,Rn)表示文本选择的特征集合,(K1,K2,…,Kn),表示相应特征项的权值集合,特征集合不仅包括特征表示,还包括表示特征对分类效果贡献值的特征权重值,调整特征权重的参数值:

其中令:K1+K2+K3+…+Kn=1且1>K1,K2,K3,…,Kn≧0

参数调整过程采用模拟退火优化法,在系统朝着能量降低的趋势下允许系统偶尔朝着能量较高的状态跳跃,从而避开局部极值对结果的影响,最终到全局最优值,模拟退火优化调整特征权重步骤为:

步骤一,随机设置特征权重的(K1,K2,…,Kn)值,满足特征值大小的基本条件,求出在该条件最终分类效果的G值,并将该值作为模拟退火优化算法的反向能量函数;

步骤二,设置初始位移参数a=1,在满足特征值之和等于1,且(K1,K2,…,Kn)均属于[0,1)区间的条件下随机选择参数(K1,K2,…,Kn)值,并使得选择的特征权值和上次的特征权值向量欧式距离小于等于a′,位移参数a′满足:

其中R为参数特征权值调整的次数,a′随特征权值调整次数的增加,特征权值的变化范围逐渐缩小,完成分类并计算出最终的分类G′值,如果G′值较上一次增加,则接受这次权值变化,并将特征权值向量作为下次变化的起点,否则以一定的概率Q接受这次变化,概率Q满足:

其中W是调整系数常量W>0,且为正整数,概率Q随着G值逐渐稳定而逐渐降低趋近于0;

步骤三,当G值变化范围小于ε,ε趋近于0时,停止调整过程,否则跳转至步骤一;

经过多次的模拟退火优化法特征权值向量计算,最后将特征权值向量设置为G值最大的最优特征向量。

(三)自学习的Baseline

1.基于词语语义的规则方法

词语语义在每个任务中都起到重要作用,基于词语语义规则的医学文本疾病严重性特征抽取分类方法:疾病的严重性特征分类是辨识医学文本中是否出现描述疾病严重的语义特征,在一部分疾病轻重性描述中使用一种直接描述方式,通过关键词语的语义直接判断该特征的分类情况,这类词语为分类线索词,出相应类别的分类线索词集合,主要采用以下方法构建分类线索词集合:

方法一,将训练文本中分类标记为slight、moderate和severe的文本分别合并成类别文档,计算出每个文档中词语的RF-IDF值,每个文档选取TOP-N作为备选分类线索词集合D1、E1、S1;

方法二,对slight、moderate和severe三类分类线索词集合初始化,人工选择少量初始化线索词,通过大量的医学文本数据,计算出每个词语的Word2Vector特征向量,计算每个词语和线索词集合内词语的Cosine值衡量之间的语义相似度,根据Cosine值的大小选取TOP-K作为备选分类线索词集合D2、E2、S2;

方法三,取前两种方法分类线索词集合的交集,删除不同分类线索词集合之间相同的线索词,然后通过WordNet字典进行同义词和相同词干的词语扩充,组成最终的线索词集合;

为保障基于词语语义规则的准确性,在同义词添加的数量上利用标记数据预测该方法的G值调整线索词集合中词语的数量,随着集合规模的增多,G值呈增长后降低的趋势,利用G值的峰值有效调整该方法的效果。

2.改进SVM模型

SVM是基于统计学习理论的机器学习分类算法,在训练样本中寻一个最有的分类超平面,在满足最有分类的条件下,使超平面到两侧的两类训练样本的距离尽可能大,减少分类误差,误差:ξ≦2/||a||,其中a为超平面到分类样本的距离,两类分类问题中,假设(xi),i=1,2…M,x∈Rm,y={+1,-1},其中的超平面为二维的直线假设为Kx+e=0,为保证分类正确性和对预测样本的适应能力,要保证超平面到训练样本有足够的距离,所以必须满足以下约束条件:

yi[Kxi+e]>1,i=1,2,...m

该超平面到分类样本的距离为2/||K||,原问题转化成了求以下函数的最小值问题:

为解决函数最优值问题,又引进拉格朗日因子解决优化问题,优化问题的解转化为拉格朗日函数的鞍点问题,当分类问题变成线性不可分时,SVM的策略是定义适当的内积函数将输入的向量特征空间映射到一个更高维的向量特征空间,通过非线性的变化,在特征空间内够着最优超平面进行分类。因为在高维空间进行内积运算会使得计算量大大增加,为减少复杂度,提高运算效率,引入核函数,核函数将高维的内积运算转化为低维的核函数运算,从而达到减少运算量的目的。本发明采用改进SVM作为分类的基础算法主要流程如图1所示。

3.朴素贝叶斯优化分类

通过训练文本估算在测试文本出现的条件下各个分类类别的概率,测试文本属于概率最大的类别,朴素贝叶斯优化分类的定义为:

步骤1,设x={d1,d2,d3,…,dm}为待分类的测试文本,其中的每一项di表示x的一维特征属性;

步骤2,设分类的类别属性S={y1,y2,…,yn},其中n代表分类个数;

步骤3,分别计算Q(y1|x),Q(y2|x),…,Q(yn|x),即各种可能的分类概率大小;

步骤4,如果存在Q(yW|x)=max{Q(y1|x),Q(y2|x),…,Q(yn|x)},则认为分类为W;

整个分类问题转化成了步骤3中各条件概率的计算问题,为计算每一个分类的条件概率,在训练文本的基础上利用贝叶斯公式计算各类别下的特征属性的条件概率,具体过程为:

第一,以训练文本为对象分别统计各个分类类别下的特征的条件概率估算值,即Q(a1|y1),Q(a2|y1),…,Q(am|y1),…;

第二,假设上述特征之间条件独立,根据贝叶斯定理用如下推导:

上式的分母均为常数,因此要是得该式的概率最大化只要分子最大化即可:

朴素贝叶斯优化分类分为准备阶段、分类器训练阶段、分类阶段,具体流程如图2所示。

4.条件随机场优化模型

(1)产生式与判别式模型

产生式模型反映同类数据的相似性,对不同分类数据之间的分类界限不明确,产生式模型主要构件的输入特征向量和输出向量之间的联合分布Q(Output,Input),产生式模型通过大量的样本构建样本的概率密度模型,即产生模型,通过产生模型进行预测和分类,是面向整体维度和分布的产生式方法,包含大量丰富的样本分布式信息,能够充分的利用专家知识。但产生式模型的学习过程复杂,需要从大量样本中采用到样本的分布情况,另外产生式模型关注同类数据的相似性而忽略了类间的差异性,导致分类的正确率受影响较大。

判别式模型从样本数据中学习不同类别间的差异,寻可区分不同类别的最优分类超平面,判别式模型能够分析出比较明显的类间的差异性,得到的分类模型灵活,分类的表达方式明确,适合多分类的情况。

虽然产生式模型包含更丰富的样本信息,而且能够利用先验知识,但是产生式模型也有比较明显的缺陷,因为模型列举的是基于联合概率的分布规律,所以产生式模型需要大量的样本来支撑模型的构建,而且模型构建的分类效果也欠佳。判别式模型虽未充分反映样本的真实规律,但是比较有效的学习分类规律,具有更好的分类性作用,因此当样本有限时,产生式无法形成完整的样本分布模型,判别式模型展示出极大的优势。

(2)概率图优化模型

概率图优化模型是利用图来表示随机变量之间的各种依存关系的概率模型,表示为:F=(U,B),其中U表示图中的顶点,即随机变量,其中B表示图中的边,即随机变量之间的相关关系,另外根据图中边是否存在方向而分为有向图和无向图两种,有向图为贝叶斯网络,无向图为马尔科夫随机场。

(3)条件随机场优化方法

随机场是一组在样本空间上的随机变量集合,马尔科夫随机场是一种随机变量之间具有马尔科夫性质的无向图模型,马尔科夫性质是当前的变量仅仅和其关联的有限数量的变量相关,马尔科夫性质决定了变量之间的依赖关系可用先验知识来调整。

条件随机场是马尔科夫随机场内每个随机变量都存在一个与之对应的观察变量,此时的输入是观察变量集合,此时是在给定观察变量条件的分布,即条件分布的马尔科夫随机场,也就是条件随机场。

条件随机场定义为:假设F=(U,B)是一个无向图,其中X={Uq|q∈U},是以F中结点为隐变量的随机关联变量的集合,在一定条件S下,X中每个随即变量都服从马尔科夫性质,即Q(Uq|S,Uv,其中v≠q)=Q(Uq|C,Uv,u~q),u~q表示u和q是相邻边,(S,X)构成一个条件随机场,一定条件下的马尔科夫性质是X中每个变量相对于其它变量的条件概率仅仅相当于和这个变量相连变量为条件的概率。

条件随机场优化模型在给定观察序列的条件下,求出整个标记序列的概率,即求出的是条件概率,条件随机场是一个判别式的模型,其中S={S1,S2,S3,…Sn}表示观察序列X={X1,X2,X3,…Xn}表示标记序列。

(4)条件随机场核心问题

1)势函数,势函数直接关系到最终分类效果的效果,势函数取一元势函数和多元势函数,其中多元势函数表示多个空间相邻的特征之间的相互影响关系,将势函数表示为特征集合之中的一个元素和对应特征参数λ乘积的组合形式。一元势函数仅利用结点邻近的局部信息来计算对标注分类的概率,二元势函数利用特征结点之间的相互关系,依据特征之间相互变化规律预测分类的概率。

2)参数估算,条件随机场优化模型根据样本训练参数λ,对于给定的样本,采用最大似然估算参数,将条件概率转换成最大似然函数形式。

3)划分函数,本发明采用加速近似算法求出函数的近似值。

4)分类推断,完成参数估算和划分函数计算之后,在测试集上进行分类,利用最大后验概率原则对文本进行分类;

如图3所示,本发明针对每一个单独的任务具体步骤为:

第一步,根据文本的数据特征计算特征参数向量λ,并计算一元势函数和二元势函数;

第二步,计算划分函数;

第三步,计算后验概率Q(Xi|S,λ);

第四步,根据分类公式给每条文本标注一个后验概率最大值的标准类别。

(四)自学习方法

鉴于标记数据少和未标记数据多的特点,为提高最终分类效果,高效利用大量未标记的数据,本发明提出一种自学习驱动的SVM模型,引入部分未标注数据,使最终的分类效果得到进一步的改善。

自学习驱动的SVM模型先利用标记好的训练数据训练基于Baseline各种分类模型,然后利用这些模型预测未标记文本的分类,如果多个Baseline分类器的分类结果一致,则认为分类结果就是该未标记文本的分类类别,将这部分未标记数据加入训练文本集合重新训练SVM模型,提高SVM模型的训练效果。但对未标记的数据进行分类预测毕竟有一定的错误预测数据,所以将这部分错误预测数据挑选出来,加入训练文本集时特别处理,严格限制每次加入模型的数据量,分多次选择未标记的数据加入到训练数据集中,避免一次性加入过多未标记数据导致带入较多的错误分类文本。对于未标记数据的选择,设计一个分类准确的置信度函数T,当满足设置的置信度临界值时,将未标记数据全部分批次加入训练数据中,最后终止自学习的过程。

(五)置信度函数

根据分类任务的特性,本发明提出一个和未标记数据分类结果关联的置信度,用来表示该结果分类正确性的可信度Ti函数,

Ti=G(K1D1i+K2D2i+K3D3i+K4D4i)

其中:

K1+K2+K3+K4=1,K1,K2,K3,K4≥0

置信度函数采用多分类器投票的方法,当多个分类器分类结果越相同,计算得出的分类正确性可信值也越大,函数Ti中i表示未标记文本的标号,D表示一个N维的向量,N代表分类任务的可分类数量,D1i,D2i,D3i,D4i分别表示基于词语语义规则分类方法、朴素贝叶斯模型、条件随机场优化模型和SVM模型的N维分类值向量,若该分类模型的结果为第j个类别,就令该分类值向量中的第j位为1,其余均为0,G函数表示求这个N维向量的模。

(六)投票权重的优化

由于不同分类方法的准确性不同,各种分类方法对条件随机场的分类结果支持投票的贡献度也不同,利用标记的训练文本学习和调整特征权重值,如图4所示,投票权重的学习采用具体步骤为:

第1步,计算条件随机场优化模型衡量分类效果的G值,将其作为模拟退火优化算法的能量函数,并初始化迭代次数R=0;

第2步,随机分配参数K1,K2,K3,满足K1,K2,K3≥0,且K1+K2+K3=1,利用参数完成置信函数对未标记数据评估和判断,循环选择置信函数值ROP-K的未标记文本加入到条件随机场优化模型训练集中优化模型,计算出能量函数变化值ΔG;

第3步,如果ΔG≥0,接受参数K1,K2,K3;否则当ΔG<0时,以一定的概率接受该变化:

第4步,R=R+1;

第5步,如果|ΔG|≦ξ,其中ξ为大于零的极小正常数,表示该系统达到了平衡,结束计算,此时的K1,K2,K3为最终的结果,否则继续调整参数值;

第6步,给参数随机分配一个位移,类比第2步计算调整参数之后模型的分类能力G值计算出能量函数变化值ΔG,跳转至第3步,其中位移范围满足:

其中R表示参数循环迭代计算的次数,AR表示第R次循环时,参数分配位移的最大值,此处位移采用欧式距离计算。

本发明提出一种基于多Baseline方法投票原理的自学习驱动的SVM模型,当多个Baseline方法对未标记文本的分类结果一致时,则认为该未标记文本的正确分类和多数一致结果相同,同时将该文本标记为多数一致性的结果,并加入训练文本,优化SVM模型的训练,提高分类效果。本发明采用Baseline方法,主要包括基于词语语义规则的方法、SVM模型、朴素贝叶斯优化分类算法和条件随机场优化模型,由于不同Baseline有不同的优势和缺陷,为提高分类效果,在各分类模型上设置了投票权值,并利用部分标记训练文本采用模拟退火优化算法优化每个分类模型的投票权重,使置信函数对未标记文本分类准确性的衡量更精确和高效。

二、安全半监督SVM

对于半监督SVM模型可能出现分类效果下降的问题,引入安全半监督SVM模型,安全半监督SVM模型同时考察多个分类较优低密度分类决策面,因为仅考虑基于现有数据的单个最优分类决策分类面可能对现有数据过度拟合,安全半监督SVM模型考虑多个分类决策面,核心思想为:计算出满足一定条件的决策分类面,不仅考虑分类面的间隔最大化问题,还利用大量未标记数据的分布情况优化分类决策面的选择,使得在最坏的情况下,相对于全监督的条件随机场优化模型效果提升最大化,主要步骤为:

步骤(一),假设为半监督SVM的目标函数;

步骤(二),分类任务的目标是寻多个分类间隔较大的分类界线以及相应的类别划分使得下述函数最小化:

其中R表示符合条件的分类决策面,P是分界线差异化进行度量的惩罚函数,用M这个较大常数来保持差异性,只要保证上式的最小化,就能平衡分解平面的差异性和间隔大的问题。

步骤(三),如果g是一个线性函数,则上式优化问题转化为下式优化问题:

步骤(四),采用拉格朗日引入乘子d=(d1,d2,…,dN),寻最优分类面,选用RBF核函数分类函数表示为:

以上C是模型中错误率的惩罚因子,b为对应参数。

三、安全半监督SVM的参数优化

由于安全半监督SVM盲目选择参数,所以必须另外进行参数的优化达到训练出更高效的安全半监督SVM的目的。安全半监督SVM训练的参数有S1、S2和核函数参数σ的值,安全半监督SVM参数采用遗传算法进行优化,优化的流程图如图5所示,主要环节为:

环节一,待训练参数的编码:参数的编码采用实值编码方式,分别对影响因子S1、S2和核函数参数σ进行编码;

环节二,目标函数计算:目标函数是生物学意义上的个体生存适应能力,目标函数的值越大代表其适应能力越强,被选为种子继续繁衍的机会越大,本发明的目标函数为安全半监督SVM的分类正确率;

环节三,个体选择:每次的遗传过程中选择适应能力强,即目标函数值大的个体进行下一次遗传操作,使参数逐渐接近最优值,随机选择初始个体集合,之后的个体选择都依据目标函数的大小选择;

环节四,交叉操作:利用原有个体产生新个体的过程,依据生物基因重组过程,该过程中可能产生效果完全不一样的个体,因为参数都采用实数编码,交叉操作只能采用算术交叉,

其中α表示[0,1]的一个随机数,X表示交叉操作的对象个体;

环节五,变异操作:依据生物的基因突变过程,在特征参数优化的过程中允许一定的非常规操作,在某种条件下跳出局部最优值,使特征训练的效果更佳,每次变异产生的新基因xW满足以下条件:

xw=xw+Δ(r,y)

其中Δ(r,y)表示[0,y]之间一个随遗传次数的增加y不断减小趋近于0的随机值,条件rand(0,1)=0|1表示变异的概率很低,只有当随机数等于0或1时,才可能激发个体的变异,分别为特征参数的最大值和最小值。

环节五,终止训练:当遗传次数达到临界值或特征的变化范围趋近于0时,停止遗传过程,完成参数优化。

本发明提出安全半监督SVM的方法和实现步骤,考虑多个分类界线的可能性,使最终选择的分类界线符合大量未标记文本的分布特征,避免和标记数据过度拟合,改善最终效果,由于该模型参数选择具有一定的盲目性,因此本发明采用基于遗传算法的参数优化过程优化参数值,使模型更趋于加合理化。

本发明以医学文本分析任务为背景,进行医学文本病症的特征辨识和分类,医学文本特征任务定义为有关病症对象、严重性、发展趋势和条件性特征辨识和分类问题,将医学文本篇章按病症关键词标注的位置分成相关疾病的文本段,在该文本中标注疾病关键词的位置信息和相关特征的分类标准值,所以本发明的核心问题转变成为基于文本的特征分类问题。本发明在提取文本的基本分类特征之后将其转换成分类所需的特征向量,以基于词语语义的规则方法、SVM模型和条件随机场优化模型为Baseline,提出在已标注文本的基础上有效使用未标注文本的方法。通过实验数据分析,本发明提出的半监督自学习驱动的医学文本病症辨识方法,无论是在多任务的整体分类效果上还是对于更严格的基于记录的分类效果上相比普通Baseline模型都有明显提高,准确性和可行性好。

本文发布于:2024-09-24 04:19:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/72675.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议