【CN110135189A】一种面向医疗文本的患者隐私信息脱敏方法【专利】

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910349166.7
(22)申请日 2019.04.28
(71)申请人 上海市第六人民医院
地址 200233 上海市徐汇区宜山路600号
(72)发明人 郑西川 王阳阳 傅一旻 
(74)专利代理机构 上海精晟知识产权代理有限
公司 31253
代理人 冯子玲
(51)Int.Cl.
G06F  21/62(2013.01)
G16H  10/60(2018.01)
G06F  17/27(2006.01)
(54)发明名称一种面向医疗文本的患者隐私信息脱敏方法(57)摘要本发明提供一种面向医疗文本的患者隐私信息脱敏方法,包括以下步骤:提取患者医疗文本,根据出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和命名实体型;针对数字型隐私数据设计一套正则表达式,去除包含患者年龄、身份证号、、、病人住院号等数字型信息;针对日期型隐私数据设计随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;针对命名实体类型隐私数据采用隐马尔科夫模型,去除患者姓名、医生姓名、医院名称等隐私信息。该方法有效去除医疗文本中包含的患者个人敏感信息,保证了在医疗数据发布过程中患者的隐私安全,对医疗数据共享、区域医疗卫生信息大数据平台的建
设有重要意义。权利要求书1页  说明书4页  附图1页CN 110135189 A 2019.08.16
C N  110135189
A
权 利 要 求 书1/1页CN 110135189 A
1.一种面向医疗文本的患者隐私信息脱敏方法,其特征在于采用了以下步骤:
S1:提取患者的医疗文本,根据其中出现的所有患者隐私数据将患者隐私分为三类:数字型、日期型和
命名实体型;
S2:针对数字型隐私数据设计了一套正则表达式,去除包含患者年龄、身份证号、、、病人住院号这些数字型信息;
S3:针对日期型隐私数据设计了随机迁移算法,识别不同类型的日期数据并将日期迁移到未来几个世纪的某个时间;
S4:针对命名实体类型隐私数据采用了隐马尔科夫模型,去除患者姓名、医生姓名、医院名称这些隐私信息。
2.根据权利要求1所述的一种面向医疗文本的患者隐私信息脱敏方法,其特征在于,步骤S2还采用了上下文语义分析筛选混淆数字,将与正则表达式匹配成功的数字型信息的上下文与建立的常用医疗术语词典进行模糊查询,若查询成功,则认为匹配的数字型信息为有效的医疗信息,予以保留,否则去除该句中匹配的数字型信息。
3.根据权利要求2所述的一种面向医疗文本的患者隐私信息脱敏方法,其特征在于,步骤S3中每一个病人对应一个随机数,将该病人所有有关的日期加上该随机数,匿名化具体日期的同时保证医疗记录事件的相对顺序不变,最大程度保留医疗信息。
4.根据权利要求3所述的一种面向医疗文本的患者隐私信息脱敏方法,其特征在于,步骤S3产生的随机数满足以下三个特性:
对365取余的结果小于10,保证日期迁移后季度不变;
7的倍数,保证迁移后医疗数据仍保留周期关系;
大于18250,即迁移到500年之后,保证迁移日期和现实日期不会混淆。
5.根据权利要求4所述的一种面向医疗文本的患者隐私信息脱敏方法,其特征在于,步骤S4包含以下内容:
中文分词:将采集到的医疗文本按最大匹配法进行初步分词,利用统计方法建造专用的医疗词典,对初步分词结果消除歧义;
角标注:根据词汇出现的位置、语义设计一组代表不同词汇的隐藏状态,称之为角;
期望最大化算法:根据角标注的结果初步计算隐马尔科夫模型的初始概率矩阵、转移矩阵和发射矩阵,然后利用期望最大化算法进行无监督学习,训练隐马尔科夫模型,使三个矩阵收敛;
维特比算法:给出一个新文本,首先进行中文分词,然后根据分词结果和训练好的隐马尔科夫模型计算对应该分词结果概率最大的隐藏状态序列,最后对隐藏状态序列进行模式识别,去除特定命名实体隐藏状态序列对应的词汇。
2

本文发布于:2024-09-20 23:30:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/448961.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:患者   医疗   信息   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议