一种肿瘤专病数据库构建系统、方法、电子设备和介质[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011026999.9
(22)申请日 2020.09.25
(71)申请人 志诺维思(北京)基因科技有限公司
地址 102200 北京市昌平区沙河镇能源东
路1号院1号楼3层309-3
(72)发明人 许永超 魏博 马素芬 骆佳俊 
李力行 凌少平 
(74)专利代理机构 北京超凡宏宇专利代理事务
所(特殊普通合伙) 11463
代理人 荣颖佳
(51)Int.Cl.
G16H  50/70(2018.01)
G06F  16/36(2019.01)
G06F  40/126(2020.01)
G06F  40/216(2020.01)
G06F  40/232(2020.01)G06F  40/242(2020.01)G06N  3/04(2006.01)G06N  3/08(2006.01)
(54)发明名称一种肿瘤专病数据库构建系统、方法、电子设备和介质(57)摘要本申请提供了一种肿瘤专病数据库构建系统、方法、电子设备和介质,其中,该系统包括:数据拆分模块,用于将原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块;模型预测模块,用于对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与基础文本信息进行数据封装;指标归一化模块,用于得到结构化病理文本;结构化数据存储模块,用于生
成肿瘤专病数据库,可以提供病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研
需求。权利要求书2页  说明书9页  附图4页CN 112185572 A 2021.01.05
C N  112185572
A
1.一种肿瘤专病数据库构建系统,其特征在于,包括:
数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;
模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;
字典标注模块,用于对预处理后的文本信息进行字典标注;
数据合并模块,用于对预测结果和字典标注结果进行数据合并;
数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
2.根据权利要求1所述的系统,其特征在于,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。
3.根据权利要求1所述的系统,其特征在于,所述模型预测模块包括:
训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;
预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
4.根据权利要求1所述的系统,其特征在于,所述字典标注模块包括:
字典构建单元,用于构建字典;
信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
5.根据权利要求1所述的系统,其特征在于,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
6.根据权利要求1所述的系统,其特征在于,所述数据封装模块包括:
切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;
第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;
第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;
冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;
封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。
7.根据权利要求1所述的系统,其特征在于,所述指标归一化模块包括:
标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;
纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符
串,以对指定字符串进行纠错;
推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。
8.一种肿瘤专病数据库构建方法,其特征在于,包括:
将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
对所述待结构化提取的文本信息进行预处理;
利用命名实体识别模型对预处理后的文本信息进行预测;
对预处理后的文本信息进行字典标注;
对预测结果和字典标注结果进行数据合并;
将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求8所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求8所述的方法的步骤。
一种肿瘤专病数据库构建系统、方法、电子设备和介质
技术领域
[0001]本申请涉及文本处理领域,具体而言,涉及一种肿瘤专病数据库构建系统、方法、电子设备和介质。
背景技术
[0002]传统的医疗文本结构化方案中,基于临床数据的文本抽取,大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大,病理医生和临床医生关注的指标细节差异也很大,临床数据的标注方法、抽取方法以及架构系统并不能满足病理医生的日常生产和科研需求。
发明内容
[0003]本申请的目的在于提供一种肿瘤专病数据库构建系统、方法、电子设备和介质,可以提供病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。
[0004]第一方面,本申请实施例提供一种肿瘤专病数据库构建系统,包括:
[0005]数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
[0006]数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;
[0007]模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;[0008]字典标注模块,用于对预处理后的文本信息进行字典标注;
[0009]数据合并模块,用于对预测结果和字典标注结果进行数据合并;
[0010]数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
[0011]指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
[0012]结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
[0013]在一种可能的实施方式中,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。[0014]在一种可能的实施方式中,所述模型预测模块包括:
[0015]训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;
[0016]预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
[0017]在一种可能的实施方式中,所述字典标注模块包括:
[0018]字典构建单元,用于构建字典;
[0019]信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
[0020]在一种可能的实施方式中,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
[0021]在一种可能的实施方式中,所述数据封装模块包括:
[0022]切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;[0023]第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;[0024]第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;
[0025]冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;
[0026]封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。[0027]在一种可能的实施方式中,所述指标归一化模块包括:
[0028]标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;
[0029]纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;
[0030]推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。
[0031]第二方面,本申请实施例提供一种肿瘤专病数据库构建方法,包括:
[0032]将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
[0033]对所述待结构化提取的文本信息进行预处理;
[0034]利用命名实体识别模型对预处理后的文本信息进行预测;
[0035]对预处理后的文本信息进行字典标注;
[0036]对预测结果和字典标注结果进行数据合并;
[0037]将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;[0038]对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
[0039]将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
[0040]第三方面,本申请实施例提供一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行第二方面所述方法的步骤。[0041]第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第二方面所述方法的步骤。[0042]本申请所提供的一种肿瘤专病数据库构建系统,包括:数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用
于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;指标归一

本文发布于:2024-09-21 19:46:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/440256.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   进行   用于   信息   数据   病理   模块   字典
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议