首页 > 专利信息

一种肿瘤专病数据库构建系统、方法、电子设备和介质[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202011026999.9

(22)申请日 2020.09.25

(71)申请人志诺维思（北京）基因科技有限公司

地址 102200 北京市昌平区沙河镇能源东

路1号院1号楼3层309-3

(72)发明人许永超　魏博　马素芬　骆佳俊　

李力行　凌少平　

(74)专利代理机构北京超凡宏宇专利代理事务

所(特殊普通合伙) 11463

代理人荣颖佳

(51)Int.Cl.

G16H 50/70(2018.01)

G06F 16/36(2019.01)

G06F 40/126(2020.01)

G06F 40/216(2020.01)

G06F 40/232(2020.01)G06F 40/242(2020.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

(54)发明名称一种肿瘤专病数据库构建系统、方法、电子设备和介质(57)摘要本申请提供了一种肿瘤专病数据库构建系统、方法、电子设备和介质，其中，该系统包括：数据拆分模块，用于将原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；数据预处理模块；模型预测模块，用于对预处理后的文本信息进行预测；字典标注模块，用于对预处理后的文本信息进行字典标注；数据合并模块，用于对预测结果和字典标注结果进行数据合并；数据封装模块，用于将数据合并后的文本信息与基础文本信息进行数据封装；指标归一化模块，用于得到结构化病理文本；结构化数据存储模块，用于生

成肿瘤专病数据库，可以提供病理文本结构化处理系统框架，深度考虑病理医生的需求而开发，深度契合病理科医生的生产和科研

需求。权利要求书2页说明书9页附图4页CN 112185572 A 2021.01.05

C N 112185572

1.一种肿瘤专病数据库构建系统，其特征在于，包括：

数据拆分模块，用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；

数据预处理模块，用于对所述待结构化提取的文本信息进行预处理；

模型预测模块，用于利用命名实体识别模型对预处理后的文本信息进行预测；

字典标注模块，用于对预处理后的文本信息进行字典标注；

数据合并模块，用于对预测结果和字典标注结果进行数据合并；

数据封装模块，用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装；

指标归一化模块，用于对数据封装后的文本信息进行指标归一化处理，得到结构化病理文本；

结构化数据存储模块，用于将所述结构化病理文本存储到数据库中，生成肿瘤专病数据库。

2.根据权利要求1所述的系统，其特征在于，所述数据预处理模块具体用于：对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。

3.根据权利要求1所述的系统，其特征在于，所述模型预测模块包括：

训练单元，用于利用历史病理文本报告训练命名实体识别模型，并采用BIOES标注模式进行标注；

预测单元，用于利用命名实体识别模型对预处理后的文本信息进行预测，得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。

4.根据权利要求1所述的系统，其特征在于，所述字典标注模块包括：

字典构建单元，用于构建字典；

信息提取单元，用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。

5.根据权利要求1所述的系统，其特征在于，所述数据合并模块具体用于：当所述预测结果和字典标注结果不一致时，基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。

6.根据权利要求1所述的系统，其特征在于，所述数据封装模块包括：

切分单元，用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分；

第一整理单元，用于按照关键词和取值一一对应的原则对切分结果进行整理；

第二整理单元，用于针对需要成对出现的指标，采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果；

冗余单元，用于对需要进行数据冗余的指标和取值进行重复存储；

封装单元，用于对整理后的文本信息与所述基础文本信息进行数据封装。

7.根据权利要求1所述的系统，其特征在于，所述指标归一化模块包括：

标准化单元，用于构建标准化字典，利用所述标准化字典对数据封装后的文本信息进行标准化；

纠错单元，用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符

串，以对指定字符串进行纠错；

推理单元，用于基于特定的业务需求，结合已有的知识图谱进行推理。

8.一种肿瘤专病数据库构建方法，其特征在于，包括：

将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；

对所述待结构化提取的文本信息进行预处理；

利用命名实体识别模型对预处理后的文本信息进行预测；

对预处理后的文本信息进行字典标注；

对预测结果和字典标注结果进行数据合并；

将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装；

对数据封装后的文本信息进行指标归一化处理，得到结构化病理文本；

将所述结构化病理文本存储到数据库中，生成肿瘤专病数据库。

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求8所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求8所述的方法的步骤。

一种肿瘤专病数据库构建系统、方法、电子设备和介质

技术领域

[0001]本申请涉及文本处理领域，具体而言，涉及一种肿瘤专病数据库构建系统、方法、电子设备和介质。

背景技术

[0002]传统的医疗文本结构化方案中，基于临床数据的文本抽取，大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大，病理医生和临床医生关注的指标细节差异也很大，临床数据的标注方法、抽取方法以及架构系统并不能满足病理医生的日常生产和科研需求。

发明内容

[0003]本申请的目的在于提供一种肿瘤专病数据库构建系统、方法、电子设备和介质，可以提供病理文本结构化处理系统框架，深度考虑病理医生的需求而开发，深度契合病理科医生的生产和科研需求。

[0004]第一方面，本申请实施例提供一种肿瘤专病数据库构建系统，包括：

[0005]数据拆分模块，用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；

[0006]数据预处理模块，用于对所述待结构化提取的文本信息进行预处理；

[0007]模型预测模块，用于利用命名实体识别模型对预处理后的文本信息进行预测；[0008]字典标注模块，用于对预处理后的文本信息进行字典标注；

[0009]数据合并模块，用于对预测结果和字典标注结果进行数据合并；

[0010]数据封装模块，用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装；

[0011]指标归一化模块，用于对数据封装后的文本信息进行指标归一化处理，得到结构化病理文本；

[0012]结构化数据存储模块，用于将所述结构化病理文本存储到数据库中，生成肿瘤专病数据库。

[0013]在一种可能的实施方式中，所述数据预处理模块具体用于：对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。[0014]在一种可能的实施方式中，所述模型预测模块包括：

[0015]训练单元，用于利用历史病理文本报告训练命名实体识别模型，并采用BIOES标注模式进行标注；

[0016]预测单元，用于利用命名实体识别模型对预处理后的文本信息进行预测，得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。

[0017]在一种可能的实施方式中，所述字典标注模块包括：

[0018]字典构建单元，用于构建字典；

[0019]信息提取单元，用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。

[0020]在一种可能的实施方式中，所述数据合并模块具体用于：当所述预测结果和字典标注结果不一致时，基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。

[0021]在一种可能的实施方式中，所述数据封装模块包括：

[0022]切分单元，用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分；[0023]第一整理单元，用于按照关键词和取值一一对应的原则对切分结果进行整理；[0024]第二整理单元，用于针对需要成对出现的指标，采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果；

[0025]冗余单元，用于对需要进行数据冗余的指标和取值进行重复存储；

[0026]封装单元，用于对整理后的文本信息与所述基础文本信息进行数据封装。[0027]在一种可能的实施方式中，所述指标归一化模块包括：

[0028]标准化单元，用于构建标准化字典，利用所述标准化字典对数据封装后的文本信息进行标准化；

[0029]纠错单元，用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串，以对指定字符串进行纠错；

[0030]推理单元，用于基于特定的业务需求，结合已有的知识图谱进行推理。

[0031]第二方面，本申请实施例提供一种肿瘤专病数据库构建方法，包括：

[0032]将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；

[0033]对所述待结构化提取的文本信息进行预处理；

[0034]利用命名实体识别模型对预处理后的文本信息进行预测；

[0035]对预处理后的文本信息进行字典标注；

[0036]对预测结果和字典标注结果进行数据合并；

[0037]将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装；[0038]对数据封装后的文本信息进行指标归一化处理，得到结构化病理文本；

[0039]将所述结构化病理文本存储到数据库中，生成肿瘤专病数据库。

[0040]第三方面，本申请实施例提供一种电子设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行时执行第二方面所述方法的步骤。[0041]第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第二方面所述方法的步骤。[0042]本申请所提供的一种肿瘤专病数据库构建系统，包括：数据拆分模块，用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；数据预处理模块，用于对所述待结构化提取的文本信息进行预处理；模型预测模块，用于利用命名实体识别模型对预处理后的文本信息进行预测；字典标注模块，用于对预处理后的文本信息进行字典标注；数据合并模块，用

于对预测结果和字典标注结果进行数据合并；数据封装模块，用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装；指标归一

本文发布于:2024-09-21 19:46:28，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/440256.html

上一篇：基于地理信息数据库的星地频谱共享方法[发明专利]

下一篇：常用专利分析工具简介

标签：文本进行用于信息数据病理模块字典

留言与评论（共有 0 条评论）