首页 > 学术百科

基于变分自编码器的疾病预测系统及其电子设备[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201911404700.6

(22)申请日 2019.12.31

(71)申请人杭州知盛数据科技有限公司

地址 310051 浙江省杭州市滨江区浦沿街

道伟业路3号B幢2128室

(72)发明人王晓梅　袁雪　李广砥　

(51)Int.Cl.

G16H 50/70(2018.01)

G16H 50/20(2018.01)

G06N 3/08(2006.01)

(54)发明名称

基于变分自编码器的疾病预测系统及其电

子设备

(57)摘要

本发明提供了一种基于变分自编码器的疾

病预测系统及其电子设备，该疾病预测系统包

括：数据获取模块，用于获取与用户相关的历史

诊断数据；预处理模块，用于从历史诊断数据提

取出诊断结果；以及疾病预测模块，用于基于训

练完成的变分自编码器对所述诊断结果进行处

理，以生成疾病预测结果。从而可以实现根据用

户的历史诊断结果预测出可能发生的疾病。权利要求书1页说明书11页附图4页CN 111161883 A 2020.05.15

C N 111161883

1.一种基于变分自编码器的疾病预测系统，其特征在于，包括：

数据获取模块，用于获取与用户相关的历史诊断数据；

预处理模块，用于从历史诊断数据提取出诊断结果；以及

疾病预测模块，用于基于训练完成的变分自编码器对所述诊断结果进行处理，以生成疾病预测结果。

2.根据权利要求1所述的疾病预测系统，其中，所述预处理模块，进一步用于：

对所述历史诊断数据进行预处理，以获得所述历史诊断数据中的诊断结果；以及

基于ICD -10码对所述诊断结果进行映射，以获得映射后的所述诊断结果。

3.根据权利要求2所述的疾病预测系统，其中，基于ICD -10码对所述诊断结果进行映射，以获得映射后的所述诊断结果，包括：

基于ICD -10码对所述诊断结果进行映射，以获得一个多维的二元向量，其中，所述多维二元向量为映射后的所述诊断结果。

4.根据权利要求1所述的疾病预测系统，其中，所述变分自编码器包括输入层、编码层、采样层、解码层和输出层；

其中，所述输入层用于接收映射后的所述诊断结果；

其中，所述编码层用于对映射后的所述诊断结果进行编码；

其中，所述采样层用于对编码之后的所述诊断结果进行采样；

其中，所述解码层用于对采样后的所述诊断结果进行解码，以生成疾病预测结果；其中，所述输出层包括第一输出层，用于输出所述疾病预测结果。

5.根据权利要求4所述的疾病预测系统，其中，所述第一输出层为Softmax层。

6.根据权利要求4所述的疾病预测系统，其中，所述输出层进一步包括第二输出层，用于输出基于Sigmoid激活函数重构的所述诊断结果。

7.根据权利要求1所述的疾病预测系统，其中，在训练所述变分自编码器的过程中，所述变分自编码器的损失函数由第一损失函数和第二损失函数权重化构成，其中，所述第一损失函数为负对数似然函数；所述第二损失函数为输入和重构输出之间的二元交叉熵。

8.根据权利要求1所述的疾病预测系统，其中，在训练所述变分自编码器的过程中，采用神经网络Adam优化算法对所述变分自编码器进行优化。

9.根据权利要求1所述的疾病预测系统，其中，在训练所述变分自编码器的过程中，采用预测准确率、覆盖率和平均排名来评价所述变分自编码器。

10.一种电子设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现如权利要求1至9任意一项所述的基于变分自编码器的疾病预测系统。

权　利　要　求　书1/1页CN 111161883 A

基于变分自编码器的疾病预测系统及其电子设备

【技术领域】

[0001]本发明属于疾病预测领域，具体涉及一种基于变分自编码器的疾病预测系统及其电子设备。

【背景技术】

[0002]近年来随着信息技术和人工智能的发展，对预测某种特定疾病的研究已经有了相当广泛的应用，尤其以神经网络为核心的深度学习技术突飞猛进。由于其高效的特征提取能力和非线性的学习能力，越来越多的研究将深度学习应用于在各类疾病的诊断预测上并表现出非常令人满意的结果。

[0003]这几年关于单一疾病的预测研究已经被公开了很多，例如，针对脑梗塞的预测，已经有技术开始利用适用于结构化和非结构化的数据来构造卷积神经网络(CNN)模型进行预测。又如，Miotto，R.等人

研究并推导出的“深度病人”模型表示法，该方法在特定疾病预测任务中具有很高的准确性。再如，Nagrecha等人使用“诊断图”来预测老年患者的心力衰竭，以期旨在挖掘重要的疾病进展轨迹来帮助人们预测心力衰竭。再如，Qingyu Zhao等人使用一种基于变分自编码框架的通用回归模型，并将其应用于结构化的核磁图像的脑老化预测问题。这些问题都存在着针对单一疾病的预测，无法根据病患诊断历史，预测与病患相类似的其他病患未来疾病发生的风险概率或指数。

[0004]最近几年，人们开始着手研究协同过滤算法能够应用于疾病预测领域。所谓协同过滤算法是一种基于关联规则的算法，算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行组划分并推荐品味相似的商品，该算法已成功地应用于娱乐业和电子零售业的推荐系统。这些系统通过探索实体当前项目历史来预测实体历史中未发现的项目相关性。基于这个理念，如果把把疾病作为项目，受试者当前的病史作为项目历史，理论上来说，这种协同过滤方法应该也能适应于疾病预测。例如，Davis等人首次提出并讨论将协同过滤的机制用作疾病预测。他们采用用户偏好向量相似度的方法来解决这个问题。他们创建了一个名为CARE的系统，该系统使用患者病史作为输入，根据其他类似患者的特征来预测将来的诊断风险。Folino等人采用关联规则分析和马尔科夫模型来预测疾病风险，该方法使用挖掘模型的组合来提取连续的疾病模式。在这方面，最近一项最新的研究之一是Liang等人关于使用变分自编码器(VAE)进行协同过滤的工作，这些工作讨论了对原始VAE损失函数的许多修改，以提高推荐精度。

[0005]虽然目前对于疾病预测的研究和应用很多，但是绝大多数的研究都是针对某种特定疾病的分析预测，而根据病患的多种疾病相互关联关系基于协同过滤算法对未来可能发生的多种疾病风险预测的方法非常少，也没有相关的技术文献把基于VAE的协同过滤算法应用的疾病预测方面的报道。而对于一些病人来说，如果能够针对该病患诊断历史数据集的建模，预测与病患相类似的其他病患未来疾病发生的风险概率或指数，将会给病人未来的生活中针对疾病的预防和提示带来帮助。

【发明内容】

[0006]本发明的目的在于为解决现有技术的不足而提供一种基于变分自编码器的疾病预测系统及其装置，以为病人提供更为优异性能的疾病风险预测。

[0007]为了达到以上目的，本发明提供了一种基于变分自编码器的疾病预测系统，包括：[0008]数据获取模块，用于获取与用户相关的历史诊断数据；

[0009]预处理模块，用于从历史诊断数据提取出诊断结果；以及

[0010]疾病预测模块，用于基于训练完成的变分自编码器对所述诊断结果进行处理，以生成疾病预测结果。

[0011]在本发明的一实施例中，其中，所述预处理模块，进一步用于：

[0012]对所述历史诊断数据进行预处理，以获得所述历史诊断数据中的诊断结果；以及[0013]基于ICD-10码对所述诊断结果进行映射，以获得映射后的所述诊断结果。[0014]在本发明的一实施例中，其中，基于ICD-10码对所述诊断结果进行映射，以获得映射后的所述诊断结果，包括：

[0015]基于ICD-10码对所述诊断结果进行映射，以获得一个多维的二元向量，其中，所述多维二元向量为映射后的所述诊断结果。

[0016]在本发明的一实施例中，其中，所述变分自编码器包括输入层、编码层、采样层、解码层和输出层；

[0017]其中，所述输入层用于接收映射后的所述诊断结果；

[0018]其中，所述编码层用于对映射后的所述诊断结果进行编码；

[0019]其中，所述采样层用于对编码之后的所述诊断结果进行采样；

[0020]其中，所述解码层用于对采样后的所述诊断结果进行解码，以生成疾病预测结果；[0021]其中，所述输出层包括第一输出层，用于输出所述疾病预测结果。

[0022]在本发明的一实施例中，其中，所述第一输出层为Softmax层。

[0023]在本发明的一实施例中，其中，所述输出层进一步包括第二输出层，用于输出基于Sigmoid激活函数重构的所述诊断结果。

[0024]在本发明的一实施例中，其中，在训练所述变分自编码器的过程中，所述变分自编码器的损失函数由第一损失函数和第二损失函数权重化构成，其中，所述第一损失函数为负对数似然函数；所述第二损失函数为输入和重构输出之间的二元交叉熵。

[0025]在本发明的一实施例中，其中，在训练所述变分自编码器的过程中，采用神经网络Adam优化算法对所述变分自编码器进行优化。

[0026]在本发明的一实施例中，其中，在训练所述变分自编码器的过程中，采用预测准确率、覆盖率和平均排名来评价所述变分自编码器。

[0027]为了达到以上目的，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述所述的基于变分自编码器的疾病预测系统。

[0028]相对于现有技术，本发明提供的一种基于变分自编码器的疾病预测系统，采用映射编码的形式对用户的历史诊断数据进行预处理，能够提升疾病预测系统运行的速度和效率，并使得本疾病预测系统具有很好的解释性。

[0029]此外，相对于现有技术，本发明提供的一种基于变分自编码器的疾病预测系统的

变分自编码器的训练过程中，采用权重化的复合损失函数，能够提升变分自编码器的拟合性和预测的准确度。

【附图说明】

[0030]图1为本发明提供的实施例的一种基于变分自编码器的疾病预测系统的框图示意图。

[0031]图2为本发明提供的上述实施例中变分自编码器的框图示意图。

[0032]图3为本发明提供的上述实施例中用于变分自编码器的网络架构图。

[0033]图4为本发明提供的上述实施例中用于变分自编码器的采样层的网络重参数化示意图。

[0034]图5为本发明提供的上述实施例中用于变分自编码器的输出层的网络架构图。[0035]图6为本发明提供的上述实施例中用于变分自编码器的采用复合损失函数进行优化和单一损失函数优化的对比图。

[0036]图7本发明提供的上述实施例中一电子设备的框图示意图。

【具体实施方式】

[0037]以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

[0038]在本发明中，权利要求和说明书中术语“一”应理解为“一个或多个”，即在一个实施例，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个。除非在本发明的揭露中明确示意该元件的数量只有一个，否则术语“一”并不能理解为唯一或单一，术语“一”不能理解为对数量的限制。

[0039]在本发明的描述中，需要理解的是，属于“第一”、“第二”等仅用于描述目的，而不能理解为指示或者暗示相对重要性。本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或者一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过媒介间接连结。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

[0040]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，

在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

[0041]本发明实施例提供了一种基于变分自编码器的疾病预测系统，如图1所示，该疾病预测系统用于针对用户的历史诊断数据通过变分自编码器分析，以获得对该用户未来患有

本文发布于:2024-09-22 03:43:53，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/753914.html

上一篇：一种基于动态语义编码和双注意力的文本匹配方法及装置[发明专利]

下一篇：人脸识别技术发展现状及未来趋势