MIMIC-III数据库的应用现状(综述)

MIMIC-III数据库的应⽤现状(综述)
MIMIC-III数据库的应⽤现状
⼀篇综述,希望可为研究者们提供⼀些应⽤上的帮助。MIMIC数据库应⽤⼴泛,可以为医疗数据相关模型性能对⽐提供帮助。
⽬前已经发布MIMIC-IV,可以在⽹站中进⾏研究者认证并进⾏下载。Physionet中还有MIMIC-IV其他数据,可⾃⾏搜索。各数据集的说明可在进⾏查阅读。
值得⼀提的是,MIMIC-IV中加⼊了x光⽚影像数据供⼤家使⽤。
摘要
数字健康系统近些年来发展迅猛,并被各⼤医院⼴泛应⽤。即使如此,因为安全性等⼀些原因,这些信息难以被集成并应⽤到科研当中。MIMIC-III(Medical Information Mart for Intensive Care)的发布解决了这⼀问题。它整合了波⼠顿Beth Israel Deaconess医疗中⼼的患者数据,并可以免费访问和使⽤。⾃发布⾄今,它已被⼴泛应⽤于科研领域,为患者结局预测、实体识别等⽅⾯的研究和发展做出了贡献。本⽂列举和分析了MIMIC-III在各领域的应⽤,并提出了⼀些问题。
⼀、引⾔
近些年来,数字健康记录系统在各⼤医院得到⼴泛使⽤。在2008-2014的7年中,拥有基本数字系统的⾮联邦急性护理医院的数量从9.4%增加到75.5%[1]。尽管如此,数字系统的互操作性依旧是⼀个问题,为数据集成带来了不⼩的挑战。此外,在科研⽅⾯,针对医疗数据分析的实验缺乏可重现性。因此,需要⼀个开放的、集成性强、信息丰富的医疗信息库为研究者们提供信息来源。于是,Johnson等⼈发布了MIMIC-III (Medical Information Mart for Intensive Care)数据库,这也是对MIMIC-II(Multiparameter Intelligent Monitoring in Intensive Care)数据库的更新[2].
⼆、MIMIC数据库简介
MIMIC-III整合了波⼠顿Beth Israel Deaconess医疗中⼼已确认⾝份的患者的临床数据,包括病⼈基线信息,实验室信息,诊断报告等不同⽅⾯,可以⽤于探讨诸如预测患者结果的机器学习⽅法、⾎压监测技术的临床含义以及⾮结构化患者笔记的语义分析等主题。并根据数据使⽤协议,使国际研究⼈员能够免费的获取这些数据并进⾏研究。Kurniati等⼈[3]对MIMIC-III提供的数据质量进⾏了评估发现,数据库中提供的全⾯数据可以有效的帮助研究者们进⾏研究。较好的数据清理和整合可以将其效果发挥到最好。
此外,在科研领域,研究者们对科学成果可重现性的担忧⽇益突出[4]。为此,Johnson等⼈在MIMIC-III数据库的基础上,开发了与其配套的代码库(Mimic Code Repository)。该代码库是开源的,包括
SQL、Python和R等语⾔的标准化脚本。它为研究者们提供了⼀个交流社区,研究者们可以将代码上传交流,并可以由其他研究者下载副本,确保各项应⽤MIMIC-III的研究具有可⽐性和可重现性[5]。
三、基于统计⽅法的数据分析
基于统计⽅法的数据分析,意为应⽤MIMIC-III的数据,在已知患者结局的情况下,⽤统计学⽅法探究两个或多个因素的相关性,如药物使⽤对检验指标的影响,某医疗⼿段对死亡率的影响等。以此探究不同医疗决策对患者结局的影响,为预测模型所需的特征提取提供理论基础。在药物使⽤⽅⾯,Wang等⼈[6]提取MIMIC-III中包括⽩蛋⽩、动脉O2饱和度、⾎尿素氮、肌酐等22个属性变化与普通肝素(Unfractionated Heparin ,UFH)的注射情况,使⽤统计学⽅法,探究了各属性和UFH注射的相关性,并分析了影响的时间延迟,证明了UFH注射在影响患者⽣命体征⽅⾯的作⽤。
在⽣命指标⽅⾯,Vincent等⼈[7]使⽤MIMIC-III数据,使⽤统计学⽅法对不同平均动脉压(Mean Arterial Pressure,MAP)分级及其维持时间对死亡率的影响,结果表明当低⾎压在<80mmHg时,低⾎压会使死亡率明显升⾼。
在设备使⽤⽅⾯,Serpa等⼈[8]从MIMIC-III中提取使⽤呼吸机超过48⼩时的患者数据,运⽤统计学⽅法,探究了患者呼吸机的机械功率(Mechanical Power,MP)与死亡率之间的关系,结果发现,使⽤呼吸机时间与死亡率成正⽐例关系,这为对死亡风险的预测提供了新的特征指标。
四、基于机器学习的数据分析
患者结局,如住院时间、再⼊院、出院类型等都被认为是临床过程中需要评价的重要指标[9]。现有研究⼤多是采⽤数据挖掘、机器学习或深度学习的⽅法对某⼀特定类型的临床结局⽣成预测模型[10]。⽬前,已经有许多研究者使⽤机器学习,深度学习等⽅法对患者结局进⾏预测,有着不错的结果。Lee等⼈[11]研究表明,使⽤机器学习等⽅法进⾏患者结局预测可以帮助临床医⽣更好地进⾏临床决策。Sanjay 等⼈[12]也在MIMIC-III数据集上证明了使⽤机器学习算法进⾏患者结局预测的可⾏性。
4.1死亡风险预测
死亡是⾮常常见的,也是最为严重的ICU(Intensive Care Unit)患者结局,对死亡风险的准确评估有利于及时的临床⼲预和资源分配[13]。针对于死亡风险的预测,最初使⽤的绝⼤多数预测模型都是基于总体基线患者特征。这些系统通常依赖于特征的加权线性组合,例如年龄、⼊院类型和⽣命体征测量。如改良早期预警评分(Modifide Early Warning Score,MEWS)[14]、序贯器官衰竭评估(Sepsis-related Organ Failure Assessment,SOFA)[15]和简化急性⽣理学评分(Simplified Acute Physiology Score,SAPS II)[16]。Davoodi等⼈[17]提出了⼀种基于深度规则的模糊分类系统(Deep Rule-Based Fuzzy System,DRBFS),对MIMIC-III中⼜⽤的数据进⾏提取,利⽤⼤量的输⼊变量对ICU患者的住院死亡风险进⾏准确的预测。并应⽤了朴素贝叶斯(Naive Bayes,NB)、决
策树(Decision Tree,DT)、梯度提升(Fradient Boosting,GB)、深度信念⽹络(Deep Belief Nets,DBN)等常⽤分类器对其⽅法进⾏评估,证明了⽅法的可⾏性。但是患者的各项指标在住院期间并不是固定的,因此这些基于基线数据的分析在临床应⽤中并不理想[18]。为了解决这个问题,Jensen等⼈[19]提出了时间疾病轨迹的概念来模拟患者随时间的预期进展,从⽽从时间上绘制患者轨迹,来进⾏其他⽅⾯的预测。Jones等⼈[20]在预测患者轨迹的基础上,应⽤MIMIC-III数据,使⽤两种深度学习技术,即⽆监督⾃动编码器(Unsupervised Autoencoders)和长短期记忆⽹络(Long Short-term Memory,LSTM)来预测ICU护理结果和存活率,应⽤时间序列(Time Series)进⾏预测,较传统机器学习⽅法取得更准确的结果。
4.2再⼊院风险评估
重症监护病房(ICU)再⼊院是⼀个重要的临床问题,因为它们与患者伤害、效率低下和更⾼的费⽤相关[21]。⽽且,再次⼊院ICU的患者会经历更多的不良事件,住院死亡率最⾼可达未再次⼊院患者的6倍[22]。因此,若可以预测患者的再⼊院并加以⼲预,便可以减少再⼊院的⼏率并减少死亡率。Mcwilliams等⼈[23]便通过运⽤随机森林(Random Forest,RF)[24]和⼀个逻辑分类器(Logistic
Classifier,LC)[25]算法,使⽤MIMIC-III数据,建⽴了患者出院决策模型,帮助医决定是否让患者出院。
预测再⼊院的传统⽅法是使⽤回归模型对再⼊院概率进⾏预测,⽽近些年来Churpek等⼈[26]使⽤机器学习的⽅法分析再⼊院得到了⽐回归模型更好的结果。在此基础上,等⼈改进了机器学习算法,利⽤从MIMIC-III中提取的患者特征、护理评估、药物、重症监护病房⼲预、诊断测试等⼀系列患者特征,建⽴梯度增强机器模型,得到了⽐之前模型更好的预测结果。
4.3疾病预测
败⾎症(Sepsis)是部分复杂疾病的总称,在Sepsis-3 [27]中被定义为由于宿主对感染的反应失调导致危及⽣命的器官功能障碍。由于疾病的异质性和宿主反应的多样性,这些疾病长期以来⼀直难以被医⽣识别和诊断。因此若可以准确预测败⾎症,便可以有针对性的进⾏临床决策。⽬前也有很多有关预测败⾎症的评分系统如SOFA评分[16]、MEWS评分[17]等。Desautels等⼈[28]在传统⽅法的基础上提出了insight机器学习模型,在MIMIC-III中提取数据,应⽤insight评分和SOFA、MEWS评分等传统评分⽅法预测在是否会在固定时间内发⽣败⾎症,结果显⽰insight具有更好的性能。为了提升预测性能,Nemati等⼈[29]提出了将动态时间序列应⽤于预测败⾎症的机器学习模型,使⽤埃默⾥⼤学医院的数据建⽴模型,使⽤MIMIC-III数据进⾏验证,证明了该算法的可⽤性。
急性肾损伤也是⼀种常见于ICU,且与再⼊院,死亡等患者结局密切相关的复杂疾病[30]。Zimmerman等⼈[31]使⽤MIMIC-III的数据,排除了⼊院时已有肾损伤的病⼈后,提取了包括患者年龄
、肌酐、尿量等特征,使⽤包括Logistic回归(Logistic Regression,LR)、RF 和⼈⼯神经⽹络(Artificial Neural Network,ANN)在内的机器学习模型进⾏分析,证明了该算法在预测患者急性肾损伤⽅⾯的实⽤性。
五、基于⾃然语⾔处理的数据分析
在医疗保健系统中,患者的病历是⼀个⼤数据源。但很多情况下,利于医⽣笔记,影像报告等都是由⾮结构化的⽂本组成的。这种数据不能够直接使⽤统计⼯具进⾏分析,因此,就需要使⽤命名实体识别(Named Entity Recognition,NER)的⽅法对其进⾏处理。
基于神经⽹络的嵌⼊极⼤地推进了⾃然语⾔处理(Natural Language Processing,NLP)的发展。Devlin 等⼈[32]在MIMIC-III的报告中使⽤长短期记忆⽹络(LSTM)和条件随机场(conditional random field,CRF)的机器学习⽅法提取标签,取得不错的效果。最近,更先进的嵌⼊⽅法和表⽰(如ELMo[33]、BERT[34])进⼀步推动了NLP的发展.但是这些⽅法没有很好的实践于临床概念提取中。Si等⼈[35]将传统的词嵌⼊(Word Embedding)和上下⽂嵌⼊(Contextual Embedding)⽅法应⽤于MIMIC-III数据集中,证明了其在临床概念提取中的可⾏性。
led显示屏制作此外,国际疾病分类(international Classification of diseases,ICD)编码已经被⼴泛⽤于描述患者的诊断[36]。⼈⼯编码低效繁琐,如果使⽤深度学习⽅法则可以⼤⼤提⾼编码效率。Li等⼈[37]很好的
在MIMIC-III应⽤深度学习的⽅法提取特征进⾏ICD-9编码,并验证了它的可靠性。
六、总结
MIMIC-III提供了ICU患者各个⽅⾯的信息,免费开放给研究者们使⽤。⾃发布以来,由于其提供患者信息的丰富性,被⼴泛的应⽤于于建⽴预测患者结局的模型、建⽴可应⽤于临床医学病例的实体识别模型、进⾏探究患者各属性之间关系的回顾性研究。其中,在患者结局预测⽅⾯应⽤较多,⽽死亡是其最为重要的结局。
在疾病⽅⾯,⽬前使⽤MIMIC-III的研究主要针对败⾎症和肾功能疾病为主。⽽⼼肌梗死导致ICU病⼈死亡的⼀个重要因素[38],在此⽅⾯应⽤MIMIC-III的研究却很少。基于MIMIC-III数据库信息的多样性,我们也可以应⽤MIMIC-III,研究有关⼼肌梗死患者结局预测,⼀⽅⾯丰富了MIMIC-III的应⽤⽅向,另⼀⽅⾯也可以为⼼肌梗死患者的临床决策提供依据。
参考⽂献
[1] Charles D,King J, Patel V,Furukawa M. Adoption of Electronic Health record Systems among U.S[J]. ONC Data Brief
[1] Charles D,King J, Patel V,Furukawa M. Adoption of Electronic Health record Systems among U.S[
J]. ONC Data Brief
,2013,9: 1–9.
[2] Johnson A E W ,Pollard T J ,Shen L ,et al. MIMIC-III,a freely accessible critical care database[J]. Scientific
Data,2016,3:160035.sds聚丙烯酰胺凝胶电泳
[3] Kurniati A P ,Rojas E ,Hogg D ,et al. The assessment of data quality issues for process mining in healthcare using Medical Information Mart for Intensive Care III,a freely available e-health record database[J]. Health Informatics
Journal,2019,25(4):1878-1893.
[4] Baker Monya. 1,500 scientists lift the lid on reproducibility[J]. Nature,2016,533(7604):452-454.
金刚石磨头
[5] Alistair-E-W Johnson,Stone David-J,Celi Leo-A,et al. The MIMIC Code Repository: enabling reproducibility in critical care research[J]. Journal of the American Medical Informatics Association,2018,25(1): 32-39.
[6] Wang H,Yang H. Statistical Analysis of Inter-attribute Relationships in Unfractionated Heparin Injection Problems[J]. Annu Int Conf IEEE Eng Med Biol Soc,2020,2020:5374-5377.
[7] Vincent J,Nielsen N D,Shapiro N I,et al. Mean arterial pressure and mortality in patients with distributive shock: a retrospective analysis of the MIMIC-III database[J]. Annals of Intensive Care,2018,8(1):107.
[8] Neto A S ,Deliberato R O ,Johnson A ,et al. Mechanical power of ventilation is associated with mortality in critically ill patients: an analysis of patients in two observational cohorts[J]. Intensive Care Medicine,2018,44:1914–1922
[9] Huang Z ,Juarez J M ,Duan H ,et al. Length of stay prediction for clinical treatment process using temporal similarity[J]. Expert Systems with Applications,2013,40(16):6330–6339.
[10] Outcome Prediction in Clinical Treatment Processes[J]. Journal of Medical Systems,2016,40(1):1-13.
[11] Lee J . Is Artificial Intelligence Better Than Human Clinicians in Predicting Patient Outcomes?[J]. Journal of Medical Internet Research,2020,22(8):e19918.
[12] Sanjay P ,Chuizheng M ,Zhengping C ,et al. Benchmarking deep learning models on large healthcare datasets[J]. Journal of Biomedical Informatics,2018,83:112-134.
[13] Siontis G C M ,Tzoulaki I ,Ioannidis J P A . Predicting death: an empirical evaluation of predictive tools for mortality.[J]. Archives of Internal Medicine,2011,171(19):1721-1726.
[14] Subbe C P ,Slater A ,Menon D ,et al. Validation of physiological scoring systems in the accident and emergency department[J]. Emergency Medicine Journal Emj,2006,23(11):841.空调挡风板
[15] Vincent J L ,Moreno R ,Takala J ,et al. The SOFA (Sepsis-related Organ Failure Assessment) score to describe organ dysfunction/failure[J]. Intensive Care Medicine,1996,22(7):707-710.
[16] Le,Gall,J,et al. A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study[J]. JAMA: The Journal of the American Medical Association,1993,270(24):2957-2963 .
[17] Davoodi R ,Hassan Moradi M . Mortality Prediction in Intensive Care Units (ICUs) Using a Deep Rule-based Fuzzy Classifier[J]. Journal of Biomedical Informatics,2018:48-59.
[18] Calvert J ,Mao Q ,Hoffman J L ,et al. Using electronic health record collected clinical variables to
predict medical intensive care unit mortality[J]. Annals of Medicine and Surgery,2016,11:52-57.
[19] Jensen A B ,Moseley P L ,Oprea T I ,et al. Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients[J]. Nature Communications,2014,5:4022.
[20] Beaulieu-Jones B K ,Orzechowski P ,Moore J H . Mapping Patient Trajectories using Longitudinal Extraction and Deep Learning in the MIMIC-III Critical Care Database[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing,2018,23:123-132.
[21] Kramer A A ,Higgins T L ,Zimmerman J E . The association between ICU readmission rate and patient outcomes[J]. Critical Care Medicine,2013,41(1):24-33.
[22] Van Sluisveld N, Bakhshi-Raiez F, de Keizer N, et al. Variation in rates of ICU readmissions and post-ICU in-hospital mortality and their association with ICU discharge practices.[J]. BMC Health Services Research, 2017,17(1):281.
[23] McWilliams C J, Lawson D J, Santos-Rodriguez R, et al. Towards a decision support tool for intensive care discharge: machine learning algorithm development using electronic healthcare data from MIMIC-III and Bristol, UK[J]. BMJ Open, 2019,9(3):e25925.
[24] Liaw A ,Wiener M . Classification and Regression by randomForest[J]. R News,2002,2:18-22.
直流调压器[25] Dreiseitl S, Ohno-Machado L. Logistic regression and artificial neural network classification models: a methodology review[J]. JOURNAL OF BIOMEDICAL INFORMATICS, 2002,35(5-6):352-359.
[26] Churpek M M ,Yuen T C ,Winslow C ,et al. Multicenter Comparison of Machine Learning Methods and Conventional Regression for Predicting Clinical Deterioration on the Wards[J]. Critical care medicine,2016,44(2):368-374.
[27] Rather A R ,Kasana B . The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3)[J]. J Med,2015,18(2):162-164.
离合器盘
[28]Desautels T ,Calvert J ,Hoffman J ,et al. Prediction of Sepsis in the Intensive Care Unit With Minimal Electronic Health Record Data: A Machine Learning Approach[J]. JMIR Medical Informatics,2016,4(3).
Record Data: A Machine Learning Approach[J]. JMIR Medical Informatics,2016,4(3).
[29] Nemati S ,Holder A ,Razmi F ,et al. An Interpretable Machine Learning Model for Accurate Predi
ction of Sepsis in the ICU[J]. Critical Care Medicine,2017:1.
[30]Ali T, Khan I, Simpson W, et al. Incidence and outcomes in acute kidney injury: a comprehensive population-based
study[J]. Journal of the American Society of Nephrology : JASN, 2007,18(4):1292-1298.
[31] Zimmerman L P ,Reyfman P A ,Smith A D R ,et al. Early prediction of acute kidney injury following ICU admission using
a multivariate panel of physiological measurements[J]. BMC Medical Informatics and Decision Making,2019,19(S1):6.
[32] Jauregi Unanue I ,Zare Borzeshi E ,Piccardi M . Recurrent neural networks with specialized word embeddings for health-domain named-entity recognition[J]. Journal of Biomedical Informatics,2017,76:102-109.
[33] Peters ME, Neumann M, Iyyer M., et al. Deep contextualized word repre-Sentations[J] Proceedings of NAACL-HLT, 2018: 2227–2237.
[34] Devlin J, Chang M-W, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT, 2019: 4171–4186.
[35] Si Y, Wang J, Xu H, et al. Enhancing clinical concept extraction with contextual embeddings[J]. Journal of the American Medical Informatics Association, 2019,26(11):1297-1304.
[36]Peter B. Jensen,Lars J. Jensen,Søren Brunak. Mining electronic health records: towards better research applications and clinical care[J]. Nature Reviews Genetics,2012,13(6):395-405.
[37] Li M, Fei Z, Zeng M, et al. Automated ICD-9 Coding via A Deep Learning Approach[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019,16(4):1193-1202.
[38] Mei Z, Ti-gang H, Guang-ping L, et al. Comparable analysis of in-hospital mortality in patients with acute myocardial infarction[J]. Zhonghua Xinxueguanbing Zazhi, 2005,33(9):796-800.
.

本文发布于:2024-09-21 19:54:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/138146.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:患者   预测   数据   学习   模型   临床   机器   结局
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议