深度学习算法在面向行为分析的抑郁症辅助诊断中的研究进展

摘要

压电陶瓷片近十年来，人工智能技术快速发展并逐渐由学术界泄向产业界，其在医疗领域的应用也逐渐深入。受技术和伦理的局限，人工智能在医疗领域更多处于辅助决策的地位。抑郁症作为一种常见的精神障碍，苴发病率在全球日益增长，如何利用以深度学习为代表的人工智能技术手段实现对抑郁症的筛查和诊断，促进抑郁症早发现和及时，具有十分重要的意义。我们对近几年以人工智能为手段的抑郁症辅助诊断技术进行了文献调研和总结，主要从人脸表情、语音语调、文本语义、姿态行为及多模态数据融合5个方而入手，介绍人工智能在而向患者日常行为分析的抑郁症辅助诊断方而的研究进展。

抑郁症是一种常见精神障碍，目前占全球疾病负担第二位广。抑郁症的高发病率、高致残率、高复发率、髙社会经济成本，对个人、家庭和社会造成沉重的负担。抑郁症的诊断缺乏生物诊断''金标准"，需要结合患者当前的精神状态和既往史，诊断在很大程度上具有不确左性2 , 主要依赖于精神科医生的主观评估，例如参考DSM-5或者ICD-10,这对临床医生的诊疗水平提出了较高的要求。

目前抑郁症诊断的方法多局限于量表，包括自评疑表和他评量表。自评量表的优点是简便、

经济,但是与临床访谈相比，自评量表未考虑患者临床症状的含义，也不具备根据个体特征、共想英他精神和躯体疾病、以及潜在的重要生活事件进行修正的能力⑶，也无法有效地进行抑郁症亚型的判断『，严重程度也可能会受到所问问题的限制，如有意（如违背规范）或无意（如主观、自我倾向、社会期望和默许）的影响，导致评估结果无法反映出抑郁症患者的真实抑郁程度叫此外，临床医生可能把正常的悲伤（如丧亲）与抑郁混淆起来，从而增加假阳性诊断的可能性⑹。统计数据表明，全科医生只能正确识别47.3%的抑郁症患者，存在很大比例的漏诊及误诊⑵，而误诊导致不足或者过度。

寻一套生物学、生理学和行为学标志物来辅助临床评估的研究日益增多，机器学习、人工智能和行为信号处理的最新进展使研究人员能够将抑郁症辅助诊断视为一个建模决策问题, 采用一系列的方法更好地疑化抑郁症状态评估®。主要是利用外部设备记录患者在试验过程中的生理或行为数据，包括音频、视频、文本、功能磁共振成像图像、脑电信号、眼球运动、运动姿态等。通过分析生理或行为数据并提取相应特征，实现抑郁症患者和健康对照者的分类，这些方法可以大大简化测试过程，提高识别精度。我们将从人脸表情、语音语调、文本语义、姿态行为分析及多模态数据融合5个方面详细介绍抑郁症辅助诊断的研究进展。

一、人脸表情抑郁状态检测

在人类的交流活动中，超过一半的基于视觉的非言语行为用绕在而部区域。研究发现，抑郁症患者会出现典型的''抑郁而容"，如额头紧缩、双眉间呈''川"字形、嘴角下垂、瞬目次数减少、头部前倾、目光向下等9。因此，研究者引入计算机视觉技术来检测患者的抑郁状态。目前基于而部表情的抑郁症状态分析方法大致可分为三类：第一类是基于形状特征的方法，根据人脸的几何特征进行关键点立位，提取而部特征；第二类是基于外观特征的皮肤纹理分析方法；第三类是混合方法，同时提取形状特征和外观特征进行分析10 o以抑郁量表（例如：贝克抑郁量表第2版）评估结果为标签， Zhu等"设计一种可以同时捕捉人脸外观和动态特性的深度卷积神经网络模型，模王幼辉

型能够很好地刻画面部动力学特征，而患者面部动态信息对抑郁症的初步诊断具有重要意义eZhou等"则在深度卷积神经网络的基础上设il•基于注意力（attention-based）的特征聚合机制，进一步提升面部特征提取的性能。Bhatia等“使用直接人脸分析技术如监督下降法和间接人脸分析技术如来自三个正交平而的局部二值模式方法进行特征抽取，采用支持向戢机对提取的几何特征和纹理特征进行抑郁状态分类。目前关于人脸抑郁状态的检测方法

正处于不断探索之中，这些发现表明抑郁症自动检测的可行性，提岀的自动化而部图像分析病情状态对临床理论和实践有着令人振奋的意义。

二、语音抑郁状态检测

近年来，利用语音来自动检测精神疾病的研究越来越多。研究发现，抑郁患者的声音常常表现为''说话时声音低沉、缓慢、犹豫、单调，有时口吃、低语，在说出一个词之前犹豫不决，在句子中间则经常变得沉默"门。其他相关研究也发现抑郁症患者的语音变化存在较长的停顿、较差的可懂度、不精确的辅音、较低的声音强度、迟钝的韵律和其他异常的音质特征-O流行的抑郁症语音分析特征包括：音调、强度、说话速率、声门波形值（即Teager能量算子）和倒谱值（即梅尔频率倒谱系数）。主要从韵律、音质、频谱和声门4个方而研究基于语音的抑郁症辅助诊断以抑郁屋表（例如汉密尔顿抑郁疑表）度量抑郁严重程度，从韵律、音质、频谱和声门提取多种语音特征，借助机器学习方法建立回归模型进行抑郁状态的判断o Alhanai等通古斯人18则使用长-短期记忆神经网络模型分析音频和文本特征的交互作用，通过交互过程进行抑郁状态的辅助检测。Huang等"使用长-短期记忆神经网络模型进行连续情绪识别，采用 eGeMAPS（extended geneva minimalistic acoustic parameter set）特征

集作为基线音频特征描述，由23个声学描述符组成，包括能呈:、频谱和倒谱特征、音调、语音质量和微韵律特征，测试集由徳语和匈牙利语组成，研究表明同一模型在不同语种下的测试准确度存在较大差异。基于语音的抑郁症分析模型可以广泛部署于复杂场景，例如使用电话或基于互联网语音协议的系统对易感个体进行远程监控，同时拓展到临床实践中，包括新的辅助诊断手段和辅助培训手段。

三、基于文本语义的抑郁状态检测

基于文本语义的抑郁状态检测其数据来源主要有两类，社交媒体数拯和电子医疗数据。基于社交媒体数据分析方而，特征表示、神经网络、强化学习2。、语义图"等方法被用于建立抑郁状态同文本语义之间的关系，探索使用文本信息检测抑郁症的可能性。黄智生等妙采用知识图谱技术建立针对网络媒体（如：新浪微博）的监控，并发布相应的自杀风险等级，为自杀救助提供决策依据，取得了广泛的社会影响。基于电子医疗数据分析方面，Yang等23提岀了一个利用Doc2vec和文本卷积神经网络对被访谈者是否有抑郁倾向进行分类的框架。Vaci等也使用自然语言处理方法从临床文本中自动抽取抑郁症患者相关信息，促进电子医疗数据在心理健康研究方而的使用。基于文本语义的抑郁状态检测主要采用自

然语言处理、知识图谱、深度神经网络等方法构建模型实现抑郁状态检测。其所使用的两类主要数据源务有英优缺点，社交媒体数据具有数据量大、易于获取的优点，但存在价值密度低的缺点；电子医疗数据具有价值密度高、针对性强等优点，同时存在隐私保护、难于获取等局限。

四、姿态行为抑郁状态检测行为特征，如身体动作、手势、眼动和周期性的肌肉运动已经广泛用于抑郁症分析。相关研究可以从视频图像序列中跟踪一些关键点或部分关节，然后合并恢复人体的姿态结构，并对人的行为进行识别、判断、跟踪与理解。Kacem等刃从视频中提取、预处理运动特征，并使用髙斯混合模型和费雪矢量进行运动特征编码，结果表明而部运动的速度和加速度可以作为抑郁症识别的显著特征，基于该特征可以实现抑郁程度的分类。此外，有研究发现抑郁症患者的眼睹运动有明显的特性，可以检测岀这种细微变化作为抑郁症特征的生物标记物。Li成都体育学院图书馆等薛璐全套*6提取基于注视、眼跳、瞳孔大小等眼动数据，利用基于分类技术的眼动特征来区分抑郁症患者和非抑郁症患者。Pan等”以情绪面孔作为视觉刺激，收集参与者的反应时间数据和眼动数据，利用支持向量机对抑郁症患者和健康对照组进行分类。Wang等2*结合心理健康自测数据和眼动数据，提取包括眼动、记忆特征、认知特征和网络行为等多模态特征，提出一个扫描叠加模型来捕捉特征之间复杂的非

线性关系，建立抑郁状态检测模型。

五、基于多模态数据融合的抑郁状态检测

通过多模态数据融合实现抑郁状态检测已经有许多研究，研究者试图从新的角度来提高检测准确率，主要采用视频、语音、文本结合的多模态数据来综合评价受试者的状态，期望能够提髙抑郁症检测水平。这方而的研究重点主要体现在两个部分：单模态数据特征的提取和多模态特征数拯的融合。Yang等29设计一个混合架构的抑郁症分类评估模型，包含3个主要部分：（1）基于深度卷积神经网络（deepconvolutional neural network, DCNN）和深度神经网络（deep neural networks, DNN）的视听多模态抑郁症识别框架；（2）基于支持向量机和随机森林的抑郁症分类框架：（3）融合DCNN-DNN舆情管理模型的视听多元回归抑郁症分类模型。Jan等皿利用深度学习方法从而部表情框架中提取关键视觉特征，从短音频片段中提取频谱低层描述符和梅尔频率倒谱系数特征，并且提出了特征动态历史直方图来捕捉特征空间上的时序变化，最后作者使用回归技术将这些特征动态历史直方图和音频特征融合，以预测贝克抑郁屋表第2版抑郁量表分数。多模态数据融合方法方而，学术界往往将特征融合和决策结果生成统一考虑，在全局特征维度进行不同模态数据的融合和

决策结果的生成。例如: Yin等曲提出了一种多模态的分层递归神经网络结构方法，将视觉、听觉和文本特征结合起来用于抑郁症的检测，采用两层的双向长-短期记忆神经网络模型实现多模态特征融合并预测抑郁症的严重程度。Gui等提出一种全新的多代理协同模型，模型从社交媒体中自动抽取抑郁症相关的文本特征和视觉特征，并通过特征关联自动进行特征融合，实现更好的性能和健壮性(robustness)。Makiuchi等⑼提出了一个基于语音和语义的多模态特征融合的抑郁症检测手段，采用几种不同的深度模型实现单模态数据特征的提取，最后通过全连接层实现多模态数据特征的融合并估计抑郁程度。 Qureshi等®提岀一种新的基于多任务学习的深度神经网络模型，模型实现语音、文本和视觉数据的融合，通过回归和分类实现抑郁严重程度的判断"

本文发布于:2024-09-21 06:02:58，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/412978.html

上一篇：智能舌诊面诊，为您提供中医健康状态辨识服务。

下一篇：基于深度学习与集成学习的心音分类算法研究及智能听诊系统实现

标签：特征数据进行

留言与评论（共有 0 条评论）