抑郁情绪状态数据获取装置、系统、方法和存储介质与流程

1.本技术涉及计算机数据处理技术领域，特别是涉及一种抑郁情绪状态数据获取装置、系统、方法和存储介质。

背景技术：

2.抑郁症为一种常见心理疾病。根据世界卫生组织于2017年发布的《抑郁症及其它常见精神障碍》(《depression and other common mental disorders》)，全球有大概3.22亿人受到抑郁症干扰。根据2019年黄悦勤教授等发表的文章《中国精神疾病的流行：横断面流行病学研究》(《prevalence of mental disorders in china:across-sectional epidemiological study》)，估计当前我国有超过9000万人受到抑郁症的影响。抑郁症是全世界范围内致残的主要因素，并且是全球范围内疾病负担的主要因素。抑郁症严重影响个人生活质量、精神状态，但是当前环境下，误诊率高、复发率高，且缺乏足够的经过充分训练的相关医师进行诊断、。
3.当前对抑郁症的诊断主要根据临床问卷、心理医生的询问观察和测试者主观描述，容易受到医生的偏见和临床经验的影响，影响诊断的准确性；同时需要心理医生付出大量时间进行诊断，效率较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种高效率、能准确获取目标用户的抑郁情绪状态数据的装置、系统、方法和存储介质。
5.一种抑郁情绪状态数据获取装置，包括：总语音数据获取模块，用于获取目标用户朗读指定语句形成的语音数据，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；总语音特征识别模块，用于将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据；第一相似度确定模块，用于根据所述目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值，所述抑郁情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。
6.在其中一个实施例中，所述装置还包括模型训练模块，所述训练模块包括：训练数据获取单元，用于获取两个抑郁症用户的语音数据和两个健康用户的语音数据；特征预测单元，用于将所述两个抑郁症用户的语音数据和所述两个健康用户的语音数据分别输入至原始总语音特征识别模型，输出对应的各总语音特征预测结果；计算单元，用于将各所述总语音特征预测结果代入预设的第一目标损失函数，得到第一损失函数值；参数调整单元，用于在所述第一损失函数值不满足预设训练停止条件时，调整所述原始总语音特征识别模型的模型参数，指示所述第一训练数据获取单元重新获取两个抑郁症用户的语音数据和两个健康用户的语音数据；训练停止单元，用于在所述第一损失函数值满足所述预设训练停止
条件时，得到所述总语音特征识别模型。
7.在其中一个实施例中，所述装置还包括第一特征参考数据获取模块，所述第一特征参考数据获取模块包括：第一总语音处理单元，用于将多个抑郁症用户的语音数据，分别输入所述总语音特征识别模型，输出多个抑郁症用户的总语音特征数据；第一总均值计算单元，用于通过对所述多个抑郁症用户的总语音特征数据计算平均值的方式获得所述抑郁症用户的总语音特征参考数据；第二总语音处理单元，用于将多个健康用户的语音数据，分别输入所述总语音特征识别模型，输出多个健康用户的总语音特征数据；第二总均值计算单元，用于通过对所述多个健康用户的总语音特征数据计算平均值的方式获得所述健康用户的总语音特征参考数据。
8.在其中一个实施例中，所述装置还包括第二特征参考数据获取模块，所述第二特征参考数据获取模块包括：第一向量集合确定单元，用于将多个抑郁症用户的语音数据，分别输入所述总语音特征识别模型，输出多个抑郁症用户的总语音特征数据，以所述多个抑郁症用户的总语音特征数据作为第一向量集合；第一中间向量确定单元，用于确定在目标坐标系中，位于所述第一向量集合中所有向量的中间位置的第一标准向量，以所述第一标准向量作为所述抑郁症用户的总语音特征参考数据；第二向量集合确定单元，用于将多个健康用户的语音数据，分别输入所述总语音特征识别模型，输出多个健康用户的总语音特征数据，以所述多个健康用户的总语音特征数据作为第二向量集合；第二中间向量确定单元，用于确定在目标坐标系中，位于所述第二向量集合中所有向量的中间位置的第二标准向量，以所述第二标准向量作为所述健康用户的总语音特征参考数据。
9.在其中一个实施例中，所述第一相似度确定模块根据确定所述第一相似度值；其中，alls表示所述第一相似度值，patternda表示所述抑郁症用户的总语音特征参考数据，patternha表示所述健康用户的总语音特征参考数据，patterns表示所述目标用户的总语音特征数据。
10.在其中一个实施例中，多个所述指定语句所具有的情绪刺激类型包括悲伤情绪刺激类型、中性情绪刺激类型和正性情绪刺激类型。
11.在其中一个实施例中，所述装置还包括：细分语音特征识别模块，用于按照所述指定语句所具有的情绪刺激类型将所述语音数据输入对应的分语音特征识别模型，输出所述目标用户的与各情绪刺激类型对应的分语音特征数据；第二相似度确定模块，用于分别根据相同情绪刺激类型对应的所述目标用户的分语音特征数据和所述抑郁症用户的分语音特征参考数据，确定第二相似度值，所述第二相似度值为所述目标用户的分语音特征数据和所述抑郁症用户的分语音特征参考数据的相似度值；第三相似度确定模块，用于根据相同情绪刺激类型对应的所述目标用户的分语音特征数据和所述健康用户的分语音特征参考数据，确定第三相似度值，所述第三相似度值为所述目标用户的分语音特征数据和所述健康用户的分语音特征参考数据的相似度值；所述抑郁情绪状态数据还包括所述第二相似度值和所述第三相似度值，或者还根据所述第二相似度值和第三相似度值确定。
12.在其中一个实施例中，所述特征预测单元还用于将所述两个抑郁症用户的同类语音数据和所述两个健康用户的同类语音数据分别输入至原始分语音特征识别模型，输出对
应的各分语音特征预测结果；所述计算单元还用于将各所述分语音特征预测结果代入预设的第二目标损失函数，得到第二损失函数值；所述参数调整单元在所述第一损失函数值或者所述第二损失函数值不满足预设训练停止条件时，调整所述原始总语音特征识别模型的模型参数或者所述原始分语音特征识别模型的模型参数，指示所述第二训练数据获取单元重新获取两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据；所述训练停止单元在所述第一损失函数值和所述第二损失函数值均满足预设训练停止条件时，得到所述总语音特征识别模型和所述分语音特征识别模型。
13.在其中一个实施例中，所述装置还包括第三特征参考数据获取模块，所述第三特征参考数据获取模块包括：抑郁症用户总语音特征获取单元，用于将抑郁症用户的语音数据输入所述总语音特征识别模型，输出抑郁症用户的总语音特征数据；抑郁症用户分语音特征获取单元，用于将对应于不同情绪刺激类型的抑郁症用户的语音数据输入对应的分语音特征识别模型，输出抑郁症用户的分语音特征数据；健康用户总语音特征获取单元，用于将健康用户的语音数据输入所述总语音特征识别模型，输出健康用户的总语音特征数据；健康用户分语音特征获取单元，用于将对应于不同情绪刺激类型的健康用户的语音数据输入对应的分语音特征识别模型，输出健康用户的分语音特征数据；全连接网络模型训练单元，用于将所述抑郁症用户的总语音特征数据、所述健康用户的总语音特征数据、所述抑郁症用户的分语音特征数据和所述健康用户的分语音特征数据作为训练输入值，训练全连接网络模型，获得训练完成的全连接网络模型；模型参数提取单元，用于获取所述训练完成的全连接网络模型的模型参数，根据所述模型参数，确定所述抑郁症用户的总语音特征参考数据、所述健康用户的总语音特征参考数据、所述抑郁症用户的分语音特征参考数据和所述健康用户的分语音特征参考数据。
14.一种抑郁情绪状态数据获取系统，包括服务器和终端；所述终端用于采集目标用户朗读指定语句形成的语音数据，将所述语音数据发送至所述服务器，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；所述服务器用于获取终端发送的所述语音数据，将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据，根据所述目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值，所述抑郁情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。
15.一种抑郁情绪状态数据获取方法，包括：获取目标用户朗读指定语句形成的语音数据，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据；根据所述目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值，所述抑郁情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。
16.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取目标用户朗读指定语句形成的语音数据，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；将所述语音数据输入预设的总语
音特征识别模型，输出所述目标用户的总语音特征数据；根据所述目标用户的总语音特征数据、预设的第一情绪状态用户的总语音特征参考数据和预设的第二情绪状态用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述第一情绪状态用户的总语音特征参考数据的相似度值，所述目标用户的情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。
17.上述抑郁情绪状态数据获取装置、系统、方法和存储介质，以目标用户的语音数据作为总语音特征识别模型的输入值，由于语音数据对应的指定语句具有不同的、确定的情绪刺激类型，具有先验的、确定的语句内容，因此输入目标用户朗读指定语句形成的语音数据能有效避免无意义的语音信息和环境噪音给神经网络模型在进行特征提取的带来影响，根据目标用户的总语音特征数据与抑郁症用户的总语音特征参考数据、健康用户的总语音特征参考数据综合确定第一相似度值，由于数据处理过程不受人为判断经验的偏差影响，能准确地获得目标用户的抑郁情绪状态数据，有利于提升抑郁症诊断结果的准确度，且可以节省人工处理时间。
附图说明
18.图1为一个实施例中抑郁情绪状态数据获取装置的功能模块示意图；
19.图2为一个实施例中涉及模型训练模块的功能单元示意图；
20.图3为一个实施例中涉及第一特征参考数据获取模块的功能单元示意图；
21.图4为一个实施例中涉及细分语音特征识别模块的示意图；
22.图5为一个实施例中涉及第二特征参考数据获取模块的功能单元示意图；
23.图6为一个实施例中涉及第三特征参考数据获取模块的功能单元示意图；
24.图7为一个实施例中抑郁情绪状态数据获取系统的示意图；
25.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
26.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
27.本技术提供的抑郁情绪状态数据获取装置，可以具有如图1所示的功能模块。在图1中，抑郁情绪状态数据获取装置100包括：
28.总语音数据获取模块101，用于获取目标用户朗读指定语句形成的语音数据，指定语句的数量为多个，至少两个指定语句具有不同的情绪刺激类型；
29.总语音特征识别模块102，用于将语音数据输入预设的总语音特征识别模型，输出目标用户的总语音特征数据；
30.第一相似度确定模块103，用于根据目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，第一相似度值为目标用户的总语音特征数据和抑郁症用户的总语音特征参考数据的相似度值，抑郁情绪状态数据包括第一相似度值或者根据第一相似度值确定。
31.关于目标用户、抑郁症用户和健康用户。目标用户是指待获取抑郁情绪状态数据
的用户。在一些情况下，他人或者目标用户自己可能希望借助抑郁情绪状态数据了解目标用户是否患上抑郁症或具有抑郁症倾向。抑郁症用户则是指被诊断出具有抑郁症的人，健康用户是指诊断结果为不具有抑郁症的人。
32.关于目标用户朗读指定语句形成的语音数据。该语音数据与目标用户朗读的指定语句相对应，一般来说，目标用户朗读完一个指定语句后，便可以得到一段或一份音频信息。在一些更具体的实施例中，可以将这些音频信息直接作为语音数据，输入预设的总语音特征识别模型；在另一些实施例中，则可以对音频信息执行背景噪声去除等预处理，进而得到预处理后的音频信息作为语音数据，然后再输入预设的总语音特征识别模型。需要注意的是，本文所说的朗读，指的是通过发音来传达指定语句的内容的动作。
33.关于指定语句和情绪刺激类型。指定语句是指具有固定内容和信息的语句，这些语句具有固定的、对应的情绪刺激类型，一个指定语句并不一定指其对应的文本内容只具有一个句号，也可以具有多个句号的。在一些更具体的实施例中，一个指定语句，可以指一段具有完整语义的语句。一般来说，指定语句的内容是预设的，目标用户可以通过观看界面或者听取声音等方式，获得指定语句的内容。另外，一个指定语句，具有一种情绪刺激类型。情绪刺激类型，一般可以包括负性情绪刺激类型、正性情绪刺激类型和中性情绪刺激类型三种。具有不同的情绪刺激类型，一般指具有这三种类型中的两种或更多。具有负性情绪刺激类型的指定语句，可以对普通人产生负性情绪的刺激效果，例如，当负性情绪刺激类型是悲伤情绪刺激类型时，对应的指定语句可以产生悲伤情绪的刺激效果，当负性情绪刺激类型是恐惧情绪刺激类型时，对应的指定语句可以产生恐惧情绪的刺激效果。具有正性情绪刺激类型的指定语句，可以对普通人产生正性情绪的刺激效果，例如当正性情绪刺激类型是高兴情绪刺激类型时，对应的指定语句可以产生高兴情绪的刺激效果。而具有中性情绪刺激类型的指定语句，则对普通人既不产生负性情绪的刺激效果，也不产生正性情绪的刺激效果。
34.为便于理解，在此列举简单示例，具有负性情绪刺激类型(如悲伤情绪刺激类型) 的指定语句的内容，可以是“刚刚，他不小心把自己最喜欢的花瓶给打碎了，在整理花瓶碎片的时候，又把手给割伤，出门去花店的路上，又突然下起了雷阵雨。”具有正性情绪刺激类型的指定语句的内容，可以是“今天天气晴朗、阳光灿烂，我和几个好友一起去踏青，路上遇到的人都言笑晏晏。”而具有中性情绪刺激类型的指定语句的内容，可以是“今天我看了一本书。”35.当然，情绪刺激类型也可以根据需要，按照科学的方法另行定义，其对应的指定语句内容也可以采用其他指定语句，在此不作特别限制。
36.本技术的方案，通过指定语句来限定语音数据的内容，可以使目标用户朗读的时长可控，进而使语音数据的大小可控；通过指定语句来限定语音数据的内容，也可以使内容质量可控。考虑到如果采取让目标用户回答问题或者聊天的方式来形成语音数据，则会由于用户说话内容及时长具有不确定性而给语音数据大小及质量带来不确定的影响，最终影响抑郁情绪状态数据的准确性，因此本技术方案采取了让目标用户朗读指定句子的方式形成语音数据。另外，具有不同情绪刺激类型的指定语句对应的语音数据具有较低的相关度，也有利于提升获取抑郁情绪状态数据的准确性。
37.关于总语音特征识别模型。总语音特征识别模型本质是一种神经网络模型，它的
作用主要是从输入的语音数据中，提取出能从总体上表示目标用户的语音特征的数据，它的输出值是总语音特征数据。不同情绪状态的用户，其语速、声调等方面语音特征会有所不同，通过输出总语音特征数据，便可以比较目标用户的语音特征值与抑郁症用户的语音特征值或/和健康用户的语音特征值之间的区别，从而有利于判断目标用户在抑郁情绪状态方面的倾向。
38.关于第一相似度值。第一相似度值用于判断目标用户的情绪状态的倾向。通过总语音特征识别模型，可以获得目标用户的总语音特征数据，根据目标用户的总语音特征数据与预设的抑郁症用户的总语音特征参考数据、预设的健康用户的总语音特征参考数据，可以确定第一相似度值，它能量化反映目标用户的情绪状态与抑郁症用户的情绪状态的偏差。补充说明，预设的抑郁症用户的总语音特征参考数据、预设的健康用户的总语音特征参考数据是两组参考数据，它们分别用于量化抑郁症用户的情绪状态和健康用户的情绪状态。这两组参考数据的来源可以是多样的，一般可以通过将抑郁症用户的语音数据、将健康用户的语音数据输入总语音特征识别模型而得到，但也不排除根据经验进行设置、调整而得到的情况。
39.关于抑郁情绪状态数据。本技术方案中，抑郁情绪状态数据用于量化或反映目标用户的情绪状态与抑郁症用户的情绪状态的偏差。在一些更具体的实施例中，可以对第一相似度值进行映射处理，确定目标用户是否具有抑郁症；当然，在一些实施例中，也可以根据第一相似度，判断目标用户的抑郁症倾向程度。
40.上述抑郁情绪状态数据获取装置，以具有不同的情绪刺激类型的指定语句对应的语音数据作为总语音特征识别模型的输入值，使不同的输入值具有较低关联度，且不同情绪刺激类型的指定语句使使得输入值的文件大小可控、内容质量可控，总体有利于获得能准确反映出目标用户语音特征的数据(即目标用户的总语音特征数据)；通过目标用户的总语音特征数据与抑郁症用户的总语音特征参考数据、健康用户的总语音特征参考数据确定第一相似度值，由于数据处理过程不受人为判断经验的偏差影响，能获得准确的抑郁情绪状态数据。
41.在一些实施例中，如图2所示，抑郁情绪状态数据获取装置100还包括模型训练模块201，模型训练模块201可以用于获得总语音特征识别模型，模型训练模块201包括：
42.训练数据获取单元2011，用于获取两个抑郁症用户的语音数据和两个健康用户的语音数据；
43.特征预测单元2012，用于将两个抑郁症用户的语音数据和两个健康用户的语音数据分别输入至原始总语音特征识别模型，输出对应的各总语音特征预测结果；
44.计算单元2013，用于将各总语音特征预测结果代入预设的第一目标损失函数，得到第一损失函数值；
45.参数调整单元2014，用于在第一损失函数值不满足预设训练停止条件时，调整原始总语音特征识别模型的模型参数，指示训练数据获取单元2011重新获取两个抑郁症用户的语音数据和两个健康用户的语音数据；
46.训练停止单元2015，用于在第一损失函数值满足预设训练停止条件时，得到总语音特征识别模型。
47.上文中，“对应的各总语音特征预测结果”，是指抑郁症用户对应的总语音特征预
测结果和健康用户对应的总语音特征预测结果。
48.第一目标损失函数，在不与本技术方案其他技术点冲突的前提下，可以采用现有技术中的一些损失函数，也可以采用下文特别列举的损失函数。
49.预设训练停止条件，包括第一损失函数值大于预设的第一损失阈值，第一损失阈值的具体取值，可以根据实际需要进行确定。
50.下文将以两个抑郁症用户的语音数据和两个健康用户的语音数据对应的训练语句具有三种情绪刺激类型的情况为例，进一步说明总语音特征识别模型的训练过程。
51.当两个抑郁症用户的语音数据和两个健康用户的语音数据对应的训练语句具有三种情绪刺激类型时，这三种情绪刺激类型可以是正性情绪刺激类型、负性情绪刺激类型和中性情绪刺激类型。此时，第一损失函数值为la，第一损失函数值可以根据公式 (1)计算得到：
[0052][0053]
公式(1)中，α1可以取值-0.5，β1可以取值0.5，当然α1和β1也可以根据需要取其他的值。cosine()表示计算输入值之间的余弦相似度值，例如 cosine(modela1(dp1,dn1,dz1),modela1(dp2,dn2,dz2))表示以modela1(dp1,dn1,dz1)和 modela1(dp2,dn2,dz2)作为输入值，计算它们之间的余弦相似度值。dp1、dn1和 dz1分别表示第一个抑郁症用户分别朗读具有正性情绪刺激类型的训练语句、具有负性情绪刺激类型的训练语句和具有中性情绪刺激类型的训练语句而形成的三个语音数据；dp2、dn2和dz2分别表示第二个抑郁症用户分别朗读具有正性情绪刺激类型的训练语句、具有负性情绪刺激类型的训练语句和具有中性情绪刺激类型的训练语句而形成的三个语音数据；hp1、hn1和hz1分别表示第一个健康用户分别朗读具有正性情绪刺激类型的训练语句、具有负性情绪刺激类型的训练语句和具有中性情绪刺激类型的训练语句而形成的三个语音数据；hp2、hn2和hz2分别表示第二个健康用户分别朗读具有正性情绪刺激类型的训练语句、具有负性情绪刺激类型的训练语句和具有中性情绪刺激类型的训练语句而形成的三个语音数据。在训练结束时，具有最新模型参数的原始总语音特征识别模型即被视为总语音特征识别模型。modela1()表示原始总语音特征识别模型，该模型的输出值为对应的各总语音特征预测结果，具体地， modela1(dp1,dn1,dz1)表示以dp1、dn1和dz1作为输入值，原始总语音特征识别模型输出的第一个抑郁症用户的总语音特征预测结果；modela1(dp2,dn2,dz2)表示以dp2、 dn2和dz2作为输入值，原始总语音特征识别模型输出的第二个抑郁症用户的总语音特征预测结果；modela1(hp1,hn1,hz1)表示以hp1、hn1和hz1作为输入值，原始总语音特征识别模型输出的第一个健康用户的总语音特征预测结果；modela1(hp2,hn2,hz2) 表示以hp2、hn2和hz2作为输入值，原始总语音特征识别模型输出的第二个健康用户的总语音特征预测结果。
[0054]
需要注意，上下文提及的训练语句，可以与目标用户朗读的指定语句内容一致，也可以不一致。训练语句本质上也是一种具有特定内容的句子，供抑郁症用户或者健康用户朗读，这种句子也具有对应的情绪刺激类型。
[0055]
在其他一些实施例中，本领域技术人员可以依照相同原理，采用两种情绪刺激类
型或者更多种情绪刺激类型的训练语句所对应的语音数据进行训练，即不排除其他一些实施例中，可以改变modela1()输入值的种类或者数量来对总语音特征识别模型进行训练。
[0056]
在一些实施例中，如图3所示，抑郁情绪状态数据获取装置100还包括第一特征参考数据获取模块301。第一特征参考数据获取模块301用于获取抑郁症用户的总语音特征参考数据和健康用户的总语音特征参考数据。第一特征参考数据获取模块301 包括：
[0057]
第一总语音处理单元3011，用于将多个抑郁症用户的语音数据，分别输入总语音特征识别模型，输出多个抑郁症用户的总语音特征数据；
[0058]
第一总均值计算单元3012，用于通过对多个抑郁症用户的总语音特征数据计算平均值的方式获得抑郁症用户的总语音特征参考数据；
[0059]
第二总语音处理单元3013，用于将多个健康用户的语音数据，分别输入总语音特征识别模型，输出多个健康用户的总语音特征数据；
[0060]
第二总均值计算单元3014，用于通过对多个健康用户的总语音特征数据计算平均值的方式获得健康用户的总语音特征参考数据。
[0061]
第一特征参考数据获取模块301能获取具有代表性的、能体现抑郁症用户总体语音特征的数据和健康用户的总体语音特征的数据，这些数据即可以作为抑郁症用户的总语音特征参考数据和健康用户的总语音特征参考数据。下文将以两个抑郁症用户的语音数据和两个健康用户的语音数据对应的训练语句具有三种情绪刺激类型的情况为例，进行展开说明。
[0062]
当抑郁症用户的语音数据和健康用户的语音数据对应的训练语句具有三种情绪刺激类型时，这三种情绪刺激类型可以是正性情绪刺激类型、负性情绪刺激类型和中性情绪刺激类型。此时，用patternda表示抑郁症用户的总语音特征参考数据，用 patternha表示健康用户的总语音特征参考数据，patternda和patternha具体分别可以根据公式(2)和公式(3)计算得到。
[0063][0064][0065]
n为预设的正整数，m为预设的正整数，mean()表示对输入值求取均值所得的结果，例如表示以作为输入值，对该输入值求取均值所得的结果。dpi、dni和dzi表示抑郁症用户分别朗读具有正性情绪刺激类型的训练语句、具有负性情绪刺激类型的训练语句和具有中性情绪刺激类型的训练语句而形成的三个语音数据；hpj、hnj和hzj表示健康用户分别朗读具有正性情绪刺激类型的训练语句、具有负性情绪刺激类型的训练语句和具有中性情绪刺激类型的训练语句而形成的三个语音数据。modela()表示总语音特征识别模型；i、j分别表示当下输入modela()的语音数据的批次。modela(dpi,dni,dzi)表示将dpi、dni 和dzi作为输入值输入总语音特征识别模型而得到的第i批次的抑郁症用户的总语音特征数据。modela(hpj,hnj,hzj)表示将hpj、hnj和hzj作为输入值输入总语音特征识别模型而得到的第j批次的健康用户的总语音特征数据。
[0066]
在其他一些实施例中，本领域技术人员可以依照相同原理，采用两种情绪刺激类型或者更多种情绪刺激类型的训练语句所对应的语音数据进行训练，即不排除其他一些实施例中，可以根据modela1()的输入值的种类或者数量来确定modela()的输入值的种类或者数量。
[0067]
在一些实施例中，第一相似度确定模块103根据公式(4)确定第一相似度值：
[0068][0069]
其中，alls表示第一相似度值，patternda表示抑郁症用户的总语音特征参考数据，patternha表示健康用户的总语音特征参考数据，patterns表示目标用户的总语音特征数据。
[0070]
在一些实施例中，patterns＝modela(sp,sn,sz)，sp、sn和sz分别表示具有正性情绪刺激类型的目标用户的语音数据、具有负性情绪刺激类型的目标用户的语音数据和具有中性情绪刺激类型的目标用户的语音数据。modela(sp,sn,sz)表示将sp、sn和sz 作为输入值输入总语音特征识别模型而得到的目标用户的总语音特征数据。
[0071]
在一些实施例中，如图4所示，抑郁情绪状态数据获取装置100还包括：
[0072]
细分语音特征识别模块401，用于按照指定语句所具有的情绪刺激类型将语音数据输入对应的分语音特征识别模型，输出目标用户的与各情绪刺激类型对应的分语音特征数据；
[0073]
第二相似度确定模块402，用于分别根据相同情绪刺激类型对应的目标用户的分语音特征数据和抑郁症用户的分语音特征参考数据，确定第二相似度值，第二相似度值为目标用户的分语音特征数据和抑郁症用户的分语音特征参考数据的相似度值；
[0074]
第三相似度确定模块403，用于分别根据相同情绪刺激类型对应的目标用户的分语音特征数据和健康用户的分语音特征参考数据，确定第三相似度值，第三相似度值为目标用户的分语音特征数据和健康用户的分语音特征参考数据的相似度值；
[0075]
抑郁情绪状态数据还包括第二相似度值和第三相似度值，或者还根据第二相似度值和第三相似度值确定。
[0076]
根据上文说明可知，抑郁情绪状态数据获取装置除了获取第一相似度值以外，还可以获取第二相似度值和第三相似度值。第二相似度值和第三相似度值的意义在于，可以从具体方面的语音特征的角度，判断目标用户的情绪状态的倾向。在这样的前提下，目标用户的抑郁情绪状态数据可以同时包括第一相似度值、第二相似度值和第三相似度值，也可以是根据第一相似度值、第二相似度值和第三相似度值进行运算，得到的其他数值。在情绪刺激类型包括负性情绪刺激类型、正性情绪刺激类型和中性情绪刺激类型三种时，分语音特征识别模型将会有对应的三个类型，即下文提及的 modelb()、modelc()和modeld()，其中，modelb()用于表示以具有负性情绪刺激类型的语音数据为输入值的分语音特征识别模型；modelc()用于表示以具有正性情绪刺激类型的语音数据作为输入值的分语音特征识别模型；modeld()用于表示以具有中性情绪刺激类型的语音数据作为输入值的分语音特征识别模型。
[0077]
在一些实施例中，多个指定语句所具有的情绪刺激类型包括悲伤情绪刺激类型、中性情绪刺激类型和正性情绪刺激类型。
[0078]
在一些实施例中，特征预测单元2012还用于将两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据分别输入至原始分语音特征识别模型，输出对应的各分语音特征预测结果；计算单元2013还用于将各分语音特征预测结果代入预设的第二目标损失函数，得到第二损失函数值；参数调整单元2014在第一损失函数值或者第二损失函数值不满足预设训练停止条件时，调整原始总语音特征识别模型的模型参数或者原始分语音特征识别模型的模型参数，指示第二训练数据获取单元重新获取两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据；训练停止单元2015在第一损失函数值和第二损失函数值均满足预设训练停止条件时，得到总语音特征识别模型和分语音特征识别模型。
[0079]
同类语音数据表示具有一种相同的情绪刺激类型的语音数据。当情绪刺激类型包括负性情绪刺激类型、正性情绪刺激类型和中性情绪刺激类型三种时，同类语音数据也对应地为三种。
[0080]
各分语音特征预测结果指的是各自的分语音特征预测结果。
[0081]
需要说明的是，分语音特征识别模型的训练和前文描述的总语音特征识别模型的训练在原理上可以是相同的，不同点在于，总语音特征识别模型的输入值是两种以上情绪刺激类型对应的语音数据，例如dpi、dni、dzi，而某一类的分语音特征识别模型的输入值则是一种情绪刺激类型的语音数据。预设训练停止条件，包括：第一损失函数值大于预设的第一损失阈值，且第二损失函数值大于预设的第二损失阈值。第一损失阈值和第二损失阈值的具体取值，可以根据实际需要进行确定。
[0082]
具体地，当两个抑郁症用户的语音数据和两个健康用户的语音数据对应的训练语句具有一种情绪刺激类型时，这一种情绪刺激类型可以是正性情绪刺激类型、负性情绪刺激类型或中性情绪刺激类型。此时，第二损失函数值为lx，可以根据公式(5)计算得到：
[0083][0084]
α2可以取值-0.5，β2可以取值0.5，当然α2和β2也可以根据需要取其他的值。 cosine()表示计算输入值之间的余弦相似度值。dx1表示第一个抑郁症用户朗读对应于某一种情绪刺激类型的训练语句而形成的语音数据；dx2表示第二个抑郁症用户朗读对应于上述的一种情绪刺激类型的训练语句而形成的语音数据；hx1表示第一个健康用户朗读对应于上述的一种情绪刺激类型的训练语句而形成的语音数据；hx2表示第二个健康用户朗读对应于上述的一种情绪刺激类型的训练语句而形成的语音数据。由此可见，dx1与dx2属于同类语音数据，hx1与hx2属于同类语音数据。modelx1() 表示原始分语音特征识别模型，该模型的输出值为对应的各分语音特征预测结果，具体地，modelx1(dx1)表示将dx1作为输入值输入原始分语音特征识别模型后，输出的第一个抑郁症用户的分语音特征预测结果；modelx1(dx2)表示将dx2作为输入值输入原始分语音特征识别模型后，输出的第二个抑郁症用户的分语音特征预测结果； modelx1(hx1)表示将hx1作为输入值输入原始分语音特征识别模型后，输出的第一个健康用户的分语音特征预测结果；modelx1(hx2)表示将hx2作为输入值输入原始分语音特征识别模型后，输出的第二个健康用户的分语音特征预测结果。
[0085]
在训练结束时，具有最新模型参数的原始分语音特征识别模型即被视为分语音特征识别模型。
[0086]
更具体地，当上述的一种情绪刺激类型为负性情绪刺激类型时，对应的原始分语
音特征识别模型modelx1()为modelb1()，对应的第二损失函数值lx具体为lb,dx1、 dx2、hx1和hx2具体分别是dn1、dn2、hn1和hn2；当上述的一种情绪刺激类型为正性情绪刺激类型时，对应的原始分语音特征识别模型modelx1()为modelc1()，对应的第二损失函数值lx具体为lc,dx1、dx2、hx1和hx2具体分别是dp1、dp2、 hp1和hp2。当上述的一种情绪刺激类型为中性情绪刺激类型时，对应的原始分语音特征识别模型modelx1()为modeld1()，对应的第二损失函数值lx具体为ld，dx1、 dx2、hx1和hx2具体分别是dz1、dz2、hz1和hz2。
[0087]
当同类语音数据与负性情绪刺激类型的指定语句相对应时，抑郁症用户的分语音特征参考数据为patternnd，目标用户的分语音特征数据为patternns,第二相似度值为 nds；当同类语音数据与负性情绪刺激类型的指定语句相对应时，抑郁症用户的分语音特征参考数据为patternpd,目标用户的分语音特征数据为patternps,第二相似度值为pds；当同类语音数据与负性情绪刺激类型的指定语句相对应时，抑郁症用户的分语音特征参考数据为patternzd,目标用户的分语音特征数据为patternzs,第二相似度值为zds。则可以根据公式(6)、公式(7)和公式(8)分别计算得到nds、pds和zds。
[0088]
nds＝cosine(patternnd,patternns)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0089]
pds＝cosine(patternpd,patternps)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0090]
zds＝cosine(patternzd,patternzs)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0091]
而patternnd、patternpd和patternzd则可以分别根据公式(9)、公式(10)和公式 (11)计算得到。
[0092][0093][0094][0095]
modelb()表示同类语音数据与负性情绪刺激类型的指定语句相对应时的分语音特征识别模型，也与modelb1()相对应；modelc()表示同类语音数据与正性情绪刺激类型的指定语句相对应时的分语音特征识别模型，也与modelc1()相对应。modeld() 表示同类语音数据与中性情绪刺激类型的指定语句相对应时的分语音特征识别模型，也与modeld1()相对应。modelb(dni)表示以dni作为输入值输入以具有负性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的抑郁症用户的分语音特征数据；modelc(dpi)表示以dpi作为输入值输入以具有正性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的抑郁症用户的分语音特征数据；modeld(dzi)表示以dzi作为输入值输入以具有中性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的抑郁症用户的分语音特征数据。关于cosine()、mean()以及dni等符号含义，可参见前文描述。在一些实施例中，patternns、patternps和patternzd则可以分别根据公式(12)、公式(13)和公式(14)计算得到。
[0096]
patternns＝modelb(sn)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0097]
patternps＝modelc(sp)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0098]
patternzs＝modeld(sz)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0099]
关于sn、sp以及sz的含义，可参见前文描述。modelb(sn)表示以sn作为输入值输入以具有负性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的目标用户的分语音特征数据；modelc(sp)表示以sp作为输入值输入以具有正性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的目标用户的分语音特征数据； modeld(sz)表示以sz作为输入值输入以具有中性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的目标用户的分语音特征数据。
[0100]
对应地，在一些实施例中，当同类语音数据与负性情绪刺激类型的指定语句相对应时，健康用户的分语音特征参考数据为patternnh，目标用户的分语音特征数据为 patternns，第三相似度值为nhs；当同类语音数据与负性情绪刺激类型的指定语句相对应时，健康用户的分语音特征参考数据为patternph,目标用户的分语音特征数据为patternps,第三相似度值为phs；当同类语音数据与负性情绪刺激类型的指定语句相对应时，健康用户的分语音特征参考数据为patternzh,目标用户的分语音特征数据为patternzs,第三相似度值为zhs。则可以根据公式(15)、公式(16)和公式(17)分别计算得到nhs、phs和zhs。
[0101]
nhs＝cosine(patternnh,patternns)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0102]
phs＝cosine(patternph,patternps)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0103]
zhs＝cosine(patternzh,patternzs)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0104]
而patternnh、patternph和patternzh则可以分别根据公式(18)、公式(19)和公式 (20)计算得到。
[0105][0106][0107][0108]
modelb(hnj)表示以hnj作为输入值输入以具有负性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的健康用户的分语音特征数据；modelc(hpj)表示以hpj作为输入值输入以具有正性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的健康用户的分语音特征数据；modeld(hzj)表示以hzj作为输入值输入以具有中性情绪刺激类型的语音数据为输入值的分语音特征识别模型而输出的健康用户的分语音特征数据。关于其他参数、符号的含义，可参见前文描述。
[0109]
在一些实施例中，如图5所示，抑郁情绪状态数据获取装置100还包括第二特征参考数据获取模块501，第二特征参考数据获取模块501包括：
[0110]
第一向量集合确定单元5011，用于将多个抑郁症用户的语音数据，分别输入总语音特征识别模型，输出多个抑郁症用户的总语音特征数据，以多个抑郁症用户的总语音特征数据作为第一向量集合；
[0111]
第一中间向量确定单元5012，用于确定在目标坐标系中，位于第一向量集合中所有向量的中间位置的第一标准向量，以第一标准向量作为抑郁症用户的总语音特征参考数据；
[0112]
第二向量集合确定单元5013，用于将多个健康用户的语音数据，分别输入总语音特征识别模型，输出多个健康用户的总语音特征数据，以多个健康用户的总语音特征数据作为第二向量集合；
[0113]
第二中间向量确定单元5014，用于确定在目标坐标系中，位于第二向量集合中所有向量的中间位置的第二标准向量，以第二标准向量作为健康用户的总语音特征参考数据。
[0114]
对应于图5所示的实施例，patternda、patternha、patternnd、patternpd、 patternzd、patternnh、patternph和patternzh等参考数据的获取方式是：在获取抑郁症用户的总语音特征参考数据时，可以通过计算modela(dpi,dni,dzi)，获得多个抑郁症用户的总语音特征数据，以多个抑郁症用户的总语音特征数据作为第一向量集合，然后确定在目标坐标系中，位于第一向量集合中所有向量的中间位置的第一标准向量，以第一标准向量作为patternda。具体地，提供一个命名为compress()的函数, patternda可以根据公式(21)计算得到。
[0115]
patternda＝compress({x|x＝modela(dpi,dni,dzi)})
ꢀꢀꢀꢀ
(21)
[0116]
compress()的原理是：以u作为第一向量集合进行输入，在u中的每个向量元素长度相等，假设u的维数为v维。另外，提供一个标准正交基集合b，也是具有v维的向量，每个向量仅有一个位置为1，其余为0。提供一个用于表示目标向量在每个基向量组成的高维平面上的投影组成的集合r，假设x和y是u中所有向量在向量a和b 组成的高维平面上的投影的最外层的两个投影向量，通过执行for(a,b)in b
×
b，a！＝ b，以及r
←
(x/|x|)+(y/|y|)与t＝∑
a∈r
(a/|a|)，以t/|t|作为compress()的返回值。其中，
←
表示把右边的向量加入左边的集合中。由此可知，patternha也可以根据上述原理求得，即：
[0117]
在获取健康用户的总语音特征参考数据时，可以通过计算modela(hpj,hnj,hzj)，获得多个健康用户的总语音特征数据，以多个健康用户的总语音特征数据作为第二向量集合，然后确定在目标坐标系中，位于第二向量集合中所有向量的中间位置的第二标准向量，以第二标准向量作为patternha，此时根据公式(22)可计算得到patternha。
[0118]
patternha＝compress({x|x＝modela(hpj,hnj,hzj)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0119]
依照该原理，可以根据公式(23)-公式(28)获得其他的参考数据。
[0120]
patternnh＝compress({x|x＝modelb(hnj)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)
[0121]
patternph＝compress({x|x＝modelc(hpj)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0122]
patternzh＝compress({x|x＝modeld(hzj)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
[0123]
patternnd＝compress({x|x＝modelb(dni)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)
[0124]
patternpd＝compress({x|x＝modelc(dpi)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(27)
[0125]
patternzd＝compress({x|x＝modeld(dzi)})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(28)
[0126]
在一些实施例中，如图6所示，抑郁情绪状态数据获取装置100还包括第三特征参考数据获取模块601，第三特征参考数据获取模块601用于获取抑郁症用户的总语音特征参考数据、健康用户的总语音特征参考数据、抑郁症用户的分语音特征参考数据和健康用户的分语音特征参考数据。第三特征参考数据获取模块601包括：
[0127]
抑郁症用户总语音特征获取单元6011，用于将抑郁症用户的语音数据输入总语音特征识别模型，输出抑郁症用户的总语音特征数据；
[0128]
抑郁症用户分语音特征获取单元6012，用于将对应于不同情绪刺激类型的抑郁症用户的语音数据输入对应的分语音特征识别模型，输出抑郁症用户的分语音特征数据；
[0129]
健康用户总语音特征获取单元6013，用于将健康用户的语音数据输入总语音特征识别模型，输出健康用户的总语音特征数据；
[0130]
健康用户分语音特征获取单元6014，用于将对应于不同情绪刺激类型的健康用户的语音数据输入对应的分语音特征识别模型，输出健康用户的分语音特征数据；
[0131]
全连接网络模型训练单元6015，用于将抑郁症用户的总语音特征数据、健康用户的总语音特征数据、抑郁症用户的分语音特征数据和健康用户的分语音特征数据作为训练输入值，训练全连接网络模型，获得训练完成的全连接网络模型；
[0132]
模型参数提取单元6016，用于获取训练完成的全连接网络模型的模型参数，根据模型参数，确定抑郁症用户的总语音特征参考数据、健康用户的总语音特征参考数据、抑郁症用户的分语音特征参考数据和健康用户的分语音特征参考数据。
[0133]
此时，具体可以将modela(dpi,dni,dzi)、modela(hpj,hnj,hzj)、modelb(hnj)、 modelc(hpj)、modeld(hzj)、modelb(dni)、modelc(dpi)、modeld(dzi)八种类型的数据作为训练输入值，输入到为全连接网络模型，以训练全连接网络模型。前述八种类型的数据中，modela(dpi,dni,dzi)表示抑郁症用户的总语音特征数据， modela(hpj,hnj,hzj)表示健康用户的总语音特征数据，modelb(hnj)、modelc(hpj)、 modeld(hzj)分别表示不同类型的健康用户的分语音特征数据，modelb(dni)、 modelc(dpi)、modeld(dzi)分别表示不同类型的抑郁症用户的分语音特征数据。
[0134]
在完成全连接网络模型训练后，获取模型参数；在模型参数中，提取出patternda、 patternha、patternnd、patternpd、patternzd、patternnh、patternph和patternzh 等八个参考数据。具体地，可以将训练输入值标准化，得到标准化后的向量，假设标准化后的向量有v维，则全连接网络模型的模型参数m为v行8列的张量，因此可以采用函数softmax(q*m)进行分类，q为标准化后的向量所对应的类型，这些类型与前述八个参考数据相对应。分类目标为判断训练输入值分别与哪个参考数据相对应。通过交叉熵函数作为损失函数进行反向梯度传播计算，更新模型参数m，具体是使用 m/|m|来替换模型参数m，经过多轮训练后，提取最新的模型参数m，其每一列数据即与为八个参考数据中的一个参考数据相对应。
[0135]
在一些实施例中，总语音特征识别模块将语音数据输入预设的总语音特征识别模型，获得初始总语音特征数据，将初始总语音特征数据的尺寸值调整至预设尺寸值后，获得目标用户的总语音特征数据并输出目标用户的总语音特征数据。具体地，可以通过在总语音特征识别模型中设置自适应池化层对初始总语音特征数据的尺寸值进行调整。同理，细分语音特征识别模块将指定语句所具有的情绪刺激类型将语音数据输入对应的分语音特征识别模型，获得目标用户的与各情绪刺激类型对应的原始分语音特征数据，将各个原始分语音特征数据的尺寸值调整至预设尺寸值后，获得目标用户的与各情绪刺激类型对应的分语音特征数据，输出目标用户的与各情绪刺激类型对应的分语音特征数据。这样，可以保证输出的目标用户的总语音特征数据和目标用户的分语音特征数据的尺寸值保持一致。
[0136]
上述抑郁情绪状态数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的
操作。
[0137]
在一些实施例中，提供了一种抑郁情绪状态数据获取系统，包括图7所示的服务器701和终端702。其中，服务器701与终端702可通过网络进行通信，终端702可以采集目标用户的语音数据，然后发送给服务器701。其中，终端702可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器 701可以用独立的服务器或者是多个服务器组成的服务器集来实现。
[0138]
在一些实施例中，终端702用于采集目标用户朗读指定语句形成的语音数据，将语音数据发送至服务器，其中，指定语句的数量为多个，至少两个指定语句具有不同的情绪刺激类型；服务器701用于获取终端发送的语音数据，将语音数据输入预设的总语音特征识别模型，输出目标用户的总语音特征数据，根据目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，第一相似度值为目标用户的总语音特征数据和抑郁症用户的总语音特征参考数据的相似度值，抑郁情绪状态数据包括第一相似度值或者根据第一相似度值确定。
[0139]
在一些实施例中，终端702执行的采集目标用户朗读指定语句形成的语音数据的步骤，包括：提示当前指定语句的内容；在检测到目标用户的确认指令后，对目标用户的声音进行录制，生成当前音频信息；判断当前音频信息是否符合采集条件；当不符合采集条件时，则提示重新朗读当前指定语句，然后返回执行检测确认指令、生成当前音频信息、判断是否符合采集条件的步骤；当符合采集条件时，以最新生成的当前音频信息作为语音数据。
[0140]
具体地，提示当前指定语句的内容和提示重新朗读当前指定语句的方式，包括但不限于终端702通过显示界面进行提示或者通过扬声器进行提示。
[0141]
在一些实施例中，判断当前音频信息是否符合采集条件，包括：将当前音频信息中对应于预设的录制时长的内容转换为文字信息，根据转换是否成功，判断是否符合采集条件；若转换成功，则视为符合采集条件；若转换失败，则视为不符合采集条件。
[0142]
在一些实施例中，判断当前音频信息是否符合采集条件，包括：将当前音频信息转换为文字信息，根据文字信息与预设的当前指定语句的参考文本信息的相似度值判断是否符合采集条件；若该相似度值小于预设的文本相似度值，则视为不符合采集条件；若该相似度值不小于预设的文本相似度值，则视为符合采集条件。
[0143]
在一些实施例中，终端702执行的采集目标用户朗读指定语句形成的语音数据的步骤，还包括：在提示当前指定语句的内容之前，提示测试句子的内容，测试句子为中性情绪刺激类型的句子；对目标用户的测试声音进行录制，生成测试音频信息；根据测试音频信息获得测试声音的声音特征值；在声音特征值大于预设录制阈值时，提示目标用户调整发音。声音特征值包括声音振幅或语速。即，在正式进行语音数据采集之前，可以先设置一个初步测试阶段，通过向目标用户提示测试句子的内容，让目标用户朗读测试句子，判断目标用户在朗读时的声音振幅或语速是否符合条件。目的是使目标用户适应要求的朗读节奏，使后续采集到的语音数据对应的朗读时长、朗读音量等参数保持在一定范围之内。
[0144]
在一些实施例中，终端702采集目标用户朗读指定语句形成的语音数据后，发送给服务器701，服务器701通过执行抑郁情绪状态数据获取方法的步骤，获得抑郁情绪状态数据后，将抑郁情绪状态数据发送给终端702，以供目标用户查看，或者还可以发送给其他终端，供有需要的人进行查看。
[0145]
关于抑郁情绪状态数据获取系统的服务器701的更多具体限定可以参见上文中对于抑郁情绪状态数据获取装置的限定，在此不再赘述。
[0146]
本技术还提供了一种抑郁情绪状态数据获取方法，以该方法应用于服务器701例进行说明，包括以下步骤：获取目标用户朗读指定语句形成的语音数据，指定语句的数量为多个，至少两个指定语句具有不同的情绪刺激类型；将语音数据输入预设的总语音特征识别模型，输出目标用户的总语音特征数据；根据目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，第一相似度值为目标用户的总语音特征数据和抑郁症用户的总语音特征参考数据的相似度值，抑郁情绪状态数据包括第一相似度值或者根据第一相似度值确定。
[0147]
在一些实施例中，训练总语音特征识别模型的步骤包括：获取两个抑郁症用户的语音数据和两个健康用户的语音数据；将两个抑郁症用户的语音数据和两个健康用户的语音数据分别输入至原始总语音特征识别模型，输出对应的各总语音特征预测结果；将各总语音特征预测结果代入预设的第一目标损失函数，得到第一损失函数值；在第一损失函数值不满足预设训练停止条件时，调整原始总语音特征识别模型的模型参数，并返回执行获取两个抑郁症用户的语音数据和两个健康用户的语音数据的步骤；在第一损失函数值满足预设训练停止条件时，得到总语音特征识别模型。
[0148]
在一些实施例中，抑郁情绪状态数据获取方法包括：将多个抑郁症用户的语音数据，分别输入总语音特征识别模型，输出多个抑郁症用户的总语音特征数据；对多个抑郁症用户的总语音特征数据计算平均值的方式获得抑郁症用户的总语音特征参考数据；将多个健康用户的语音数据，分别输入总语音特征识别模型，输出多个健康用户的总语音特征数据；对多个健康用户的总语音特征数据计算平均值的方式获得健康用户的总语音特征参考数据。
[0149]
在一些实施例中，抑郁情绪状态数据获取方法包括：将多个抑郁症用户的语音数据，分别输入总语音特征识别模型，输出多个抑郁症用户的总语音特征数据，以多个抑郁症用户的总语音特征数据作为第一向量集合；确定在目标坐标系中，位于第一向量集合中所有向量的中间位置的第一标准向量，以第一标准向量作为抑郁症用户的总语音特征参考数据；将多个健康用户的语音数据，分别输入总语音特征识别模型，输出多个健康用户的总语音特征数据，以多个健康用户的总语音特征数据作为第二向量集合；确定在目标坐标系中，位于第二向量集合中所有向量的中间位置的第二标准向量，以第二标准向量作为健康用户的总语音特征参考数据。
[0150]
在一些实施例中，根据公式(4)确定第一相似度值。
[0151]
在一些实施例中，抑郁情绪状态数据获取方法包括：按照指定语句所具有的情绪刺激类型将语音数据输入对应的分语音特征识别模型，输出目标用户的与各情绪刺激类型对应的分语音特征数据；分别根据相同情绪刺激类型对应的目标用户的分语音特征数据和抑郁症用户的分语音特征参考数据，确定第二相似度值，第二相似度值为目标用户的分语音特征数据和抑郁症用户的分语音特征参考数据的相似度值；分别根据相同情绪刺激类型对应的根据目标用户的分语音特征数据和健康用户的分语音特征参考数据，确定第三相似度值，第三相似度值为目标用户的分语音特征数据和健康用户的分语音特征参考数据的相似度值；抑郁情绪状态数据还包括第二相似度值和第三相似度值，或者还根据第二相似度
值和第三相似度值确定。
[0152]
在一些实施例中，分语音特征识别模型的训练步骤包括：获取两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据；将两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据分别输入至原始分语音特征识别模型，输出对应的各分语音特征预测结果；将各分语音特征预测结果代入预设的第二目标损失函数，得到第二损失函数值；在第一损失函数值或者第二损失函数值不满足预设训练停止条件时，调整原始总语音特征识别模型的模型参数或者原始分语音特征识别模型的模型参数，返回执行获取两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据的步骤；在第一损失函数值和第二损失函数值均满足预设训练停止条件时，得到总语音特征识别模型和分语音特征识别模型。
[0153]
在一些实施例中，抑郁情绪状态数据获取方法包括：将抑郁症用户的语音数据输入总语音特征识别模型，输出抑郁症用户的总语音特征数据；将健康用户的语音数据输入总语音特征识别模型，输出健康用户的总语音特征数据；将对应于不同情绪刺激类型的抑郁症用户的语音数据输入对应的分语音特征识别模型，输出抑郁症用户的分语音特征数据；将对应于不同情绪刺激类型的健康用户的语音数据输入对应的分语音特征识别模型，输出健康用户的分语音特征数据；将抑郁症用户的总语音特征数据、健康用户的总语音特征数据、抑郁症用户的分语音特征数据和健康用户的分语音特征数据作为训练输入值，训练全连接网络模型，获得训练完成的全连接网络模型；获取训练完成的全连接网络模型的模型参数，根据模型参数，确定抑郁症用户的总语音特征参考数据、健康用户的总语音特征参考数据、抑郁症用户的分语音特征参考数据和健康用户的分语音特征参考数据。
[0154]
对于抑郁情绪状态数据获取方法中的技术特征的更多限定，可参见上文关于抑郁情绪状态数据获取装置中相应模块或单元的描述，在此不作赘述。
[0155]
在一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，在不同实施例中，计算机程序被处理器执行时分别对应地实现前文各实施例描述的、抑郁情绪状态数据获取装置各功能模块或功能单元执行的步骤。
[0156]
本领域普通技术人员可以理解实现抑郁情绪状态数据获取方法的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，前述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom) 或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步 dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路 (synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0157]
在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为
非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。在不同实施例中，该计算机程序被处理器执行时分别对应地实现前文各实施例描述的、抑郁情绪状态数据获取装置各功能模块或功能单元执行的步骤。
[0158]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0159]
以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：

1.一种抑郁情绪状态数据获取装置，其特征在于，所述装置包括：总语音数据获取模块，用于获取目标用户朗读指定语句形成的语音数据，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；总语音特征识别模块，用于将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据；第一相似度确定模块，用于根据所述目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值，所述抑郁情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。2.根据权利要求1所述的装置，其特征在于，所述装置还包括模型训练模块，所述模型训练模块包括：训练数据获取单元，用于获取两个抑郁症用户的语音数据和两个健康用户的语音数据；特征预测单元，用于将所述两个抑郁症用户的语音数据和所述两个健康用户的语音数据分别输入至原始总语音特征识别模型，输出对应的各总语音特征预测结果；计算单元，用于将各所述总语音特征预测结果代入预设的第一目标损失函数，得到第一损失函数值；参数调整单元，用于在所述第一损失函数值不满足预设训练停止条件时，调整所述原始总语音特征识别模型的模型参数，指示所述第一训练数据获取单元重新获取两个抑郁症用户的语音数据和两个健康用户的语音数据；训练停止单元，用于在所述第一损失函数值满足所述预设训练停止条件时，得到所述总语音特征识别模型。3.根据权利要求1所述的装置，其特征在于，所述装置还包括第一特征参考数据获取模块，所述第一特征参考数据获取模块包括：第一总语音处理单元，用于将多个抑郁症用户的语音数据，分别输入所述总语音特征识别模型，输出多个抑郁症用户的总语音特征数据；第一总均值计算单元，用于通过对所述多个抑郁症用户的总语音特征数据计算平均值的方式获得所述抑郁症用户的总语音特征参考数据；第二总语音处理单元，用于将多个健康用户的语音数据，分别输入所述总语音特征识别模型，输出多个健康用户的总语音特征数据；第二总均值计算单元，用于通过对所述多个健康用户的总语音特征数据计算平均值的方式获得所述健康用户的总语音特征参考数据。4.根据权利要求1所述的装置，其特征在于，所述装置还包括第二特征参考数据获取模块，所述第二特征参考数据获取模块包括：第一向量集合确定单元，用于将多个抑郁症用户的语音数据，分别输入所述总语音特征识别模型，输出多个抑郁症用户的总语音特征数据，以所述多个抑郁症用户的总语音特征数据作为第一向量集合；第一中间向量确定单元，用于确定在目标坐标系中，位于所述第一向量集合中所有向
量的中间位置的第一标准向量，以所述第一标准向量作为所述抑郁症用户的总语音特征参考数据；第二向量集合确定单元，用于将多个健康用户的语音数据，分别输入所述总语音特征识别模型，输出多个健康用户的总语音特征数据，以所述多个健康用户的总语音特征数据作为第二向量集合；第二中间向量确定单元，用于确定在目标坐标系中，位于所述第二向量集合中所有向量的中间位置的第二标准向量，以所述第二标准向量作为所述健康用户的总语音特征参考数据。5.根据权利要求1所述的装置，其特征在于，所述第一相似度确定模块根据确定所述第一相似度值；其中，alls表示所述第一相似度值，patternda表示所述抑郁症用户的总语音特征参考数据，patternha表示所述健康用户的总语音特征参考数据，patterns表示所述目标用户的总语音特征数据。6.根据权利要求1所述的装置，其特征在于，多个所述指定语句所具有的情绪刺激类型包括悲伤情绪刺激类型、中性情绪刺激类型和正性情绪刺激类型。7.根据权利要求2所述的装置，其特征在于，所述装置还包括：细分语音特征识别模块，用于按照所述指定语句所具有的情绪刺激类型将所述语音数据输入对应的分语音特征识别模型，输出所述目标用户的与各情绪刺激类型对应的分语音特征数据；第二相似度确定模块，用于分别根据相同情绪刺激类型对应的所述目标用户的分语音特征数据和所述抑郁症用户的分语音特征参考数据，确定第二相似度值，所述第二相似度值为所述目标用户的分语音特征数据和所述抑郁症用户的分语音特征参考数据的相似度值；第三相似度确定模块，用于分别根据相同情绪刺激类型对应的所述目标用户的分语音特征数据和所述健康用户的分语音特征参考数据，确定第三相似度值，所述第三相似度值为所述目标用户的分语音特征数据和所述健康用户的分语音特征参考数据的相似度值；所述抑郁情绪状态数据还包括所述第二相似度值和所述第三相似度值，或者还根据所述第二相似度值和第三相似度值确定。8.根据权利要求7所述的装置，其特征在于包括：所述特征预测单元还用于将所述两个抑郁症用户的同类语音数据和所述两个健康用户的同类语音数据分别输入至原始分语音特征识别模型，输出对应的各分语音特征预测结果；所述计算单元还用于将各所述分语音特征预测结果代入预设的第二目标损失函数，得到第二损失函数值；所述参数调整单元在所述第一损失函数值或者所述第二损失函数值不满足所述预设训练停止条件时，调整所述原始总语音特征识别模型的模型参数或者所述原始分语音特征识别模型的模型参数，指示所述第二训练数据获取单元重新获取两个抑郁症用户的同类语音数据和两个健康用户的同类语音数据；
所述训练停止单元在所述第一损失函数值和所述第二损失函数值均满足所述预设训练停止条件时，得到所述总语音特征识别模型和所述分语音特征识别模型。9.根据权利要求7所述的装置，其特征在于，所述装置还包括第三特征参考数据获取模块，所述第三特征参考数据获取模块包括：抑郁症用户总语音特征获取单元，用于将抑郁症用户的语音数据输入所述总语音特征识别模型，输出抑郁症用户的总语音特征数据；抑郁症用户分语音特征获取单元，用于将对应于不同情绪刺激类型的抑郁症用户的语音数据输入对应的分语音特征识别模型，输出抑郁症用户的分语音特征数据；健康用户总语音特征获取单元，用于将健康用户的语音数据输入所述总语音特征识别模型，输出健康用户的总语音特征数据；健康用户分语音特征获取单元，用于将对应于不同情绪刺激类型的健康用户的语音数据输入对应的分语音特征识别模型，输出健康用户的分语音特征数据；全连接网络模型训练单元，用于将所述抑郁症用户的总语音特征数据、所述健康用户的总语音特征数据、所述抑郁症用户的分语音特征数据和所述健康用户的分语音特征数据作为训练输入值，训练全连接网络模型，获得训练完成的全连接网络模型；模型参数提取单元，用于获取所述训练完成的全连接网络模型的模型参数，根据所述模型参数，确定所述抑郁症用户的总语音特征参考数据、所述健康用户的总语音特征参考数据、所述抑郁症用户的分语音特征参考数据和所述健康用户的分语音特征参考数据。10.一种抑郁情绪状态数据获取系统，其特征在于，包括服务器和终端；所述终端用于采集目标用户朗读指定语句形成的语音数据，将所述语音数据发送至所述服务器，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；所述服务器用于获取终端发送的所述语音数据，将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据，根据所述目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值，所述抑郁情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。11.一种抑郁情绪状态数据获取方法，其特征在于，包括：获取目标用户朗读指定语句形成的语音数据，所述指定语句的数量为多个，至少两个所述指定语句具有不同的情绪刺激类型；将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据；根据所述目标用户的总语音特征数据、预设的抑郁症用户的总语音特征参考数据和预设的健康用户的总语音特征参考数据，确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值，所述抑郁情绪状态数据包括所述第一相似度值或者根据所述第一相似度值确定。12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求11所述的方法的步骤。

技术总结

本申请涉及一种抑郁情绪状态数据获取装置、系统、方法和存储介质。该装置包括：总语音数据获取模块，用于获取目标用户朗读指定语句形成的语音数据；总语音特征识别模块，用于将所述语音数据输入预设的总语音特征识别模型，输出所述目标用户的总语音特征数据；第一相似度确定模块，用于确定第一相似度值，所述第一相似度值为所述目标用户的总语音特征数据和所述抑郁症用户的总语音特征参考数据的相似度值。采用本装置能够能准确地获得目标用户的抑郁情绪状态数据，且可以节省人工处理时间。且可以节省人工处理时间。且可以节省人工处理时间。