基于语音分析的阿尔兹海默症的检测方法及装置与流程

1.本技术涉及检测技术领域，特别涉及一种基于语音分析的阿尔兹海默症的检测方法、训练方法、检测装置、训练装置、电子设备及非易失性计算机可读存储介质。

背景技术：

2.核磁共振成像(magnetic resonance imaging，mri)扫描需要依赖重型的医疗设备，受制于此，基于mri的阿尔兹海默症(alzheimer’s disease，ad)和轻度认知受损(mild cognitiveimpairment，mci)识别无法更广泛的应用于医院以外的场景。

技术实现要素：

3.本技术实施方式提供了一种基于语音分析的阿尔兹海默症的检测方法、训练方法、检测装置、训练装置、电子设备及非易失性计算机可读存储介质。
4.本技术实施例提供一种基于语音分析的阿尔兹海默症的检测方法。所述检测方法包括：获取语音信息，所述语音信息包括用户执行预设的描述任务的语音；将所述语音信息转换为文本信息；提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测特征向量；及将所述待测特征向量输入到预设的检测模型中，以输出检测结果。
5.本技术实施例提供一种训练方法。所述训练方法包括：获取训练样本，所述训练样本包括语音样本和由所述语音样本转换而成的文本样本，所述训练样本包括标签信息，所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；提取所述语音样本的多个第一特征，以生成第一特征向量、及提取所述文本样本的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测样本特征向量；输入待测样本特征及所述标签信息到预设的检测模型，以训练所述检测模型至收敛。
6.本技术实施方式提供一种检测装置。所述检测装置包括第一获取模块、转换模块、第一提取模块、第一拼接模块和检测模块。所述第一获取模块用于获取语音信息，所述语音信息包括用户执行预设的描述任务的语音；所述转换模块用于将所述语音信息转换为文本信息；所述第一提取模块用于提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量；所述第一拼接模块用于拼接所述第一特征向量和所述第二特征向量，以生成待测特征向量；及所述检测模块用于将所述待测特征向量输入到预设的检测模型中，以输出检测结果。
7.本技术实施方式提供一种训练装置。所述训练装置包括第二获取模块、第二提取模块、第二拼接模块及训练模块。所述第二获取模块用于获取训练样本，所述训练样本包括语音样本和由所述语音样本转换而成的文本样本，所述训练样本包括标签信息，所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；所述第二提取模块用于提取所述语音样本的多个第一特征，以生成第一特征向量、及提取所述文本样本的多个第二特
征，以生成第二特征向量；所述第二拼接模块用于拼接所述第一特征向量和所述第二特征向量，以生成待测样本特征向量；所述训练模块用于输入待测样本特征及所述标签信息到预设的检测模型，以训练所述检测模型至收敛。
8.本技术实施方式提供一种电子设备。所述电子设备包括处理器，所述处理器用于获取语音信息，所述语音信息包括用户执行预设的描述任务的语音；将所述语音信息转换为文本信息；提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测特征向量；及将所述待测特征向量输入到预设的检测模型中，以输出检测结果。或获取训练样本，所述训练样本包括语音样本和由所述语音样本转换而成的文本样本，所述训练样本包括标签信息，所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；提取所述语音样本的多个第一特征，以生成第一特征向量、及提取所述文本样本的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测样本特征向量；输入待测样本特征及所述标签信息到预设的检测模型，以训练所述检测模型至收敛。
9.本技术实施方式提供一种非易失性计算机可读存储介质，其上存储有计算机程序。该计算机程序被处理器执行时实现检测方法或训练方法。所述检测方法包括：获取语音信息，所述语音信息包括用户执行预设的描述任务的语音；将所述语音信息转换为文本信息；提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测特征向量；及将所述待测特征向量输入到预设的检测模型中，以输出检测结果。所述训练方法包括获取训练样本，所述训练样本包括语音样本和由所述语音样本转换而成的文本样本，所述训练样本包括标签信息，所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；提取所述语音样本的多个第一特征，以生成第一特征向量、及提取所述文本样本的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测样本特征向量；输入待测样本特征及所述标签信息到预设的检测模型，以训练所述检测模型至收敛。
10.本技术中基于语音分析的阿尔兹海默症的检测方法、训练方法、检测装置、训练装置、电子设备及非易失性计算机可读存储介质中，通过获取用户执行预设描述任务的语音信息，并将语音信息转化为文本信息，通过对语音信息和文本信息分别进行特征提取，最后将提取并拼接的待测特征向量输入到检测模型，以输出检测结果，从而判断用户患有ad、mci等的概率，能够被部署在任何具备麦克风的电子设备上，因此可被广泛应用于各种场景。且通过语音信息和文本信息分别得到第一特征向量和第二特征向量，以拼接得到待测特征向量进行检测，通过文本和语音融合的方式可以提取到更多的特征信息，可排除语音采集过程中因客观原因造成的数据不完整的问题，提升检测模型的准确性。
11.本技术实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
12.本技术的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中
将变得明显和容易理解，其中：
13.图1是本技术某些实施方式的检测方法的流程示意图；
14.图2是本技术某些实施方式的检测方法的预设图像的示意图；
15.图3是本技术某些实施方式的检测方法的原理示意图；
16.图4是本技术某些实施方式的训练方法的流程示意图；
17.图5是本技术某些实施方式的检测装置的模块示意图；
18.图6是本技术某些实施方式的训练装置的模块示意图；
19.图7是本技术某些实施方式的电子设备的平面示意图；及
20.图8是本技术某些实施方式的非易失性计算机可读存储介质与处理器的交互示意图。
具体实施方式
21.下面详细描述本技术的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本技术的实施方式，而不能理解为对本技术的实施方式的限制。
22.下面首先对本技术出现的名词进行解释：
23.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
24.深度学习(deep learning，dl)：是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。
25.阿尔兹海默症(alzheimer’s disease，ad)俗称老年痴呆，是一种发病进程缓慢、随着时间不断恶化的神经退化性疾病。据统计，截至2019年，中国阿尔兹海默症患病人数超过1000万，是全球阿尔兹海默症患者数目最多的国家。该病症会导致患者神经元及其神经连接逐渐损伤，最终死于该病或该病的并发症。ad的早期阶段为轻度认知受损(mildcognitive impairment，mci)，该阶段患者具备正常的日常生活能力，但存在进行性认知功能下降。从的角度，ad具有不可逆的特点，在上存在较大困难，但若能在mci 阶段对患者进行则可有效延缓痴呆的发生。
26.自动语音识别(automatic speech recognition，asr)技术的目标是让计算机能够“听写
”ꢀ
出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(speech recognition)或计算机语音识别
(computerspeech recognition)。
27.基于transformer的双向编码器表示，(bidirectionalencoder representations fromtransformer，bert)，是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的掩码语言模型，以致能生成深度的双向语言表征。bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的描述，即：文本的语义表示。
28.卷积神经网络(convolutional neural networks，cnn)是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。
29.请参阅图1，本技术实施方式的基于语音分析的阿尔兹海默症的检测方法包括：
30.步骤011：获取语音信息，语音信息包括用户执行预设的描述任务的语音。
31.具体地，ad造成的认知功能受损会影响语言表述能力，进而体现在语言表达的过程和内容中。因此，通过采集用户执行预设的描述任务的语音(如通过电子设备的麦克风采集语音)，以得到语音信息，基于语音分析的算法识别通过检验使用者的语言表述能力，进而评估使用者的认知功能受损程度，从而基于语音信息来进行ad和mci的检测。
32.其中，预设的描述任务可包括描述预设图像的内容和在预设时长内描述目标类型的不同目标对象的名称。可以理解，认知功能受损会影响对预设图像的描述准确性，对于图像中的内容，认知功能受损越严重，描述的准确性就越差，如图2所示，在执行描述任务时，电子设备的显示屏可显示预设图像，正常用户和认知功能受损的用户对该预设图像的描述准确性显然是不同的；同样地，认知功能受损也会影响描述流畅性，例如，在预设时长内描述目标类型的不同目标对象的名称可以是在预设时长(如30秒、1分钟、2分钟等)内说出尽量多的动物名称。因此，通过采集用户执行预设描述任务的语音信息，能够用于对认知功能受损程度的检测，从而检测出用户患有ad和mci的概率。
33.请结合图3，步骤012：将语音信息转换为文本信息。
34.从深度学习的检测模型的原理上来说，在梯度下降的训练过程中，模型会自行修正参数来表达不同特征对于检测模型输出的检测结果的影响，因此更多的有效信息能提高检测模型的泛化能力，减少误判。因此，将语音信息转换为文本信息，语音信息和文本信息均包含了用户执行预设的描述任务时的语音内容，能够得到更多不同的角度的有效信息。
35.其中，将语音信息转换为文本信息可通过asr来实现，asr来将语音信息转换为文本信息时不仅能够得到每个语音对应的文字，而且每个文字的音调信息同样能够得到，从而转换出更为丰富且准确的文本信息。
36.步骤013：提取语音信息的多个第一特征，以生成第一特征向量、及提取文本信息的多个第二特征，以生成第二特征向量。
37.具体地，在获取到用户执行描述任务后的语音信息及文本信息后，即可进行特征提取操作。从语音信息中提取多个第一特征，以生成第一特征向量；从文本信息中提取多个第二特征，以生成第二特征向量。
38.其中，进行语音信息的特征提取可通过卷积神经网络来进行，通过卷积神经网络
采集语音中的停顿信息、语音的连续性信息等语音特征，以得到多个第一特征，然后经过池化层、 relu激活函数以及sigmoid函数激活函数的全连接层，最终将采集的语音特征转换为[n*100] 的第一特征向量，其中，n为预设值，可根据的单个第一特征中最大长度的特征确定，以保证所有第一特征形成的特征向量能够包含所有特征的所有信息。
[0039]
其中，在识别语音信息中的停顿信息和语音的连续性信息时，首先识别语音信息中不同语句之间的停顿时长，以确定停顿信息，例如停顿信息包括不同停顿时长的停顿的数量；可以理解，停顿的数量以及时长越久，说明用户的认知功能受损越严重，反之则说明认知功能受损较轻。然后，根据多个停顿时长的方差，确定语音的连续性信息，如确定所有停顿时长的方差以表示语音的连续性，可以理解，方差越小，说明用户在说话时的停顿一致性较好，表示用户的语音连续性较好，而方差越大，则说明用户在语音时的停顿一致性较差，表示用户的语音连续性较差。如此，通过提取与检测认知功能受损程度有关的多个语音特征，能够提高对ad、mci的检测准确性。
[0040]
文本信息的特征提取可通过基于bert模型建立的迁移模型来进行，提取文本信息中的词性信息、重复词汇信息和无意义词汇信息等文本特征，以得到多个第二特征。然后多个第二特征经过特征处理，同样可被转换成了[m*100]维度的第二特征向量，其中，m为预设值，可根据的单个第二特征中最大长度的特征确定，以保证所有第二特征形成的特征向量能够包含所有特征的所有信息。
[0041]
其中，在识别文本信息中的词性信息、重复词汇信息和无意义词汇信息，以作为多个第二特征时，可先识别文本信息中的不同词性的词汇的数量，以作为词性信息，可以理解，文本信息中包含了各种不同词性的词汇，如名词、动词等，认知功能受损越严重可能越倾向于使用某种词性的词汇，因此，通过提取词性信息的特征，能够提高检测准确性。同样地，可识别文本信息中的不同词汇的重复次数，以作为重复词汇信息，如统计文本中每个词汇的重复次数，可以理解，认知功能受损越严重的患者，可能对于词汇的重复次数越多；最后，可识别文本信息中的无意义词汇的数量，以作为无意义词汇信息，文本中可能存在无意义的词汇，如“啊”、“嗯”等，对于认知功能受损越严重的患者来说，越容易说出大量的无意义词汇。如此，通过提取与检测认知功能受损程度有关的多个文本特征，能够提高对ad、mci 的检测准确性。
[0042]
可以理解，asr、cnn、基于bert模型建立的迁移模型及检测模型可均部署在电子设备中，从而使得单个电子设备即可实现ad及mci的检测。
[0043]
步骤014：拼接第一特征向量和第二特征向量，以生成待测特征向量。
[0044]
具体地，本技术中，特征的时序性基本不会影响检测准确性，因此，在进行第一特征向量和第二特征向量的拼接时，可将第一特征向量和第二特征向量直接进行拼接成完整矩阵即可，如[n*100]的第一特征向量和[m*100]的第二特征向量拼接后，可得到[(m+n)*100]的待测特征向量，以进行后续的检测。
[0045]
步骤015：将待测特征向量输入到预设的检测模型中，以输出检测结果。
[0046]
具体地，在得到待测特征向量后，即可将待测特征向量输入到预设的检测模型中，即可输出对ad及mci的检测结果，例如检测结果包括正常概率、轻度认知障碍概率和阿兹海默症概率，如此，可直观的指示用户患有ad、mci的概率，帮助用户提早发现，从而有利于对ad、mci的。其中，检测模型为提前训练好的分类模型，能够通过检测模型中的全
连接网络处理待测特征向量，以输出正常概率、轻度认知障碍概率和阿兹海默症概率。
[0047]
本技术中检测方法通过获取用户执行预设描述任务的语音信息，并将语音信息转化为文本信息，通过提取语音信息和文本信息中与ad及mci有关的特征，并将提取并拼接的待测特征向量输入到检测模型，以输出检测结果，从而判断用户患有ad、mci等的概率，能够被部署在任何具备麦克风的电子设备上，因此可被广泛应用于各种场景。且通过语音信息和文本信息分别得到第一特征向量和第二特征向量，以拼接得到待测特征向量进行检测，通过文本和语音融合的方式可以提取到更多的特征信息，可排除语音采集过程中因客观原因造成的数据不完整的问题，提升检测模型的准确性。
[0048]
请参阅图4，本技术还提供一种训练方法，训练方法包括：
[0049]
步骤021：获取训练样本，训练样本包括语音样本和由语音样本转换而成的文本样本，训练样本包括标签信息，标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率。
[0050]
为了进行检测模型的训练，需要提前获取大量的训练样本，训练样本包含了患有ad、患有mci、以及正常的三类不同患者的语音样本，以及由语音样本通过asr转换而成的文本样本，训练样本包含了标签信息，以指示训练样本对应的患者真实的正常概率、轻度认知障碍概率和阿兹海默症概率，如此，通过训练样本，能够训练检测模型，以使得检测模型能够根据每个患者输入的语音信息，输出正常概率、轻度认知障碍概率和阿兹海默症概率，实现对ad及mci的检测。
[0051]
步骤022：提取语音样本的多个第一特征，以生成第一特征向量、及提取文本样本的多个第二特征，以生成第二特征向量。
[0052]
步骤023：拼接第一特征向量和第二特征向量，以生成待测样本特征向量；
[0053]
步骤022和步骤023的具体描述请分别参阅步骤013和步骤014，两者特征提取及生成特征向量的方案基本相同，在此不再赘述。
[0054]
步骤024：输入待测样本特征及标签信息到预设的检测模型，以训练检测模型至收敛。
[0055]
在得到待测样本的特征向量后，即可将待测样本特征向量输入到预设的检测模型中，检测模型会输出最初的检测结果，然后根据检测结果和待测样本特征向量对应的标签信息计算损失值，如将检测结果中的正常概率、轻度认知障碍概率和阿兹海默症概率分别与标签信息中的正常概率、轻度认知障碍概率和阿兹海默症概率作差，得到三个差值，以确定损失值，根据损失值来调整检测模型的参数，使得检测模型输出的检测结果和对应的标签信息之间的损失值逐渐降低，直至降低到预设阈值，即可认为检测模型收敛。
[0056]
如此，通过融合了语音特征和文本特征的待测样本进行训练，能够提高训练至收敛的检测模型的准确性。
[0057]
为便于更好的实施本技术实施例的检测方法，本技术实施例还提供一种检测装置10。请参阅图5，该检测装置10可以包括：
[0058]
第一获取模块11，用于获取语音信息，语音信息包括用户执行预设的描述任务的语音；
[0059]
转换模块12，用于将语音信息转换为文本信息；
[0060]
第一提取模块13，用于提取语音信息的多个第一特征，以生成第一特征向量、及提
取文本信息的多个第二特征，以生成第二特征向量；
[0061]
第一提取模块13具体用于：
[0062]
基于预设的迁移模型提取语音信息的多个第一特征，以生成第一特征向量、及基于预设的卷积神经网络模型提取文本信息的多个第二特征，以生成第二特征向量。
[0063]
第一提取模块13具体还用于：
[0064]
提取语音信息中的停顿信息和语音的连续性信息，以作为多个第一特征；
[0065]
提取文本信息中的词性信息、重复词汇信息和无意义词汇信息，以作为多个第二特征。
[0066]
第一提取模块13具体还用于：
[0067]
识别语音信息中不同语句之间的停顿时长，以确定停顿信息；及
[0068]
根据多个停顿时长的方差，确定语音的连续性信息；
[0069]
识别文本信息中的不同词性的词汇的数量，以作为词性信息；
[0070]
识别文本信息中的不同词汇的重复次数，以作为重复词汇信息；及
[0071]
识别文本信息中的无意义词汇的数量，以作为无意义词汇信息。
[0072]
第一拼接模块14，用于拼接第一特征向量和第二特征向量，以生成待测特征向量；
[0073]
检测模块15，用于将待测特征向量输入到预设的检测模型中，以输出检测结果。
[0074]
检测模块15具体还用于通过检测模型中的全连接网络处理待测特征向量，以输出正常概率、轻度认知障碍概率和阿兹海默症概率。
[0075]
为便于更好的实施本技术实施例的训练方法，本技术实施例还提供一种训练装置20。请参阅图6，该训练装置20可以包括：
[0076]
第二获取模块21，用于获取训练样本，训练样本包括语音样本和由语音样本转换而成的文本样本，训练样本包括标签信息，标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；
[0077]
第二提取模块22，用于提取语音样本的多个第一特征，以生成第一特征向量、及提取文本样本的多个第二特征，以生成第二特征向量；
[0078]
第二拼接模块23，用于拼接第一特征向量和第二特征向量，以生成待测样本特征向量；
[0079]
训练模块24，用于输入待测样本特征及标签信息到预设的检测模型，以训练检测模型至收敛。
[0080]
上述检测装置10和训练装置20中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各个模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个模块对应的操作。
[0081]
请参阅图7，本技术实施方式的电子设备100包括处理器30。处理器30用于执行上述任意一种实施方式的检测方法或训练方法，为了简洁，在此不再赘述。
[0082]
其中，电子设备100可以是移动电话，智能电话，个人数字助理(personal digital assistants，pda)，平板电脑和视频游戏设备，便携式终端(例如笔记本电脑)，或较大尺寸的设备(例如台式计算机和电视)。
[0083]
请参阅图8，本技术实施方式还提供了一种计算机可读存储介质300，其上存储有
计算机程序310，计算机程序310被处理器30执行的情况下，实现上述任意一种实施方式的检测方法或训练方法的步骤，为了简洁，在此不再赘述。
[0084]
可以理解，计算机程序310包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、以及软件分发介质等。
[0085]
在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、
ꢀ“
示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0086]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
[0087]
尽管上面已经示出和描述了本技术的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施方式进行变化、修改、替换和变型。

技术特征：

1.一种基于语音分析的阿尔兹海默症的检测方法，其特征在于，包括：获取语音信息，所述语音信息包括用户执行预设的描述任务的语音；将所述语音信息转换为文本信息；提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测特征向量；及将所述待测特征向量输入到预设的检测模型中，以输出检测结果。2.根据权利要求1所述的检测方法，其特征在于，所述提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量，包括：基于预设的卷积神经网络模型提取所述语音信息的多个第一特征，以生成所述第一特征向量、及基于预设的迁移模型提取所述文本信息的多个第二特征，以生成第二特征向量。3.根据权利要求1所述的检测方法，其特征在于，所述提取所述语音信息的多个第一特征，包括：提取所述语音信息中的停顿信息和语音的连续性信息，以作为多个所述第一特征；所述提取所述文本信息的多个第二特征，包括：提取所述文本信息中的词性信息、重复词汇信息和无意义词汇信息，以作为多个所述第二特征。4.根据权利要求3所述的检测方法，其特征在于，所述提取所述语音信息中的停顿信息和语音的连续性信息，以作为多个所述第一特征；包括：识别所述语音信息中不同语句之间的停顿时长，以确定所述停顿信息；及根据多个所述停顿时长的方差，确定语音的连续性信息；所述提取所述文本信息中的词性信息、重复词汇信息和无意义词汇信息，以作为多个所述第二特征，包括：识别所述文本信息中的不同词性的词汇的数量，以作为所述词性信息；识别所述文本信息中的不同词汇的重复次数，以作为所述重复词汇信息；及识别所述文本信息中的无意义词汇的数量，以作为所述无意义词汇信息。5.根据权利要求1所述的检测方法，其特征在于，所述预设的描述任务包括描述预设图像的内容和在预设时长内描述目标类型的不同目标对象的名称。6.根据权利要求1所述的检测方法，其特征在于，所述检测结果包括正常概率、轻度认知障碍概率和阿兹海默症概率，所述将所述待测特征向量输入到预设的检测模型中，以输出检测结果，包括：通过所述检测模型中的全连接网络处理所述待测特征向量，以输出所述正常概率、所述轻度认知障碍概率和所述阿兹海默症概率。7.一种训练方法，其特征在于，包括：获取训练样本，所述训练样本包括语音样本和由所述语音样本转换而成的文本样本，所述训练样本包括标签信息，所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；提取所述语音样本的多个第一特征，以生成第一特征向量、及提取所述文本样本的多
个第二特征，以生成第二特征向量；拼接所述第一特征向量和所述第二特征向量，以生成待测样本特征向量；输入待测样本特征及所述标签信息到预设的检测模型，以训练所述检测模型至收敛。8.一种检测装置，其特征在于，包括：第一获取模块，用于获取语音信息，所述语音信息包括用户执行预设的描述任务的语音；转换模块，用于将所述语音信息转换为文本信息；第一提取模块，用于提取所述语音信息的多个第一特征，以生成第一特征向量、及提取所述文本信息的多个第二特征，以生成第二特征向量；第一拼接模块，用于拼接所述第一特征向量和所述第二特征向量，以生成待测特征向量；及检测模块，用于将所述待测特征向量输入到预设的检测模型中，以输出检测结果。9.一种训练装置，其特征在于，包括第二获取模块，用于获取训练样本，所述训练样本包括语音样本和由所述语音样本转换而成的文本样本，所述训练样本包括标签信息，所述标签信息包括正常概率、轻度认知障碍概率和阿兹海默症概率；第二提取模块，用于提取所述语音样本的多个第一特征，以生成第一特征向量、及提取所述文本样本的多个第二特征，以生成第二特征向量；第二拼接模块，用于拼接所述第一特征向量和所述第二特征向量，以生成待测样本特征向量；训练模块，用于输入待测样本特征及所述标签信息到预设的检测模型，以训练所述检测模型至收敛。10.一种电子设备，其特征在于，包括处理器，所述处理器用于执行权利要求1-6任意一项所述的检测方法；或执行权利要求7所述的训练方法。11.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-6任意一项所述的检测方法；或执行权利要求7所述的训练方法。

技术总结

本申请提供一种基于语音分析的阿尔兹海默症的检测方法、检测装置、训练方法、训练装置、电子设备及非易失性计算机可读存储介质。方法包括：获取语音信息，语音信息包括用户执行预设的描述任务的语音；将语音信息转换为文本信息；提取语音信息的多个第一特征，以生成第一特征向量、及提取文本信息的多个第二特征，以生成第二特征向量；拼接第一特征向量和第二特征向量，以生成待测特征向量；及将待测特征向量输入到预设的检测模型中，以输出检测结果。能够被部署在任何具备麦克风的电子设备上，可被广泛应用于各种场景。通过文本和语音融合的方式可以提取到更多的特征信息，提升检测模型的准确性。测模型的准确性。测模型的准确性。