检测方法、语音交互检测装置、设备及非易失性存储介质与流程

1.本发明涉及语音交互领域，具体而言，涉及一种检测方法、语音交互检测装置、设备及非易失性存储介质。

背景技术：

2.随着语音识别技术，自然语音处理技术，语音合成技术的发展，以语音识别、处理、合成为核心的语音交互技术产品已经涉及家电、通讯、汽车电子、医疗、家庭服务、电子消费市场、工业等各个领域。语音交互产品通常由语音交互硬件设备和语音交互服务系统云平台组成，两者通过网络连接为用户提供定制化的语音交互服务。在语音交互产品研发和测试过程中，会对语音交互产品进行响应方面的各项测试，语音响应的效果直接影响产品本身的价值，如何能够及时发现并解决语音响应方面的各种问题，这对于缩短研发周期、减少后续的生产成本、提高产品质量和生产效率有着至关重要的作用。
3.目前，基于在语音交互产品研发及测试过程中涉及的语音设备响应功能和性能检测方面，存在以下技术问题：
4.现有的检测方法是基于纯人工或者半自动化的方式对设备的响应进行检测。在该方式下，检测人员需时刻与语音设备保持交互状态，对语音交互指令测试集(包括唤醒语音指令测试集和技能命令语音指令测试集)进行口述播报，检测人员在各种测试场景下时刻与待测语音设备保持交互状态，随着测试样本的增多，检测人员的工作量也不断加大，存在口述播报错误的概率也不断增加，存在人工测试效率低、成本高，检测结果可靠性低等问题。
5.现有的检测方法没有以自动化的方式对响应结果数据进行实时筛选及提取，错误统计分析判断，而是通过人为地去判定及统计分析各种错误问题，不能根据实际的响应数据在测试结果输出中自动判定各种功能错误和性能缺陷，存在设备检测结果不够全面直观，检测覆盖范围小等问题。

技术实现要素：

6.本发明的主要目的在于提供一种检测方法、语音交互检测装置、设备及非易失性存储介质，以解决现有技术中由于语音交互设备的响应检测方法自动化程度较低所导致的测试效率低、成本高，检测结果可靠性低的问题。
7.为了实现上述目的，根据本发明的第一个方面，提供了一种语音交互设备的检测方法，包括：获取识别响应检测指令；控制语音播放模块播放第一唤醒音频文件；获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，语音交互设备唤醒成功，否则语音交互设备唤醒失败；在语音交互设备唤醒成功之后，控制语音播放模块播放技能命令音频文件，获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据，根据第二响应数据以及语
音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，判断语音交互设备识别响应检测成功，否则判断语音交互设备识别响应检测失败。
8.进一步地，当进行离线识别响应检测时，第二响应数据为语音交互设备根据技能命令音频文件所生成的。
9.进一步地，当进行离线识别响应检测时，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功的方法包括：当第二响应数据中包含与技能命令音频文件相对应的标准文本相同的第二预设信息且第二响应时长小于第二预设时长时，判断语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败。
10.进一步地，当进行在线识别响应检测时，获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据的方法包括：通过语音交互设备将技能命令音频文件发送给语音交互系统云平台；利用语音交互系统云平台根据技能命令音频文件生成第二响应数据，并将第二响应数据发送至语音交互设备，以使语音交互设备发送第二响应数据。
11.进一步地，利用语音交互系统云平台根据技能命令音频文件生成第二响应数据，并将第二响应数据发送至语音交互设备的方法包括：通过语音交互系统云平台的asr模块将技能命令音频文件转化为文本信息；通过语音交互系统云平台的nlu模块对文本信息进行语意理解并生成响应文本信息；通过语音交互系统云平台的tts模块将响应文本信息转化为响应音频文件；通过语音交互系统云平台将文本信息、响应文本信息和响应音频文件均发送给语音交互设备；其中，第二响应数据包括文本信息、响应文本信息和响应音频文件。
12.进一步地，当进行在线识别响应检测时，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功的方法包括：当第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息且第二响应时长小于第二预设时长时，语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败。
13.进一步地，语音交互设备的检测方法还包括：获取语音指令测试集，并对语音指令测试集进行领域类别划分；采用邻近算法对语音指令测试集的领域类别划分进行机器学习训练，并获得训练后的领域模型；当进行在线识别响应检测时，第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息的判定方法包括：根据领域模型采用邻近算法对第二响应数据中的文本进行归类判定，当归类判定正确时，判断第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息；否则，第二响应数据中未包含与技能命令音频文件相对应的语义准确的第二预设信息。
14.进一步地，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功的方法包括：根据第二响应数据中的文本以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功，当文本为与技能命令音频文件相对应的语义准确的第二预设信息且第二响应时长小于第二预设时长时，语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败；其中，文本包括第一领域文本和第一意图文本；语音交互设备的检测方法还包括：将第二响应数据中的文本发送至语音交互系统云平台进行二次语义理解；通过语音交互系统云平台的nlu模块将接收到的第二响应数据中的文本划分为第二领域文本和第二意图文本；获取第二领域文本和第二意图文本，并对
第一领域文本和第二领域文本进行对比校验，对第一意图文本和第二意图文本进行对比校验；当第一领域文本和第二领域文本相同且第一意图文本和第二意图文本相同时，语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败。
15.进一步地，语音交互设备的检测方法还包括：重复执行多次获取识别响应检测指令之后的步骤；其中，语音播放模块循环播放相同的第一唤醒音频文件，语音播放模块顺序播放不同的技能命令音频文件；记录多次识别响应检测结果，并根据多次识别响应检测结果计算出本轮识别响应检测的识别率。
16.进一步地，记录多次识别响应检测结果，并根据多次识别响应检测结果计算出本轮识别响应检测的识别率的方法包括：记录各次识别响应检测为失败或成功，以及各个测试环节的中间结果；并在报表中输出各次识别响应检测结果、各个测试环节的中间结果以及本轮识别响应检测的识别率；其中，中间结果包括识别响应检测失败的错误类型；当始终未获取到第一响应数据时，记录识别响应检测失败并记录错误类型为唤醒失败；当在第一预设时长后获取到第一响应数据时，记录识别响应检测失败并记录错误类型为唤醒过慢；当唤醒成功但在第二预设时长内并未接收到第二预设信息时，记录识别响应检测失败并记录错误类型为无响应。
17.进一步地，第一响应时长为从第一唤醒音频文件播放结束至获取到第一响应数据；和/或，第二响应时长为从技能命令音频文件播放结束至获取到第二响应数据。
18.进一步地，语音交互设备的检测方法还包括：获取唤醒响应检测指令；控制语音播放模块播放第二唤醒音频文件；获取语音交互设备根据第二唤醒音频文件所生成的第三响应数据；根据第三响应数据以及语音交互设备的第三响应时长判断语音交互设备是否唤醒成功；当第三响应数据中包含第三预设信息且第三响应时长小于第三预设时长时，语音交互设备唤醒成功，否则语音交互设备唤醒失败。
19.进一步地，语音交互设备的检测方法还包括：重复执行多次获取唤醒响应检测指令之后的步骤；其中，语音播放模块循环播放相同的第二唤醒音频文件：记录多次唤醒响应检测结果，并根据多次唤醒响应检测结果计算出本轮唤醒响应检测的唤醒率。
20.进一步地，记录多次唤醒响应检测结果，并根据多次唤醒响应检测结果计算出本轮唤醒响应检测的唤醒率的方法包括：记录各次唤醒响应检测为失败或成功，以及各个测试环节的中间结果；并在报表中输出各次唤醒响应检测结果、各个测试环节的中间结果以及本轮唤醒响应检测的识别率；其中，中间结果包括唤醒响应检测失败的错误类型；当始终未获取到第三响应数据时，记录唤醒响应检测失败并记录错误类型为唤醒失败；当在第三预设时长后获取到第三响应数据时，记录唤醒响应检测失败并记录错误类型为唤醒过慢。
21.进一步地，语音交互设备的检测方法还包括：在语音交互设备根据第二唤醒音频文件生成第三响应数据的同时，语音交互设备播放第二应答提示音。
22.进一步地，第三响应时长为从第二唤醒音频文件播放结束至获取到第三响应数据。
23.根据本发明的第二个方面，提供了一种语音交互检测装置，包括：第一获取单元，用于获取识别响应检测指令；第一控制单元，用于控制语音播放模块播放第一唤醒音频文件；第二获取单元，用于获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；第一判断单元，用于根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设
备是否唤醒成功；第二控制单元，用于控制语音播放模块播放技能命令音频文件；第三获取单元，用于获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据；第二判断单元，用于根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功。
24.根据本发明的第三个方面，提供了一种语音交互检测设备，包括处理器和存储器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得语音交互检测设备执行上述的语音交互设备的检测方法。
25.根据本发明的第四个方面，提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述的语音交互设备的检测方法。
26.本发明的语音交互设备的检测方法为检测终端获取识别响应检测指令后，首先，检测终端控制语音播放模块播放第一唤醒音频文件，语音交互设备接收第一唤醒音频文件并对一唤醒音频文件进行处理并生成第一响应数据，检测终端获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据，检测终端根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，检测终端判断语音交互设备唤醒成功，否则检测终端判断语音交互设备唤醒失败；然后，在语音交互设备唤醒成功之后，检测终端控制语音播放模块播放技能命令音频文件，检测终端获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据，检测终端根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，检测终端判断语音交互设备识别响应检测成功，否则检测终端判断语音交互设备识别响应检测失败。在识别响应检测过程中，该检测方法能够实现第一唤醒音频文件和技能命令音频文件的自动播报，第一响应数据和第二响应数据的实时采集，处理判断，最后获得检测结果，能够极大的提高语音交互设备的检测效率，增强检测结果的准确性和可靠性。
附图说明
27.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
28.图1示出了根据本发明的语音交互设备的检测方法的识别响应检测的流程图；
29.图2示出了根据本发明的语音交互设备的检测方法的实施例的流程图；
30.图3示出了根据本发明的语音交互检测装置的实施例的示意图。
31.其中，上述附图包括以下附图标记：
32.10、第一获取单元；20、第一控制单元；30、第二获取单元；40、第一判断单元；50、第二控制单元；60、第三获取单元；70、第二判断单元。
具体实施方式
33.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
34.应该指出，以下详细说明都是例示性的，旨在对本技术提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
35.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
36.本发明提供了一种语音交互设备的检测方法，请参考图1，包括：
37.步骤s110，获取识别响应检测指令；
38.步骤s120，控制语音播放模块播放第一唤醒音频文件；
39.步骤s130，获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；
40.步骤s140，根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，语音交互设备唤醒成功，否则语音交互设备唤醒失败；
41.步骤s150，在语音交互设备唤醒成功之后，控制语音播放模块播放技能命令音频文件；
42.步骤s160，获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据；
43.步骤s170，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，判断语音交互设备识别响应检测成功，否则判断语音交互设备识别响应检测失败。
44.本发明的语音交互设备的检测方法为检测终端获取识别响应检测指令后，首先，检测终端控制语音播放模块播放第一唤醒音频文件，语音交互设备接收第一唤醒音频文件并对一唤醒音频文件进行处理并生成第一响应数据，检测终端获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据，检测终端根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，检测终端判断语音交互设备唤醒成功，否则检测终端判断语音交互设备唤醒失败；然后，在语音交互设备唤醒成功之后，检测终端控制语音播放模块播放技能命令音频文件，检测终端获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据，检测终端根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，检测终端判断语音交互设备识别响应检测成功，否则检测终端判断语音交互设备识别响应检测失败。在识别响应检测过程中，该检测方法能够实现第一唤醒音频文件和技能命令音频文件的自动播报，第一响应数据和第二响应数据的实时采集，处理判断，最后获得检测结果，能够极大的提高语音交互设备的检测效率，增强检测结果的准确性和可靠性。
45.可见，该检测方法解决了以下技术问题：现有的检测方法是基于纯人工或者半自动化的方式对语音交互设备的响应进行检测。在该方式下，检测人员需时刻与语音交互设
备保持交互状态，对语音交互指令测试集进行口述播报，检测人员在各种测试场景下时刻与待测语音交互设备保持交互状态，随着测试样本的增多，检测人员的工作量也不断加大，存在口述播报错误的概率也不断增加，存在人工测试效率低、成本高，检测结果可靠性低等问题。其中，语音交互指令测试集包括唤醒语音指令测试集和技能命令语音指令测试集。
46.具体地，检测终端通过串口与语音交互设备进行通讯。
47.具体地，检测终端包括语音播放模块；或者，语音播放模块为外置音箱，检测终端通过控制外置音箱设备进行测试集音频和噪音干扰音频的播报。
48.具体地，在实际测试过程中，测试人员可以根据实际测试技术规范及要求，调节语音交互设备与外置音箱之间的角度、高度和距离，并且可以通过检测终端控制播报音的音量大小和噪音干扰音频，从而设定安静无噪音、单点噪音、多点噪音等测试环境。
49.在本实施例中，当进行离线识别响应检测时，第二响应数据为语音交互设备根据技能命令音频文件所生成的。
50.在本实施例中，当进行离线识别响应检测时，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功的方法包括：当第二响应数据中包含与技能命令音频文件相对应的标准文本相同的第二预设信息且第二响应时长小于第二预设时长时，判断语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败。
51.具体实施时，当进行离线识别响应检测时，当第二响应数据中包含与技能命令音频文件相对应的标准文本相同的第二预设信息且第二响应时长小于第二预设时长时，检测终端判断语音交互设备识别响应检测成功，否则检测终端判断语音交互设备识别响应检测失败。
52.在本实施例中，当进行在线识别响应检测时，获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据的方法包括：通过语音交互设备将技能命令音频文件发送给语音交互系统云平台；利用语音交互系统云平台根据技能命令音频文件生成第二响应数据，并将第二响应数据发送至语音交互设备，以使语音交互设备发送第二响应数据。
53.具体实施时，检测终端通过语音交互设备将技能命令音频文件发送给语音交互系统云平台；利用语音交互系统云平台根据技能命令音频文件生成第二响应数据，并将第二响应数据发送至语音交互设备，以使语音交互设备发送第二响应数据至检测终端。这样的设置提高了检测结果的准确性和可靠性。
54.在本实施例中，利用语音交互系统云平台根据技能命令音频文件生成第二响应数据，并将第二响应数据发送至语音交互设备的方法包括：通过语音交互系统云平台的asr模块将技能命令音频文件转化为文本信息；通过语音交互系统云平台的nlu模块对文本信息进行语意理解并生成响应文本信息；通过语音交互系统云平台的tts模块将响应文本信息转化为响应音频文件；通过语音交互系统云平台将文本信息、响应文本信息和响应音频文件均发送给语音交互设备；其中，第二响应数据包括文本信息、响应文本信息和响应音频文件。
55.需要说明的是，asr的英文全称为automatic speech recognition，中文名称为自动语音识别；nlu的英文全称为natural language understanding，中文名称为自然语言理解；tts的英文全称为text to speech，中文名称为语音合成。
56.具体地，当进行在线检测(包括在线识别响应检测)时，语音交互设备通过websocket协议与云平台进行通讯。
57.在本实施例中，当进行在线识别响应检测时，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功的方法包括：当第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息且第二响应时长小于第二预设时长时，语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败。
58.在本实施例中，语音交互设备的检测方法还包括：获取语音指令测试集，并对语音指令测试集进行领域类别划分；采用邻近算法对语音指令测试集的领域类别划分进行机器学习训练，并获得训练后的领域模型；当进行在线识别响应检测时，第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息的判定方法包括：根据领域模型采用邻近算法对第二响应数据中的文本进行归类判定，当归类判定正确时，判断第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息；否则，第二响应数据中未包含与技能命令音频文件相对应的语义准确的第二预设信息。
59.具体地，语音指令测试集包括第一唤醒音频文件及与其相对应的响应数据、第二唤醒音频文件及与其相对应的响应数据、技能命令音频文件及与其相对应的响应数据。
60.具体实施时，检测终端获取语音指令测试集，并对语音指令测试集进行领域类别划分；检测终端采用邻近算法对语音指令测试集的领域类别划分进行机器学习训练，并获得训练后的领域模型；当进行在线识别响应检测时，第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息的判定方法包括：检测终端根据领域模型采用邻近算法对第二响应数据中的文本进行归类判定，当归类判定正确时，检测终端判断第二响应数据中包含与技能命令音频文件相对应的语义准确的第二预设信息；否则，检测终端判断第二响应数据中未包含与技能命令音频文件相对应的语义准确的第二预设信息。
61.在其他实施例中，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功的方法包括：根据第二响应数据中的文本以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功，当文本为与技能命令音频文件相对应的语义准确的第二预设信息且第二响应时长小于第二预设时长时，语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败；其中，文本包括第一领域文本和第一意图文本；语音交互设备的检测方法还包括：将第二响应数据中的文本发送至语音交互系统云平台进行二次语义理解；通过语音交互系统云平台的nlu模块将接收到的第二响应数据中的文本划分为第二领域文本和第二意图文本；获取第二领域文本和第二意图文本，并对第一领域文本和第二领域文本进行对比校验，对第一意图文本和第二意图文本进行对比校验；当第一领域文本和第二领域文本相同且第一意图文本和第二意图文本相同时，语音交互设备识别响应检测成功，否则语音交互设备识别响应检测失败。
62.具体实施时，检测终端将第二响应数据中的文本发送至语音交互系统云平台进行二次语义理解；通过语音交互系统云平台的nlu模块将接收到的第二响应数据中的文本划分为第二领域文本和第二意图文本；检测终端获取第二领域文本和第二意图文本，并对第一领域文本和第二领域文本进行对比校验，对第一意图文本和第二意图文本进行对比校验；当第一领域文本和第二领域文本相同且第一意图文本和第二意图文本相同时，检测终端判断语音交互设备识别响应检测成功，否则检测终端判断语音交互设备识别响应检测失
败。这样的设置提高了检测结果的准确性和可靠性。
63.在本实施例中，语音交互设备的检测方法还包括：重复执行多次获取识别响应检测指令之后的步骤；其中，语音播放模块循环播放相同的第一唤醒音频文件，语音播放模块顺序播放不同的技能命令音频文件；记录多次识别响应检测结果，并根据多次识别响应检测结果计算出本轮识别响应检测的识别率。这样的设置能够对检测结果进行规范化输出，能够极大的提高语音设备的检测效率，增强检测结果的准确性和可靠性。
64.具体地，记录多次识别响应检测结果，并根据多次识别响应检测结果计算出本轮识别响应检测的识别率的方法包括：记录各次识别响应检测为失败或成功，以及各个测试环节的中间结果；并在报表中输出各次识别响应检测结果、各个测试环节的中间结果以及本轮识别响应检测的识别率；其中，中间结果包括识别响应检测失败的错误类型；当始终未获取到第一响应数据时，记录识别响应检测失败并记录错误类型为唤醒失败；当在第一预设时长后获取到第一响应数据时，记录识别响应检测失败并记录错误类型为唤醒过慢；当唤醒成功但在第二预设时长内并未接收到第二预设信息时，记录识别响应检测失败并记录错误类型为无响应。这样的设置能够对检测结果进行规范化输出，能够极大的提高语音设备的检测效率，增强检测结果的准确性和可靠性。
65.具体地，当进行在线识别响应检测时，当唤醒成功但在第二预设时长内接收到语义不准确的第二预设信息时，记录识别响应检测失败并记录错误类型为语义理解有误。
66.具体地，检测终端判断重复执行多次获取识别响应检测指令之后的步骤，获取识别响应检测指令之后的步骤是指步骤s120至步骤s170。
67.在本实施例中，第一响应时长为从第一唤醒音频文件播放结束至获取到第一响应数据；和/或，第二响应时长为从技能命令音频文件播放结束至获取到第二响应数据。
68.在本实施例中，语音交互设备的检测方法还包括：
69.步骤210，获取唤醒响应检测指令；
70.步骤220，控制语音播放模块播放第二唤醒音频文件；
71.步骤230，获取语音交互设备根据第二唤醒音频文件所生成的第三响应数据；
72.步骤240，根据第三响应数据以及语音交互设备的第三响应时长判断语音交互设备是否唤醒成功；当第三响应数据中包含第三预设信息且第三响应时长小于第三预设时长时，语音交互设备唤醒成功，否则语音交互设备唤醒失败。
73.具体实施时，检测终端获取唤醒响应检测指令；检测终端控制语音播放模块播放第二唤醒音频文件；检测终端获取语音交互设备根据第二唤醒音频文件所生成的第三响应数据；检测终端根据第三响应数据以及语音交互设备的第三响应时长判断语音交互设备是否唤醒成功；当第三响应数据中包含第三预设信息且第三响应时长小于第三预设时长时，检测终端判断语音交互设备唤醒成功，否则检测终端判断语音交互设备唤醒失败。在唤醒响应检测过程中，该检测方法能够实现第二唤醒音频文件的自动播报，第三响应数据的实时采集，处理判断，最后获得检测结果，能够极大的提高语音交互设备的检测效率，增强检测结果的准确性和可靠性。
74.在本实施例中，语音交互设备的检测方法还包括：重复执行多次获取唤醒响应检测指令之后的步骤；其中，语音播放模块循环播放相同的第二唤醒音频文件：记录多次唤醒响应检测结果，并根据多次唤醒响应检测结果计算出本轮唤醒响应检测的唤醒率。这样的
设置能够对检测结果进行规范化输出，能够极大的提高语音设备的检测效率，增强检测结果的准确性和可靠性。
75.具体地，检测终端重复执行多次获取唤醒响应检测指令之后的步骤，获取唤醒响应检测指令之后的步骤是指步骤220至步骤240。
76.在本实施例中，语音交互设备的检测方法还包括：在语音交互设备根据第二唤醒音频文件生成第三响应数据的同时，语音交互设备播放第二应答提示音。
77.在本实施例中，第三响应时长为从第二唤醒音频文件播放结束至获取到第三响应数据。
78.具体地，记录多次唤醒响应检测结果，并根据多次唤醒响应检测结果计算出本轮唤醒响应检测的唤醒率的方法包括：记录各次唤醒响应检测为失败或成功，以及各个测试环节的中间结果；并在报表中输出各次唤醒响应检测结果、各个测试环节的中间结果以及本轮唤醒响应检测的识别率；其中，中间结果包括唤醒响应检测失败的错误类型；当始终未获取到第三响应数据时，记录唤醒响应检测失败并记录错误类型为唤醒失败；当在第三预设时长后获取到第三响应数据时，记录唤醒响应检测失败并记录错误类型为唤醒过慢。这样的设置能够对检测结果进行规范化输出，能够极大的提高语音设备的检测效率，增强检测结果的准确性和可靠性。
79.本实施例的测试场景中，设置安静无噪音测试环境，即只播放测试集音频，外置音箱与语音交互设备处于同一水平状态，两者之间的距离分别处于1、3、5米的条件下进行检测并输出检测结果。在部署好外部检测条件情况下，本实施例依照图2的检测方法流程进行各项测试，其具体描述如下：
80.当进行唤醒响应检测时，离线和在线在此不作区分，即可在离线或者在线状态下进行检测。检测终端以循环播放模式下播放同一个第二唤醒音频文件1000次。每次测试时，语音交互设备上的内置麦克风阵列采集播报的音频数据进行处理，当第二唤醒音频文件播放结束那一刻开始，在后续的3秒内(该时间值可单独设定，即第三预设时长)，检测终端通过串口实时读取并处理语音交互设备发送的第三响应数据。如果读取的第三响应数据中包含带有”wake up tick”标识的字符串，此时说明唤醒成功，同时语音交互设备的内置扬声器也会播放“我在”的声音作为第二应答提示音，检测终端根据第二唤醒音频文件播放结束时间和接收到标识字符串的时间差值作为本次唤醒检测的第三响应时长，同时判断本次检测通过；如果3秒内没有接收到带有“wake up tick”标识的字符串，则说明本次检测唤醒失败，错误类型为”唤醒失败”，此时的第三响应时长设定为-1，表示缺失，3秒之后即使收到本次检测响应的标识字符串，也判定本次检测失败，错误类型为”唤醒过慢”，随后继续播放第二唤醒音频文件进行下一次检测，当本轮检测结束时，检测终端根据本轮检测结果中唤醒成功的次数与唤醒检测总次数之比计算出本轮检测的唤醒率，最后输出详细的检测报告。
81.当进行离线识别响应检测时，检测终端以循环播放模式播放同一条第一唤醒音频文件且以顺序播放模式播放包含50条技能命令音频文件，前后分别播放第一唤醒音频文件和技能命令音频文件为一次识别响应检测。每次检测时，当第一唤醒音频文件播放结束那一刻开始，在后续的3秒内(该时间值可单独设定，即第一预设时长)，检测终端通过串口实时读取并处理语音交互设备发送的第一响应数据。如果读取的第一响应数据中包含有”wake up tick”标识的字符串，此时说明唤醒成功，同时语音交互设备的内置扬声器也会播
放“我在”的声音作为第一应答提示音，检测终端计算本项检测的第一响应时长，同时判定唤醒成功；如果3秒内没有接收到带有“wake up tick”标识的字符串，则说明唤醒失败，并且判定本次识别检测失败，错误类型为“唤醒失败”，此时的第一响应时长设定为-1，表示缺失，3秒之后即使收到本项测试响应的标识字符串，也判定本次识别检测失败，错误类型为“唤醒过慢”，3秒后播放技能命令音频文件，当技能命令音频文件播放结束那一刻起，在后续的5秒内(该时间值可单独设定，即第二预设时长)，在唤醒成功的前提下，如果检测终端读取的第二响应数据中包含有“send result”标识的字符串并且该数据中“asr_return”字段存在且与本次测试所用的技能命令音频文件所对应的标准文本相同，则判定本次识别响应检测通过，检测终端计算出识别响应检测的第二响应时长，如果5秒内没有收到标识字符串，则第二响应时长设定为-1，表示缺失，判定本次识别检测失败，错误类型为“无响应”，随后继续进行下一次识别响应检测，当本轮检测结束时，检测终端根据本轮检测结果中识别成功的次数与识别检测总次数之比计算出本轮检测的识别率，最后输出详细的检测报告。
82.当进行在线识别响应检测时，检测终端播放音频的规则与离线识别响应检测一致，本实施例播放100条技能命令音频文件进行检测，每次检测时，当第一唤醒音频文件播放结束那一刻开始，在后续的3秒内(该时间值可单独设定，即第一预设时长)，检测终端通过串口实时读取并处理语音交互设备发送的第一响应数据。如果读取的第一响应数据中包含带有”wake up tick”标识的字符串，此时说明唤醒成功，同时语音交互设备的内置扬声器也会播放“我在”的声音作为第一应答提示音，检测终端计算本项测试的第一响应时长，同时判定唤醒成功；如果3秒内没有接收到带有“wake up tick”标识的字符串，则说明唤醒失败，并且判定本次识别检测失败，错误类型为“唤醒失败”，此时的第一响应时长值设定为-1，表示不存在，3秒之后即使收到本项测试响应的标识字符串，也判定本次识别检测失败，错误类型为“唤醒过慢”，3秒后播放技能命令音频文件，当技能命令音频文件播放结束那一刻起，在后续的5秒内(该时间值可单独设定，即第二预设时长)，在唤醒成功的前提下，语音交互设备会通过网络请求将录制处理后的技能命令音频文件发送给语音交互服务系统云平台进行处理，云端的asr模块将技能命令声音信息转化为文字(即文本信息)，随后将转换的文字通过nlu模块进行语义理解并给出合理的响应信息(即响应文本信息)，tts模块则将nlu输出响应信息中包含的应答文本转化为声音固化在音频文件(即响应音频文件)中，最后云平台将asr识别文本、nlu输出信息及tts合成音频资源链接地址进行资源整合(即第二响应数据)后发送给语音交互设备，语音交互设备将接收到的第二响应数据进行解析并处理后通过串口发送给检测终端，表1列出了语音交互设备针对部分技能命令音频文件所对应的标识响应数据(第二响应数据中的文本)，如果检测终端读取的标识响应数据中包含有“send result”标识的字符串，则提取其中的text字段文本进行语义准确性判定，如果判定结果错误，则本次检测失败，错误类型为“语义理解有误”，检测终端计算出识别响应检测的第二响应时长，如果5秒内没有收到标识字符串，则第二响应时长设定为-1，表示缺失，判定本次识别检测失败，错误类型为“无响应”，随后继续进行下一次识别响应检测，当本轮检测结束时，检测终端计算出本轮检测的识别率，最后输出详细的检测报告。
83.表1：部分技能命令音频文件对应的标识响应数据示例
[0084][0085]
具体实施时，当进行在线识别响应语义准确性检测时，其判定方法如下：检测终端预先对语音指令测试集进行领域类别分类，领域用于标识该语音指令对应的业务领域，随后根据该领域已知的语义响应参考属性词样本集进行坐标值标定量化，以语音指令“珠海今天天气怎样”为例，该语音指令属于气候(weather)领域，标定其为坐标原点(x0，y0),表2为该指令的语义理解响应部分参考属性词的坐标标定值和归类判定结果示例，可根据实际的标定算法进行多维坐标的量化标定，针对所有标定的属性词，以它们与坐标原点之间的距离为标准，当距离值满足条件di＜＝d，d为预设阀值时，则判定该属性归类正确(属于气候(weather)领域)，即越靠近坐标原点则越属性该领域属性词，反之判定归类错误，随后按以上规则进行机器学习knn邻近算法进行样本库的模型训练，获得训练后的领域模型；将语义响应text文本进行属性词提取及坐标标定，并用该领域的knn模型进行归类判定，根据判定的正确与否断定本次语义理解是否准确。
[0086]
表2
[0087][0088]
具体实施时，nlu模块对语义理解时会对响应结果进行领域(domain)和意图(intent)划分；检测终端提取第二响应数据中包含“asr_return”字段文本后单独请求云平台的nlu模块进行二次语义理解，并将获取的请求响应结果与标识响应数据进行二次对比校验，如果两者中的“domian”字段值和“intent”字段值相同，则判定本次识别响应检测通过，否则判定本次识别响应检测失败，错误类型为“语义理解错误”。
[0089]
在本实施例中，检测终端实现的检测方法的方式是通过python编程语言及其第三方库进行gui上位机软件编程实现。
[0090]
本技术够实现语音交互测试指令的自动播报，测试响应内容的实时采集，处理判断，给出错误类型建议，并对唤醒率，识别率，响应时长等指标进行计算，最后将各项检测结果进行规范化输出，能够极大的提高语音设备的检测效率，增强检测结果的准确性和可靠性。现有的检测方法没有以自动化的方式对响应结果数据进行实时筛选及提取，错误统计分析判断，而是通过人为地去判定及统计分析各种错误问题，不能根据实际的响应数据在测试结果输出中自动判定各种功能错误和性能缺陷，存在设备检测结果不够全面直观，检测覆盖范围小等问题。
[0091]
本发明还提供了一种语音交互检测装置，请参考图3，语音交互检测装置包括：
[0092]
第一获取单元10，用于获取识别响应检测指令；
[0093]
第一控制单元20，用于控制语音播放模块播放第一唤醒音频文件；
[0094]
第二获取单元30，用于获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；
[0095]
第一判断单元40，用于根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；
[0096]
第二控制单元50，用于控制语音播放模块播放技能命令音频文件；
[0097]
第三获取单元60，用于获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据；
[0098]
第二判断单元70，用于根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功。
[0099]
该语音交互检测装置中，第一获取单元10，用于获取识别响应检测指令；第一控制单元20，用于控制语音播放模块播放第一唤醒音频文件；第二获取单元30，用于获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；第一判断单元40，用于根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，语音交互设备唤醒成功，否则语音交互设备唤醒失败；第二控制单元50，用于控制语音播放模块播放技能命令音频文
件；第三获取单元60，用于获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据；第二判断单元70，用于根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，判断语音交互设备识别响应检测成功，否则判断语音交互设备识别响应检测失败。在识别响应检测过程中，该语音交互检测装置能够实现第一唤醒音频文件和技能命令音频文件的自动播报，第一响应数据和第二响应数据的实时采集，处理判断，最后获得检测结果，能够极大的提高语音交互设备的检测效率，增强检测结果的准确性和可靠性。
[0100]
本发明还提供了一种语音交互检测设备，包括处理器和存储器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得语音交互检测设备执行上述实施例中的语音交互设备的检测方法。
[0101]
本发明还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述实施例中的语音交互设备的检测方法。
[0102]
具体地，上述存储介质用于存储执行以下功能的程序指令，实现以下功能：
[0103]
获取识别响应检测指令；控制语音播放模块播放第一唤醒音频文件；获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，语音交互设备唤醒成功，否则语音交互设备唤醒失败；在语音交互设备唤醒成功之后，控制语音播放模块播放技能命令音频文件；获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据；根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，判断语音交互设备识别响应检测成功，否则判断语音交互设备识别响应检测失败。
[0104]
从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：
[0105]
本发明的语音交互设备的检测方法为检测终端获取识别响应检测指令后，首先，检测终端控制语音播放模块播放第一唤醒音频文件，语音交互设备接收第一唤醒音频文件并对一唤醒音频文件进行处理并生成第一响应数据，检测终端获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据，检测终端根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；当第一响应数据中包含第一预设信息且第一响应时长小于第一预设时长时，检测终端判断语音交互设备唤醒成功，否则检测终端判断语音交互设备唤醒失败；然后，在语音交互设备唤醒成功之后，检测终端控制语音播放模块播放技能命令音频文件，检测终端获取语音交互设备发送的根据技能命令音频文件所生成的第二响应数据，检测终端根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功；其中，当第二响应数据中包含与技能命令音频文件相匹配的第二预设信息且第二响应时长小于第二预设时长时，检测终端判断语音交互设备识别响应检测成功，否则检测终端判断语音交互设备识别响应检测失败。在识别响应检测过程中，该检测方法能够实现第一唤醒音频文件和技能命令音频文件的自动播报，第一响应数据和第二响应数据的实时采集，处理判断，最后获得检测结果，能够极大的提高语音交互设
备的检测效率，增强检测结果的准确性和可靠性。
[0106]
需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0107]
为了便于描述，在这里可以使用空间相对术语，如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。
[0108]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种语音交互设备的检测方法，其特征在于，包括：获取识别响应检测指令；控制语音播放模块播放第一唤醒音频文件；获取语音交互设备根据所述第一唤醒音频文件所生成的第一响应数据；根据所述第一响应数据以及所述语音交互设备的第一响应时长判断所述语音交互设备是否唤醒成功；当所述第一响应数据中包含第一预设信息且所述第一响应时长小于第一预设时长时，所述语音交互设备唤醒成功，否则所述语音交互设备唤醒失败；在所述语音交互设备唤醒成功之后，控制所述语音播放模块播放技能命令音频文件，获取所述语音交互设备发送的根据所述技能命令音频文件所生成的第二响应数据，根据所述第二响应数据以及所述语音交互设备的第二响应时长判断所述语音交互设备识别响应检测是否成功；其中，当所述第二响应数据中包含与所述技能命令音频文件相匹配的第二预设信息且所述第二响应时长小于第二预设时长时，判断所述语音交互设备识别响应检测成功，否则判断所述语音交互设备识别响应检测失败。2.根据权利要求1所述的语音交互设备的检测方法，其特征在于，当进行离线识别响应检测时，所述第二响应数据为所述语音交互设备根据所述技能命令音频文件所生成的。3.根据权利要求1所述的语音交互设备的检测方法，其特征在于，当进行离线识别响应检测时，根据所述第二响应数据以及所述语音交互设备的第二响应时长判断所述语音交互设备识别响应检测是否成功的方法包括：当所述第二响应数据中包含与所述技能命令音频文件相对应的标准文本相同的所述第二预设信息且所述第二响应时长小于第二预设时长时，判断所述语音交互设备识别响应检测成功，否则所述语音交互设备识别响应检测失败。4.根据权利要求1所述的语音交互设备的检测方法，其特征在于，当进行在线识别响应检测时，获取所述语音交互设备发送的根据所述技能命令音频文件所生成的第二响应数据的方法包括：通过所述语音交互设备将所述技能命令音频文件发送给语音交互系统云平台；利用所述语音交互系统云平台根据所述技能命令音频文件生成所述第二响应数据，并将所述第二响应数据发送至所述语音交互设备，以使所述语音交互设备发送所述第二响应数据。5.根据权利要求4所述的语音交互设备的检测方法，其特征在于，利用所述语音交互系统云平台根据所述技能命令音频文件生成所述第二响应数据，并将所述第二响应数据发送至所述语音交互设备的方法包括：通过所述语音交互系统云平台的asr模块将所述技能命令音频文件转化为文本信息；通过所述语音交互系统云平台的nlu模块对所述文本信息进行语意理解并生成响应文本信息；通过所述语音交互系统云平台的tts模块将所述响应文本信息转化为响应音频文件；通过所述语音交互系统云平台将所述文本信息、所述响应文本信息和所述响应音频文件均发送给所述语音交互设备；其中，所述第二响应数据包括所述文本信息、所述响应文本信息和所述响应音频文件。
6.根据权利要求1所述的语音交互设备的检测方法，其特征在于，当进行在线识别响应检测时，根据所述第二响应数据以及所述语音交互设备的第二响应时长判断所述语音交互设备识别响应检测是否成功的方法包括：当所述第二响应数据中包含与所述技能命令音频文件相对应的语义准确的第二预设信息且所述第二响应时长小于所述第二预设时长时，所述语音交互设备识别响应检测成功，否则所述语音交互设备识别响应检测失败。7.根据权利要求6所述的语音交互设备的检测方法，其特征在于，所述语音交互设备的检测方法还包括：获取语音指令测试集，并对所述语音指令测试集进行领域类别划分；采用邻近算法对所述语音指令测试集的领域类别划分进行机器学习训练，并获得训练后的领域模型；当进行在线识别响应检测时，所述第二响应数据中包含与所述技能命令音频文件相对应的语义准确的第二预设信息的判定方法包括：根据所述领域模型采用所述邻近算法对所述第二响应数据中的文本进行归类判定，当归类判定正确时，判断所述第二响应数据中包含与所述技能命令音频文件相对应的语义准确的第二预设信息；否则，所述第二响应数据中未包含与所述技能命令音频文件相对应的语义准确的第二预设信息。8.根据权利要求6所述的语音交互设备的检测方法，其特征在于，根据所述第二响应数据以及所述语音交互设备的第二响应时长判断所述语音交互设备识别响应检测是否成功的方法包括：根据所述第二响应数据中的文本以及所述语音交互设备的第二响应时长判断所述语音交互设备识别响应检测是否成功，当所述文本为与所述技能命令音频文件相对应的语义准确的第二预设信息且所述第二响应时长小于所述第二预设时长时，所述语音交互设备识别响应检测成功，否则所述语音交互设备识别响应检测失败；其中，所述文本包括第一领域文本和第一意图文本；所述语音交互设备的检测方法还包括：将所述第二响应数据中的文本发送至语音交互系统云平台进行二次语义理解；通过所述语音交互系统云平台的nlu模块将接收到的所述第二响应数据中的文本划分为第二领域文本和第二意图文本；获取所述第二领域文本和所述第二意图文本，并对所述第一领域文本和所述第二领域文本进行对比校验，对所述第一意图文本和所述第二意图文本进行对比校验；当所述第一领域文本和所述第二领域文本相同且所述第一意图文本和所述第二意图文本相同时，所述语音交互设备识别响应检测成功，否则所述语音交互设备识别响应检测失败。9.根据权利要求1所述的语音交互设备的检测方法，其特征在于，所述语音交互设备的检测方法还包括：重复执行多次获取识别响应检测指令之后的步骤；其中，所述语音播放模块循环播放相同的所述第一唤醒音频文件，所述语音播放模块顺序播放不同的所述技能命令音频文件；
记录多次识别响应检测结果，并根据多次识别响应检测结果计算出本轮识别响应检测的识别率。10.根据权利要求9所述的语音交互设备的检测方法，其特征在于，所述记录多次识别响应检测结果，并根据多次识别响应检测结果计算出本轮识别响应检测的识别率的方法包括：记录各次识别响应检测为失败或成功，以及各个测试环节的中间结果；并在报表中输出各次识别响应检测结果、各个测试环节的中间结果以及本轮识别响应检测的识别率；其中，中间结果包括识别响应检测失败的错误类型；当始终未获取到所述第一响应数据时，记录识别响应检测失败并记录错误类型为唤醒失败；当在所述第一预设时长后获取到所述第一响应数据时，记录识别响应检测失败并记录错误类型为唤醒过慢；当唤醒成功但在所述第二预设时长内并未接收到所述第二预设信息时，记录识别响应检测失败并记录错误类型为无响应。11.根据权利要求1所述的语音交互设备的检测方法，其特征在于，所述第一响应时长为从所述第一唤醒音频文件播放结束至获取到所述第一响应数据；和/或，所述第二响应时长为从所述技能命令音频文件播放结束至获取到所述第二响应数据。12.根据权利要求1所述的语音交互设备的检测方法，其特征在于，所述语音交互设备的检测方法还包括：获取唤醒响应检测指令；控制所述语音播放模块播放第二唤醒音频文件；获取所述语音交互设备根据所述第二唤醒音频文件所生成的第三响应数据；根据所述第三响应数据以及所述语音交互设备的第三响应时长判断所述语音交互设备是否唤醒成功；当所述第三响应数据中包含第三预设信息且所述第三响应时长小于第三预设时长时，所述语音交互设备唤醒成功，否则所述语音交互设备唤醒失败。13.根据权利要求12所述的语音交互设备的检测方法，其特征在于，所述语音交互设备的检测方法还包括：重复执行多次获取唤醒响应检测指令之后的步骤；其中，所述语音播放模块循环播放相同的所述第二唤醒音频文件：记录多次唤醒响应检测结果，并根据多次唤醒响应检测结果计算出本轮唤醒响应检测的唤醒率。14.根据权利要求13所述的语音交互设备的检测方法，其特征在于，所述记录多次唤醒响应检测结果，并根据多次唤醒响应检测结果计算出本轮唤醒响应检测的唤醒率的方法包括：记录各次唤醒响应检测为失败或成功，以及各个测试环节的中间结果；并在报表中输出各次唤醒响应检测结果、各个测试环节的中间结果以及本轮唤醒响应检测的识别率；其中，中间结果包括唤醒响应检测失败的错误类型；当始终未获取到所述第三响应数据时，记录唤醒响应检测失败并记录错误类型为唤醒失败；当在所述第三预设时长后获取到所述第三响应数据时，记录唤醒响应检测失败并记录错误类型为唤醒过慢。15.根据权利要求12所述的语音交互设备的检测方法，其特征在于，所述语音交互设备的检测方法还包括：
在所述语音交互设备根据所述第二唤醒音频文件生成所述第三响应数据的同时，所述语音交互设备播放第二应答提示音。16.根据权利要求12所述的语音交互设备的检测方法，其特征在于，所述第三响应时长为从所述第二唤醒音频文件播放结束至获取到所述第三响应数据。17.一种语音交互检测装置，其特征在于，包括：第一获取单元，用于获取识别响应检测指令；第一控制单元，用于控制语音播放模块播放第一唤醒音频文件；第二获取单元，用于获取语音交互设备根据所述第一唤醒音频文件所生成的第一响应数据；第一判断单元，用于根据所述第一响应数据以及所述语音交互设备的第一响应时长判断所述语音交互设备是否唤醒成功；第二控制单元，用于控制所述语音播放模块播放技能命令音频文件；第三获取单元，用于获取所述语音交互设备发送的根据所述技能命令音频文件所生成的第二响应数据；第二判断单元，用于根据所述第二响应数据以及所述语音交互设备的第二响应时长判断所述语音交互设备识别响应检测是否成功。18.一种语音交互检测设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述语音交互检测设备执行权利要求1至16中任一项所述的语音交互设备的检测方法。19.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至16中任一项所述的语音交互设备的检测方法。

技术总结

本发明提供了一种检测方法、语音交互检测装置、设备及非易失性存储介质，检测方法包括：获取识别响应检测指令；控制语音播放模块播放第一唤醒音频文件；获取语音交互设备根据第一唤醒音频文件所生成的第一响应数据；根据第一响应数据以及语音交互设备的第一响应时长判断语音交互设备是否唤醒成功；在语音交互设备唤醒成功后，控制语音播放模块播放技能命令音频文件，获取根据技能命令音频文件所生成的第二响应数据，根据第二响应数据以及语音交互设备的第二响应时长判断语音交互设备识别响应检测是否成功。本发明的检测方法解决了现有技术中由于语音交互设备的响应检测方法自动化程度较低所导致的测试效率低、成本高，检测结果可靠性低的问题。果可靠性低的问题。果可靠性低的问题。