车载人机交互方法、装置、设备、存储介质及程序产品与流程



1.本公开涉及人工智能技术领域,尤其涉及应用于车载人机交互技术领域中的意图理解技术。


背景技术:



2.车载人机交互技术实现了人与车机之间的对话功能。通过人与车机之间的对话功能,可以使车内用户例如驾驶员,轻松把握车辆状态信息,并实现对车机部件进行相应的操作。
3.车内用户与车机之间进行对话(session)时,车内用户发出语音意图(query)信息,车机对话系统理解该语音query信息,并响应该语音query信息执行相应的操作。然而,实际执行过程中,可能会出现query信息表述不全,即出现话语省略的情况。相关技术中,针对query信息表述不全的场景,可以基于上下文意图理解技术,通过session的上文信息,来补齐当前query的省略信息。


技术实现要素:



4.本公开提供了一种用于车载人机交互的方法、装置、设备、存储介质以及程序产品。
5.根据本公开的一方面,提供了一种车载人机交互的方法,包括:
6.获取车内用户发出的语音意图信息,所述语音意图信息中包括对车机部件执行的操作;获取车内用户发出所述语音意图信息时的语境信息,所述语境信息为与用户发出所述语音意图信息相关的语言环境信息;基于所述语境信息,得到所述语音意图信息的意图理解结果,所述意图理解结果中包括与所述操作匹配的车机部件;对所述意图理解结果中包括的车机部件,执行所述语音意图信息中包括的操作。
7.根据本公开的另一方面,提供了一种车载人机交互的装置,包括:
8.获取单元,用于获取车内用户发出的语音意图信息,所述语音意图信息中包括对车机部件执行的操作,并获取车内用户发出所述语音意图信息时的语境信息,所述语境信息为与用户发出所述语音意图信息相关的语言环境信息;处理单元,用于基于所述语境信息,得到所述语音意图信息的意图理解结果,所述意图理解结果中包括与所述操作匹配的车机部件;执行单元,用于对所述意图理解结果中包括的车机部件,执行所述语音意图信息中包括的操作。
9.根据本公开的另一方面,提供了一种电子设备,包括:
10.至少一个处理器;以及
11.与所述至少一个处理器通信连接的存储器;其中,
12.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述涉及的方法。
13.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,所述计算机指令用于使所述计算机执行上述涉及的方法。
14.根据本公开另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述涉及的方法。
15.本公开提供的用于车载人机交互的方法,能够准确的得到语音意图信息的意图理解结果。
16.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
17.附图用于更好地理解本方案,不构成对本公开的限定。其中:
18.图1示出了本公开一示例性实施方式中的车载人机交互方法流程图;
19.图2示出了本公开一示例性实施方式中的车载人机交互方法流程图;
20.图3示出了本公开一示例性实施方式中基于空调的知识图谱和语境信息进行意图理解的过程示意图;
21.图4示出了本公开一示例性实施方式中车载人机交互中进行意图理解的方法流程图;
22.图5示出了本公开一示例性实施例中提供的车载人机交互方法流程示意图;
23.图6示出了本公开一示例性实施方式中提供的用于车载人机交互的装置的框图;
24.图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
25.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
26.本公开提供的用于车载人机交互的方法,应用于支持车载人机交互技术的车辆,该车辆的车机系统可与用户进行人机对话以实现用户相应的操作。例如,车内驾乘人员可以通过与车机之间进行对话,以确定车辆的油耗、车速、维保等,还可以确定路况信息,或者进行定速巡航设置、蓝牙免提设置、空调及音响的操作控制等。
27.本公开支持车载人机交互技术的车辆,支持对车内用户发出的语音意图信息进行意图理解。车内用户发出语音意图信息(也可以理解为是对话信息),车机系统(或者称为对话系统)进行语音识别并对语音识别结果进行意图理解。其中,若语音意图信息是完整的信息,通常是可以直接得到意图理解结果。若语音意图信息不完整(也可以理解为是车内用户发出的语音意图信息表述不全,即出现话语省略),则可以基于上下文意图理解技术进行省略信息的补全,以得到意图理解结果。例如,车内用户发出的语音意图信息为“调低”,对话上一轮信息中语音意图信息为“打开左前空调”,那么“左前空调”就可以作为“关闭”的省略信息,对语音意图信息“调低”的语音意图理解结果即为“关闭左前空调”。
28.然而,在实际场景中,可能会出现基于上文信息,对信息省略的语音意图信息理解失败,不能正确得到语音意图理解结果的情形。例如,在缺少上文信息时,对信息省略的语
音意图信息理解失败。相关技术中,需要引导发出语音意图信息的用户“换一种说法”以复述完成对话。
29.本公开提供一种车载人机交互的方法,在该方法中,基于车内用户发出语音意图信息时的语境信息,得到语音意图信息的意图理解结果,进而利用除发出语音意图信息的听觉系统之外的其他信息进行意图理解,也可以理解为是一种基于多模态进行跨模态的意图理解,提高意图理解的准确性。
30.作为示例性实施方式,图1示出了本公开一示例性实施方式中的车载人机交互方法流程图。参阅图1所示,车载人机交互方法包括以下步骤s101至步骤s104。
31.在步骤s101中,获取车内用户发出的语音意图信息。
32.本公开中,车内用户发出的语音意图信息中包括有用户意图对某一个或多个车机部件执行的操作。例如,该语音意图信息可以是“关闭”、“打开”、“调低”、“调高”等中的一项或多项。
33.在步骤s102中,获取车内用户发出语音意图信息时的语境信息。
34.其中,语境信息可以理解为是与用户发出语音意图信息相关的语言环境信息。其中,该语言环境信息用于确定与用户发出的语音意图信息中包括的操作所匹配的车机部件。例如语境信息可以是对话上文信息,也可以是车机部件信息,还可以是与车内用户当前注意力相关联的信息。
35.在步骤s103中,基于获取的语境信息,得到语音意图信息的意图理解结果。
36.其中,基于语境信息得到的意图理解结果中包括有与语音意图信息中包括的操作匹配的车机部件。
37.在步骤s104中,对意图理解结果中包括的车机部件,执行语音意图信息中包括的操作。
38.本公开提供的用于车载人机交互的方法,获取车内用户发出语音意图信息时的语境信息,并基于车内用户发出语音意图信息时的语境信息,得到语音意图信息的意图理解结果,进而利用除发出语音意图信息的听觉系统之外的其他信息进行意图理解,也可以理解为是一种基于多模态进行跨模态的意图理解,提高意图理解的准确性。
39.本公开一种实施方式中,获取到车内用户发出语音意图信息时,可以对获取到的语音意图信息进行语音识别并进行与语境信息无关的意图理解。例如,基于对语音意图信息进行语音识别后得到的语义信息,并基于语义信息得出意图理解结果。
40.其中,一方面若成功完成对语音意图信息与语境信息无关的意图理解并得到意图理解结果,在该意图理解结果中包括有与语音意图信息中包括的操作匹配的车机部件,则可以对意图理解结果中包括的车机部件,执行语音意图信息中包括的操作。
41.另一方面,若进行与语境信息无关的意图理解未成功,则可以获取车内用户发出语音意图信息时的语境信息,并基于语境信息,理解车内用户发出的语音意图信息,得到语音意图信息的意图理解结果。
42.本公开中,获取到车内用户发出语音意图信息时,对获取到的语音意图信息进行与语境信息无关的意图理解,并在成功完成对语音意图信息进行意图理解的情况下,得到意图理解结果,保证车载人机交互的实施效率。在对语音意图信息理解未成功的情况下,基于语境信息对语音意图信息进行意图理解,能够提高意图理解成功的可能性。
43.本公开以下对基于语境信息对语音意图信息进行意图理解的实施过程进行说明。
44.一种实施方式中,本公开中获取的语境信息可以包括车内用户关注的车机部件。其中,车内用户关注的车机部件可以理解为是车内用户注意力关注的车机部件。通常用户需要操作某一车机部件时,会关注待操作的车机部件,故通过用户关注的车机部件,对语音意图信息进行意图理解,可以提高意图理解的准确度。
45.本公开中获取车内用户关注的车机部件时,一方面可以在获取车内用户发出语音意图信息时,确定车内用户视线关注的车机部件。将车内用户视线关注的车机部件,确定为用户关注的车机部件。将该用户关注的车机部件作为语境信息,对语音意图信息进行意图理解,能够在上文语境缺省时,使用视线关注信息做补充,降低复述率,提高意图理解的准确度。
46.另一方面,可以在获取车内用户发出语音意图信息时,确定车内用户手势所指向的车机部件。将车内用户手势所指向的车机部件,确定为用户关注的车机部件。将该用户关注的车机部件作为语境信息,对语音意图信息进行意图理解,能够在上文语境缺省时,使用手势关注信息做补充,降低复述率,提高意图理解的准确度。
47.一示例性实施方式中,当车内用户的语音意图信息表述为“关闭”时。如果只根据当前的语音意图信息,对话系统无法完成对该语音意图信息的意图判断。结合当前语境确定车内用户视线关注在“左前空调”上,进而可以确定该语音意图信息的意图理解结果“左前空调”,进而执行“关闭左前空调”。
48.本公开另一种实施方式中,获取的语境信息还可以包括车机部件运行状态信息。其中,车机部件运行状态信息可以用于确定当前处于开启状态(运行状态)或关闭状态(非运行状态)的车机部件。基于车机部件运行状态信息能够进一步辅助确定语音意图信息的意图理解结果,提高语音意图信息意图理解的准确率。
49.一示例性实施方式中,当车内用户的语音意图信息表述为“关闭”,并且对语音意图信息进行意图理解的意图理解结果“左前空调”,且“左前空调”处于“开启”状态,可以确定语音意图信息的意图理解结果“左前空调”是有一定正确率的,后续可以执行“关闭左前空调”。然而,若“左前空调”处于“关闭”状态,则确定语音意图信息的意图理解结果为“左前空调”是不正确的。
50.本公开又一种实施方式中,获取的语境信息还可以包括语音意图信息的上文信息。基于上文信息确定语音意图信息的意图理解结果,提高语音意图信息意图理解的准确率。
51.一示例性实施方式中,当车内用户的语音意图信息表述为“关闭”,并且对语音意图信息进行意图理解的意图理解结果“左前空调”。若对话上文信息中车内用户的语音意图信息为“打开左前空调”,则可以确定语音意图信息的意图理解结果“左前空调”是有一定正确率的,后续可以执行“关闭左前空调”。
52.本公开示例性实施方式中,语境信息可以包括以下至少一项:车内用户关注的车机部件、车机部件运行状态信息、以及语音意图信息的上文信息。
53.作为示例性实施方式,图2示出了本公开一示例性实施方式中的车载人机交互方法流程图。参阅图2所示,车载人机交互方法中,获取车内用户发出的语音意图信息,并对语音意图信息进行语音识别。针对语音识别后的语音意图信息进行与语境信息无关的意图理
解,并确定与语境信息无关的意图理解是否理解成功。若与语境信息无关的意图理解成功,则可以直接得到意图理解结果。若与语境信息无关的意图理解不成功,则可以获取语境信息。该语境信息可以是车内用户关注的车机部件、车机部件运行状态信息、以及语音意图信息的上文信息中的至少一项。基于语境信息,对语音意图信息进行意图理解,以得到意图理解结果。
54.其中,本公开上述实施方式中涉及的车内用户关注的车机部件的用户感知信息,可以使用基于深度神经网络的计算机视觉技术识别。车机部件的运行状态信息通过车机控制局域网网络总线(controller area network,can)得到。语音意图信息的上文信息通过对话管理(dialog management,dm)记录得到。
55.一示例性实施方式中,语境信息包括车内用户关注的车机部件以及语音意图信息的上文信息。比如,当车内用户的语音意图信息表述为“关闭”,对话上文信息中车内用户的语音意图信息为“打开左前空调”,车内用户关注的车机部件为“左前空调”,则可以确定语音意图信息的意图理解结果“左前空调”是有一定正确率的,后续可以执行“关闭左前空调”。
56.另一示例性实施方式中,语境信息包括车内用户关注的车机部件、车机部件运行状态信息以及语音意图信息的上文信息。比如,当车内用户的语音意图信息表述为“关闭”,对话上文信息中车内用户的语音意图信息为“打开左前空调”,车内用户关注的车机部件为“左前空调”,且“左前空调”处于“开启”状态,可以确定语音意图信息的意图理解结果“左前空调”是有一定正确率的,后续可以执行“关闭左前空调”。
57.本公开提供的用于车载人机交互的方法中,在进行语音意图信息理解时,可以结合上文信息、用户感知信息以及车机部件运行状态信息,相对单独的依据上文信息进行意图理解,能够提升意图理解的准确率。
58.本公开提供的用于车载人机交互的方法中,还可以获取车机部件知识图谱。其中,车机部件知识图谱用于描述不同车机部件以及各车机部件所对应支持的操作。也可以理解为是车机部件知识图谱中描述有车机部件支持的操作,和/或,操作对应支持的车机部件。其中,通过车机部件知识图谱能够针对某一指定车机部件,确定出该指定车机部件能够被执行的操作。也可以针对某一指定操作,确定出该指定操作所对应的车机部件。其中,融合车机部件知识图谱和语境信息,得到语音意图信息的意图理解结果,以进一步提升意图理解的准确率。
59.本公开一示例性实施方式中以车机部件为空调为例进行说明。图3示出了本公开一示例性实施方式中基于空调的知识图谱和语境信息进行意图理解的过程示意图。
60.参阅图3所示,基于注意力识别机制确定车内用户关注的车机部件为空调。例如,本公开中可以基于视线追踪技术确定用户视线关注的车机部件为空调或基于手势识别技术识别用户手势指向空调。本公开中还可以基于语音意图信息的上文信息进行意图理解。基于语音意图信息的上文信息进行意图理解确定上文信息中包括有空调。本公开中还可以获取车机部件运行状态信息。例如,获取到空调处于开启状态,或者关闭状态。其中,若用户发出的语音意图信息为“打开”,则候选意图理解结果可以是“打开空调”和“打开风扇”。但是基于空调知识图谱,可以确定若打开风扇需要先打开空调,若此时空调处于关闭状态,故本公开中可以确定意图理解结果为“打开空调”,后续可以对空调执行打开操作。再例如,车
内用户发出的语音意图信息为“调高一点”,基于空调的知识图谱,可以确定调高的操作对象为“空调的温度”,进而确定意图理解结果为“空调的温度”,后续对空调的温度执行调高操作,例如将空调的温度调高1
°

61.其中,由于车机部件知识图谱内的车机部件与操作关系数据量比较多,故,本公开一种实施方式中,基于车机部件知识图谱和语境信息,得到语音意图信息的意图理解结果时,可以先基于语境信息对车内用户发出语音意图信息进行意图理解,得到候选意图理解结果,然后基于车机部件知识图谱对得到的候选意图理解结果进行筛选。例如,本公开一示例性实施方式中,可以设定用于筛选候选意图理解结果的预设条件,进而基于预设条件筛选候选意图理解结果,以保留满足预设条件的意图理解结果。
62.其中,本公开实施例中涉及的预设条件可以是基于车机部件知识图谱中描述的车机部件以及车机部件对应的操作,进行设定。
63.作为示例性实施方式,图4示出了本公开一示例性实施方式中车载人机交互中进行意图理解的方法流程图。参阅图4所示,车载人机交互中进行意图理解的方法包括以下步骤s401至步骤s403。
64.在步骤s401中,基于语境信息,得到至少一个候选意图理解结果,每一候选意图理解结果中包括操作以及操作匹配的车机部件。
65.在步骤s402中,基于车机部件知识图谱,在至少一个候选意图理解结果中确定满足预设条件的候选意图理解结果。
66.在步骤s403中,在满足预设条件的候选意图理解结果中,确定语音意图信息的意图理解结果。
67.其中,本公开实施例中满足预设条件的候选意图理解结果中包括的车机部件对应的操作为车机部件知识图谱中描述的车机部件支持的操作。
68.一示例性实施方式中,例如,车内用户发出的语音意图信息为“调高”,确定的候选意图理解结果包括有“调高-空调温度”、“调高-天窗”、“调高-车窗”等,基于天窗的知识图谱确定天窗支持的操作为开启或关闭,进而确定“调高-天窗”并不合理,故,可以在候选意图理解结果中去除“调高-天窗”,保留“调高-空调温度”、“调高-车窗”等。
69.本公开实施例中,先基于语境信息对车内用户发出语音意图信息进行意图理解,得到候选意图理解结果,然后基于车机部件知识图谱对得到的候选意图理解结果进行预设条件判断,一方面能够保留满足预设条件的意图理解结果,另一方面也可以减少信息处理量,提高意图理解效率。
70.进一步的,本公开中若进行预设条件判断以后得到的候选意图理解结果中包括多个候选意图理解结果,则可进一步在多个候选意图理解结果中选择最终的意图理解结果。
71.一种实施方式中,本公开可以基于车机部件运行状态信息和/或语音意图信息的上文信息,对多个候选意图理解结果进行打分,并将分值最高的候选意图理解结果,作为语音意图信息的意图理解结果。
72.一示例中,本公开中基于车机部件运行状态信息对多个候选意图理解结果进行打分时,可以基于候选意图理解结果进行打分。按照合理程度由高到低的候选意图理解结果进行分值由高到低的打分。其中,合理程度是基于车内用户发出语音意图信息时的车机部件运行状态进行确定的。比如候选意图理解结果包括“关闭-左前空调”,但是“左前空调”如
果处于“关闭”状态,则“关闭-左前空调”这个候选意图理解结果的合理程度偏低,得分会偏低。
73.一示例中,本公开中基于语音意图信息的上文信息对多个候选意图理解结果进行打分时,可以基于上文信息中是否包括候选意图理解结果中包括的车机部件进行不同分值打分。按照合理程度由高到低的候选意图理解结果进行分值由高到低的打分。其中,合理程度是基于车内用户发出语音意图信息的上下文信息进行确定的。比如,比如候选意图理解结果包括“关闭-左前空调”,但是“左前空调”未出现在上文信息中,则“关闭-左前空调”这个候选意图理解结果得分会偏低。
74.本公开中,基于车机部件运行状态信息和/或语音意图信息的上文信息,对多个候选意图理解结果进行打分时,可以调用预先训练得到的意图理解打分模型,将车机部件运行状态信息和/或语音意图信息输入至意图理解打分模型,得到候选意图理解结果的分值。
75.其中,对于意图理解打分模型的训练过程,本公开在此不作限定,可以将车机部件运行状态信息和/或语音意图信息的上文信息作为模型输入,意图理解结果的分值作为输出,进行训练。
76.本公开中,基于意图理解打分模型对候选意图理解结果进行打分,并选择分值最高的候选意图理解结果作为最终的候选意图理解结果,能够进一步得到满足预设条件,且准确度相对较高的意图理解结果。
77.基于本公开上述提供的用于车载人机交互的方法,作为一示例性实施方式,图5示出了本公开一示例性实施例中提供的车载人机交互方法流程示意图。参阅图5所示,获取车内用户发出的语音意图信息,并对语音意图信息进行语音识别。针对语音识别后的语音意图信息进行与语境信息无关的意图理解,并确定与语境信息无关的意图理解是否理解成功。若与语境信息无关的意图理解成功,则可以直接得到意图理解结果。若与语境信息无关的意图理解不成功,则可以获取语境信息。该语境信息可以是车内用户关注的车机部件、车机部件运行状态信息、以及语音意图信息的上文信息中的至少一项。基于语境信息,对语音意图信息进行意图理解,以得到候选意图理解结果。获取车机部件知识图谱,基于车机部件知识图谱,对候选意图理解结果进行筛选,初步筛选得到满足预设条件的候选意图理解结果。基于意图理解打分模型对候选意图理解结果打分,最终选择分值最高的候选意图理解结果作为对用户发出的语音意图信息进行意图理解的意图理解结果。
78.本公开提供的车载人机交互的方法中,在语音意图信息理解失败的情况下,基于车内用户发出语音意图信息时的语境信息(对话上文信息、车内用户关注的车机部件、以及处于运行状态或非运行状态的车机部件),得到语音意图信息的候选意图理解结果,进而利用除发出语音意图信息的听觉系统之外的其他信息进行意图理解,提高意图理解的准确性。并且基于意图理解打分模型对候选意图理解结果进行打分,将分值最高的意图理解结果作为最终对语音意图信息进行意图理解的意图理解结果,进一步保证意图理解的准确性。通过实现一种基于多模态进行跨模态的意图理解,提高车载人机交互过程中意图理解的准确性。
79.基于相同的构思,本公开还提供一种用于车载人机交互的装置。
80.可以理解的是,本公开实施例提供的用于车载人机交互的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的
各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
81.图6示出了本公开一示例性实施方式中提供的用于车载人机交互的装置的框图。参阅图6所示,车载人机交互的装置600包括获取单元601、处理单元602和执行单元603。
82.获取单元601,用于获取车内用户发出的语音意图信息,语音意图信息中包括对车机部件执行的操作,并获取车内用户发出语音意图信息时的语境信息,语境信息为用于确定与语音意图信息中包括的操作匹配的车机部件的信息。
83.处理单元602,用于基于语境信息,得到语音意图信息的意图理解结果,意图理解结果中包括与操作匹配的车机部件。
84.执行单元603,用于对意图理解结果中包括的车机部件,执行语音意图信息中包括的操作。
85.其中,语境信息中包括以下至少一项:车内用户关注的车机部件、车机部件运行状态信息、语音意图信息的上文信息。
86.其中,获取单元601还用于:获取车机部件知识图谱,车机部件知识图谱用于描述不同车机部件以及各车机部件所对应支持的操作。
87.处理单元602采用如下方式基于语境信息,得到语音意图信息的意图理解结果:基于车机部件知识图谱和语境信息,得到语音意图信息的意图理解结果。
88.其中,处理单元602采用如下方式基于车机部件知识图谱和语境信息,得到语音意图信息的意图理解结果:基于语境信息,得到至少一个候选意图理解结果,每一候选意图理解结果中包括操作以及操作匹配的车机部件。基于车机部件知识图谱,在至少一个候选意图理解结果中确定满足预设条件的候选意图理解结果,其中,满足预设条件的候选意图理解结果中包括的车机部件对应的操作为车机部件知识图谱中描述的车机部件支持的操作。在满足预设条件的候选意图理解结果中,确定语音意图信息的意图理解结果。
89.若候选意图理解结果中包括多个候选意图理解结果,则处理单元602基于车机部件运行状态信息和/或上文信息,对多个候选意图理解结果进行打分,并将分值最高的候选意图理解结果,作为语音意图信息的意图理解结果。
90.其中,语境信息中包括车内用户关注的车机部件。获取单元601采用如下方式获取车内用户发出语音意图信息时的语境信息:
91.获取车内用户发出语音意图信息时,车内用户视线关注的车机部件。和/或获取车内用户发出语音意图信息时,车内用户手势所指向的车机部件。
92.关于上述实施方式中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
93.本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
94.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
95.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子
设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
96.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
97.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
98.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如车载人机交互的方法。例如,在一些实施例中,车载人机交互的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的车载人机交互的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行车载人机交互的方法。
99.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
100.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
101.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
102.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
103.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
104.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
105.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
106.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:


1.一种车载人机交互的方法,包括:获取车内用户发出的语音意图信息,所述语音意图信息中包括对车机部件执行的操作;获取车内用户发出所述语音意图信息时的语境信息,所述语境信息为与用户发出所述语音意图信息相关的语言环境信息;基于所述语境信息,得到所述语音意图信息的意图理解结果,所述意图理解结果中包括与所述操作匹配的车机部件;对所述意图理解结果中包括的车机部件,执行所述语音意图信息中包括的操作。2.根据权利要求1所述的方法,其中,所述语境信息中包括以下至少一项:所述车内用户关注的车机部件、车机部件运行状态信息、所述语音意图信息的上文信息。3.根据权利要求1或2所述的方法,还包括:获取车机部件知识图谱,所述车机部件知识图谱用于描述不同车机部件以及各车机部件所对应支持的操作;所述基于所述语境信息,得到所述语音意图信息的意图理解结果,包括:基于所述车机部件知识图谱和所述语境信息,得到所述语音意图信息的意图理解结果。4.根据权利要求3所述的方法,其中,所述基于所述车机部件知识图谱和所述语境信息,得到所述语音意图信息的意图理解结果,包括:基于所述语境信息,得到至少一个候选意图理解结果,每一候选意图理解结果中包括所述操作以及所述操作匹配的车机部件;基于所述车机部件知识图谱,在所述至少一个候选意图理解结果中确定满足预设条件的候选意图理解结果,其中,所述满足预设条件的候选意图理解结果中包括的车机部件对应的操作为所述车机部件知识图谱中描述的所述车机部件支持的操作;在满足所述预设条件的候选意图理解结果中,确定所述语音意图信息的意图理解结果。5.根据权利要求4所述的方法,所述在满足所述预设条件的候选意图理解结果中,确定所述语音意图信息的意图理解结果,包括:若所述候选意图理解结果中包括多个候选意图理解结果,则基于车机部件运行状态信息和/或语音意图信息的上文信息,对所述多个候选意图理解结果进行打分,并将分值最高的候选意图理解结果,作为所述语音意图信息的意图理解结果。6.根据权利要求1-5中任意一项所述的方法,其中,所述语境信息中包括所述车内用户关注的车机部件;所述获取车内用户发出所述语音意图信息时的语境信息,包括:获取车内用户发出所述语音意图信息时,所述车内用户视线关注的车机部件;和/或获取车内用户发出所述语音意图信息时,所述车内用户手势所指向的车机部件。7.一种车载人机交互的装置,包括:获取单元,用于获取车内用户发出的语音意图信息,所述语音意图信息中包括对车机部件执行的操作,并获取车内用户发出所述语音意图信息时的语境信息,所述语境信息为
与用户发出所述语音意图信息相关的语言环境信息;处理单元,用于基于所述语境信息,得到所述语音意图信息的意图理解结果,所述意图理解结果中包括与所述操作匹配的车机部件;执行单元,用于对所述意图理解结果中包括的车机部件,执行所述语音意图信息中包括的操作。8.根据权利要求7所述的装置,其中,所述语境信息中包括以下至少一项:所述车内用户关注的车机部件、车机部件运行状态信息、所述语音意图信息的上文信息。9.根据权利要求7或8所述的装置,所述获取单元还用于:获取车机部件知识图谱,所述车机部件知识图谱用于描述不同车机部件以及各车机部件所对应支持的操作;所述处理单元采用如下方式基于所述语境信息,得到所述语音意图信息的意图理解结果:基于所述车机部件知识图谱和所述语境信息,得到所述语音意图信息的意图理解结果。10.根据权利要求9所述的装置,其中,所述处理单元采用如下方式基于所述车机部件知识图谱和所述语境信息,得到所述语音意图信息的意图理解结果:基于所述语境信息,得到至少一个候选意图理解结果,每一候选意图理解结果中包括所述操作以及所述操作匹配的车机部件;基于所述车机部件知识图谱,在所述至少一个候选意图理解结果中确定满足预设条件的候选意图理解结果,其中,所述满足预设条件的候选意图理解结果中包括的车机部件对应的操作为所述车机部件知识图谱中描述的所述车机部件支持的操作;在满足所述预设条件的候选意图理解结果中,确定所述语音意图信息的意图理解结果。11.根据权利要求10所述的装置,所述处理单元用于采用如下方式在满足所述预设条件的候选意图理解结果中,确定所述语音意图信息的意图理解结果:若所述候选意图理解结果中包括多个候选意图理解结果,则基于车机部件运行状态信息和/或语音意图信息的上文信息,对所述多个候选意图理解结果进行打分,并将分值最高的候选意图理解结果,作为所述语音意图信息的意图理解结果。12.根据权利要求7-11中任意一项所述的装置,其中,所述语境信息中包括所述车内用户关注的车机部件;所述获取单元采用如下方式获取车内用户发出所述语音意图信息时的语境信息:获取车内用户发出所述语音意图信息时,所述车内用户视线关注的车机部件;和/或获取车内用户发出所述语音意图信息时,所述车内用户手势所指向的车机部件。13.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于
使所述计算机执行根据权利要求1-6中任一项所述的方法。15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结


本公开提供了用于车载人机交互的方法、装置、设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及应用于车载人机交互技术领域中的意图理解技术。具体实现方案为:获取车内用户发出的语音意图信息,所述语音意图信息中包括对车机部件执行的操作;获取车内用户发出所述语音意图信息时的语境信息,所述语境信息为与用户发出所述语音意图信息相关的语言环境信息;基于所述语境信息,得到所述语音意图信息的意图理解结果,所述意图理解结果中包括与所述操作匹配的车机部件;对所述意图理解结果中包括的车机部件,执行所述语音意图信息中包括的操作。通过本公开能够准确的得到语音意图信息的意图理解结果。意图信息的意图理解结果。意图信息的意图理解结果。


技术研发人员:

庞敏辉

受保护的技术使用者:

北京百度网讯科技有限公司

技术研发日:

2022.04.08

技术公布日:

2022/8/2

本文发布于:2024-09-24 05:31:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/21051.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:意图   信息   所述   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议