一种基于角画像的交流辅助方法、装置及存储介质与流程



1.本发明涉及人工智能技术领域,具体涉及一种基于角画像的交流辅助方法、装置及存储介质。


背景技术:



2.在社会交际过程中,人们通常采用语音沟通进行信息传递。然后在一些场合下,交流对象间通过语音沟通会存在交流障碍,特别是如交流对象涉及听力障碍人士、语音障碍人士时,可能存在沟通不便的问题。随着计算机技术的发展,特别是语音识别技术和计算机视觉技术的发展,人们试图通过计算机来解决上述问题。
3.但是,在利用计算机对语音进行识别,以辅助交流时,由于语音识别存在一定的误差以及口语交流过程中,用户发音及用词存在着不准确性,可能导致语音识别结果与用户真实表达意图间存在较大差异,甚至出现南辕北辙的情况,目前尚未有成熟的辅助交流系统。


技术实现要素:



4.本发明正是基于上述问题,提出了一种基于角画像的交流辅助方法、装置及存储介质,通过本发明的方案,不仅能在交流出现阻碍时及时启动辅助措施,也能通过角画像提供精确的交流行为解释,还能提供对解释结果提供多种输出形式,以最大程度地匹配当前交流场景,给用户带来贴心的体验。
5.有鉴于此,本发明的一方面提出了一种基于角画像的交流辅助方法,包括:
6.采集包含多个交流对象的视频数据和音频数据;
7.根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;
8.当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系;
9.根据所述角关系获取各个交流对象各自对应的角画像;
10.基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;
11.对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出。
12.可选地,所述根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助的步骤,包括:
13.从所述视频数据中提取第一动作数据和/或第一人脸数据;和/或,
14.从所述音频数据中提取第一语音数据;
15.判断所述第一动作数据是否有表示存在交流阻碍的动作行为和/或所述第一人脸数据中是否有表示存在交流阻碍的表情和/或所述第一语音数据中是否有表示存在交流阻碍的关键词;
16.当所述第一动作数据中有表示存在交流阻碍的动作行为和/或所述第一人脸数据
中有表示存在交流阻碍的表情和/或所述第一语音数据中有表示存在交流阻碍的关键词时,确定需要启动交流辅助。
17.可选地,所述通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系的步骤,包括:
18.对所述音频数据进行第一类关键词检索;
19.对所述视频数据进行第二类关键信息检索;
20.当检索到所述第二类关键信息时,根据所述第二类关键信息确定当前交流场所;
21.当检索到所述第一类关键词时,根据所述当前交流场所、所述第一类关键词及所述第一类关键词所属语句所关联的交流对象,确定多个交流对象之前的角关系。
22.可选地,所述交流行为数据包括:
23.交流语言数据、交流动作数据和/或交流表情数据。
24.可选地,所述基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果的步骤,包括:
25.对所述多个交流对象分别配置唯一的对象标识;
26.对所述交流行为数据按产生时间进行排序,并将其按交流对象的不同,对数据进行分段,得到多个交流行为数据段;
27.对所述多个交流行为数据段分别标记对应的所述对象标识;
28.根据对应的交流对象的角画像,利用角特征标签,对标记了所述对象标识的交流行为数据段进行解释;
29.将所有所述交流行为数据段的解释结果进行融合,得到第一解释结果。
30.可选地,所述对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出的步骤,包括:
31.对所述第一解释结果进行预设的数据处理,得到多种输出形式的输出数据;
32.获取当前交流场景的信息,并根据交流场景与输出形式之间的对应关系,选择出与所述当前交流场景匹配的第一输出形式;
33.根据所述第一输出形式,从所述输出数据中选择第一输出数据;
34.将所述第一输出数据进行呈现。
35.可选地,所述判断所述第一动作数据是否有表示存在交流阻碍的动作行为和/或所述第一人脸数据中是否有表示存在交流阻碍的表情和/或所述第一语音数据中是否有表示存在交流阻碍的关键词的步骤,包括:
36.从所述第一动作数据中识别并提取手势动作,进行手势识别,得到第一手势数据,和/或,
37.对所述第一人脸数据进行人脸表情特征提取,得到第一表情数据,和/或,
38.对所述第一语音数据进行语音识别,得到第一语音识别数据;
39.判断所述第一手势数据是否有表示存在交流阻碍的手势,和/或,
40.判断所述第一表情数据中是否有表示存在交流阻碍的表情,和/或,
41.判断所述第一语音识别数据中是否有表示存在交流阻碍的关键词。
42.可选地,所述采集包含多个交流对象的视频数据和音频数据的步骤之前,还包括:
43.从多个交流对象中确定第一对象与第二对象之间的关系,并利用所述第一对象和
所述第二对象各自的唯一的对象标识生成第一关系标签;
44.获取所述第一对象和所述第二对象之间的第一交流行为数据;
45.根据所述第一交流行为数据和所述第一关系标签,构建所述第一对象的第一角画像、所述第二对象的第二角画像;
46.重复前述操作,直至所有交流对象均按不同角建立了角画像。
47.本发明的另一方面提供一种基于角画像的交流辅助装置,包括:采集模块、判断模块、角关系确定模块、角画像获取模块、解释模块和输出模块;
48.所述采集模块,用于采集包含多个交流对象的视频数据和音频数据;
49.所述判断模块,用于根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;
50.所述角关系确定模块,用于当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系;
51.所述角画像获取模块,用于根据所述角关系获取各个交流对象各自对应的角画像;
52.所述解释模块,用于基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;
53.所述输出模块,用于对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出。
54.本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如前述任一所述基于角画像的交流辅助方法。
55.采用本发明的技术方案,首先通过采集包含多个交流对象的视频数据和音频数据,其次根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系,然后根据所述角关系获取各个交流对象各自对应的角画像;接着基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;最后对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出,不仅能在交流出现阻碍时及时启动辅助措施,也能通过角画像提供精确的交流行为解释,还能提供对解释结果提供多种输出形式,以最大程度地匹配当前交流场景,给用户带来贴心的体验。
附图说明
56.图1是本发明一个实施例提供的基于角画像的交流辅助方法流程图;
57.图2是本发明另一个实施例中根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助的步骤的流程图;
58.图3是本发明另一个实施例中通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系的步骤的流程图;
59.图4是另一个实施例提供的基于所述角画像分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果的步骤的流程图;
60.图5是本发明一个实施例提供的对所述第一解释结果进行处理并以匹配当前交流场景的形式进行输出的步骤的流程图;
61.图6本发明一个实施例提供的基于角画像的交流辅助装置的示意框图。
具体实施方式
62.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
63.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
64.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
65.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
66.下面参照图1至图6来描述根据本发明一些实施方式提供的一种基于角画像的交流辅助方法、装置及存储介质。
67.如图1所示,本发明一个实施例提供一种基于角画像的交流辅助方法,包括:
68.采集包含多个交流对象的视频数据和音频数据;
69.根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;
70.当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系;
71.根据所述角关系获取各个交流对象各自对应的角画像;
72.基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;
73.对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出。
74.可以理解的是,在人们的交流过程中,因地方文化、教育背景、社会经历、专业领域、口音、生活习惯、所用语言等方面的差异,导致在交流过程中存在词不达意、无法表达、无法理解等状况,特别是在交流对象中存在有生理缺陷的人士时,交流障碍就更大。当存在交流障碍的情况出现时,就需要进行交流辅助,以便交流对象能准确理解相互之间的交流行为(如语言、手势、表情等),从而作出正确的反馈。
75.应当说明的是,本发明实施例提供的一种基于角画像的交流辅助方法可以应用于智能终端,如智能手机、电脑、智能电视等,还可以用于对讲设备、机器人、门禁系统、智慧医疗系统和智能教学系统等。
76.在本发明的实施例中,可以通过图像采集模块的图像采集单元(如摄像头)和语音采集单元(如麦克风)分别获取视频数据和音频数据,也可以通过通信网络从服务器或其他智能终端获取所述视频数据和所述音频数据。在采集所述视频数据和所述音频数据的过程中,同时将视频内容或语音内容发生场景的相关信息分别作为所述视频数据和所述音频数据的属性信息进行保存。
77.所述交流行为数据包括但不限于:交流语言数据、交流动作数据和/或交流表情数据。
78.采用该实施例的技术方案,首先通过采集包含多个交流对象的视频数据和音频数据,其次根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系,然后根据所述角关系获取各个交流对象各自对应的角画像;接着基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;最后对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出,不仅能在交流出现阻碍时及时启动辅助措施,也能通过角画像提供精确的交流行为解释,还能提供对解释结果提供多种输出形式,以最大程度地匹配当前交流场景,给用户带来贴心的体验。
79.如图2所示,在本发明一些可能的实施方式中,所述根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助的步骤,包括:
80.从所述视频数据中提取第一动作数据和/或第一人脸数据;和/或,
81.从所述音频数据中提取第一语音数据;
82.判断所述第一动作数据是否有表示存在交流阻碍的动作行为和/或所述第一人脸数据中是否有表示存在交流阻碍的表情和/或所述第一语音数据中是否有表示存在交流阻碍的关键词;
83.当所述第一动作数据中有表示存在交流阻碍的动作行为和/或所述第一人脸数据中有表示存在交流阻碍的表情和/或所述第一语音数据中有表示存在交流阻碍的关键词时,确定需要启动交流辅助。
84.可以理解的是,从所述视频数据中提取第一动作数据包括:从所述视频数据中以帧为单位提取图片,将相邻帧的各个像素的灰度、亮度或颜等分成n(n为正整数)个等级,再针对每个等级统计像素数做成直方图比较,将直方图差值小于预设阈值的帧划为一组,融合为新的图像帧;分别提取新的图像帧的颜特征、纹理特征和形状特征,从而提取出关键帧;从关键帧中提取动态特征,如对象的运动、运动轨迹、相对速度、对象之间位置的变化等。根据所述动态特征,可以得到人体关键部位的第一动作数据,所述第一动作数据可以是如手势、点头、摇头、耸肩等动作。
85.应当说明的是,从所述视频数据中还可以提取第一人脸数据,具体为:从所述视频数据的以帧为单位提取多个图片,将图片灰度化,依次将所有灰度化后的图片输入人脸分类器,得到人脸图片集;将人脸图片集中的图片压缩为像素值为64*64并灰度化处理得到待识别人脸图片集;将所述待识别人脸图片集输入已训练好的卷积神经网络,进行人脸识别,并提取第一人脸数据。
86.从所述音频数据中提取第一语音数据,具体为:从所述音频数据中提取特征向量,利用训练好的声学模型、语音对照字典和训练好的语言模型对特征向量进行语音解码和字
词搜索得到识别后的文本信息/数据。其中,所述声学模型的训练过程为:从现有的音频数据库中提供特征向量,输入神经网络进行声学模型训练得到声学模型。所述语言模型的训练过程为:从现有的文本数据库中提取文本样本数据,输入神经网络进行语言模型训练得到语言模型。
87.本实施例通过动作识别、人脸识别、语音识别等技术,对所述视频数据和/或所述音频数据进行识别与分析,以判断是否有表示存在交流阻碍的动作行为和/或表情和/或关键词,当存在时,启动交流辅助,不仅能智能地自动提供交流辅助服务,还能保证提供服务的及时性与准确度。
88.如图3所示,在本发明一些可能的实施方式中,所述通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系的步骤,包括:
89.对所述音频数据进行第一类关键词检索;
90.对所述视频数据进行第二类关键信息检索;
91.当检索到所述第二类关键信息时,根据所述第二类关键信息确定当前交流场所;
92.当检索到所述第一类关键词时,根据所述当前交流场所、所述第一类关键词及所述第一类关键词所属语句所关联的交流对象,确定多个交流对象之前的角关系。
93.在本实施例中,所述第一类关键词包括能表征身份/角信息、角关系信息等的称呼、敬语、特殊用词等。对所述音频数据进行语音识别后进行转换得到文本信息,对所述文本信息进行关键词检索,即可以确定是否存在第一类关键词。
94.可以理解的是,所述视频数据中可能包含能表征交流场所的信息,如“xx医院”、“xx公司”、“xx小区”、“xx商场”等字样,以及特殊环境信息(如能指向特定场所的装潢、人物着装等)。
95.本实施例根据所述当前交流场所、所述第一类关键词及所述第一类关键词所属语句所关联的交流对象,可以确定多个交流对象之前的角关系,进而为解释交流对象之间的交流行为以及为交流对象提供正确的交流表达形式提供了参考,有利于交流的顺利进行。
96.如图4所示,在本发明一些可能的实施方式中,所述基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果的步骤,包括:
97.对所述多个交流对象分别配置唯一的对象标识;
98.对所述交流行为数据按产生时间进行排序,并将其按交流对象的不同,对数据进行分段,得到多个交流行为数据段;
99.对所述多个交流行为数据段分别标记对应的所述对象标识;
100.根据对应的交流对象的角画像,利用角特征标签,对标记了所述对象标识的交流行为数据段进行解释;
101.将所有所述交流行为数据段的解释结果进行融合,得到第一解释结果。
102.可以理解的是,本实施例中,通过对所述多个交流对象分别配置唯一的对象标识,将属于同一交流对象的多个交流行为数据片段,利用从同一交流对象的角画像中提取的角特征标签进行解释;将所有交流行为数据片段都解释完后,再按时间顺序将解释结果进行融合,得到第一解释结果。本实施例通过对交流行为数据进行分段,可以化整为零,多个片段同时进行处理,提高处理效率;同时将属于同一交流对象的交流行为数据片段放到
一起处理也可以避免出现错误,提高了准确率。
103.如图5所示,在本发明一些可能的实施方式中,所述对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出的步骤,包括:
104.对所述第一解释结果进行预设的数据处理,得到多种输出形式的输出数据;
105.获取当前交流场景的信息,并根据交流场景与输出形式之间的对应关系,选择出与所述当前交流场景匹配的第一输出形式;
106.根据所述第一输出形式,从所述输出数据中选择第一输出数据;
107.将所述第一输出数据进行呈现。
108.可以理解的是,在得到所述第一解释结果后,为了以最适合交流对象接收的形式进行输出,在本实施例中,预存有交流场景与输出形式之间的对应关系,当对所述第一解释结果进行预设的数据处理(如格式转换、音效调节、生成动画、生成手语手势等),得到多种输出形式的输出数据后,获取当前交流场景的信息,从而可以确定与所述当前交流场景匹配的第一输出形式,根据所述第一输出形式,从所述输出数据中选择第一输出数据,将所述第一输出数据进行呈现,比如以交流对象熟悉的方言进行播放语音,或者以演示手语的动画形式播放视频,或者以音视频结合的其他形式进行呈现。
109.在本发明一些可能的实施方式中,所述判断所述第一动作数据是否有表示存在交流阻碍的动作行为和/或所述第一人脸数据中是否有表示存在交流阻碍的表情和/或所述第一语音数据中是否有表示存在交流阻碍的关键词的步骤,包括:
110.从所述第一动作数据中识别并提取手势动作,进行手势识别,得到第一手势数据,和/或,
111.对所述第一人脸数据进行人脸表情特征提取,得到第一表情数据,和/或,
112.对所述第一语音数据进行语音识别,得到第一语音识别数据;
113.判断所述第一手势数据中是否有表示存在交流阻碍的手势,和/或,
114.判断所述第一表情数据中是否有表示存在交流阻碍的表情,和/或,
115.判断所述第一语音识别数据中是否有表示存在交流阻碍的关键词。
116.可以理解的是,所述第一手势数据可以是手语,判断所述第一手势数据中是否有表示存在交流阻碍的手势,即是判断所述第一手势数据中是否存在表示“不懂”、“听不懂”、“听不见”之类的手语动作。
117.所述第一表情数据可以是如嘴型变化、皱眉、眨眼、瞳孔缩放等动作,可以根据预设的表情特征点,对所述第一人脸数据进行人脸表情特征提取得到;所述表示存在交流阻碍的表情可以是迷惑、茫然、疑问或者对交流无正常反应。
118.所述表示存在交流阻碍的关键词可以是“不懂”、“听不懂”、“听不见”或者其他方言中具有相同或相似意思的词汇。
119.通过本实施例,能对是否存在交流阻碍的判断更加准确无误。
120.在本发明一些可能的实施方式中,所述采集包含多个交流对象的视频数据和音频数据的步骤之前,还包括:
121.步骤一:从多个交流对象中确定第一对象与第二对象之间的关系,并利用所述第一对象和所述第二对象各自的唯一的对象标识生成第一关系标签;
122.可以理解的是,每个用户都具有唯一的对象标识,交流对象之间的关系可以是角
关系如父母、子女、夫妻、朋友、同事、医患或其他基本关系等,而交流对象的角标签可以基于其唯一的对象标识通过预设的规则进行构建,如在唯一的对象标识后加上角字段等,而第一关系标签构建可以是由所述第一对象和所述第二对象的角标签的融合。在本步骤中,随机选取任意两个不同的交流对象作为第一对象与第二对象。
123.步骤二:获取所述第一对象和所述第二对象之间的第一交流行为数据;
124.在本步骤中,交互行为包括闲谈、讨论、教导、命令等,从多个对象/角之间的交互行为数据中(如语音、动作、文字、地理位置、角距离、同时参与人数、背景噪音等),提取所述第一对象和所述第二对象之间的第一交流行为数据。
125.步骤三:根据所述第一交流行为数据和所述第一关系标签,构建所述第一对象的第一角画像、所述第二对象的第二角画像;
126.在本步骤中,通过用词、情感、年龄、性别、教育阶段、口音、爱好等方面建立人物角画像,基于人物角画像及必要的技术手段(关键词识别、情绪识别和态度分析等),建立人物角两两之间的交流行为数据库,交流行为数据库中包含每段交流行为的关系标签(如前述第一关系标签构建而得)。
127.步骤四:重复前述步骤一至步骤三的操作,直至所有交流对象均按不同角建立了角画像。
128.本实施例以交流对象间的角关系为基础、以交流行为数据为依据,构建交流对象的角画像,再利用角画像对新发生的交流行为数据进行解释,执行方法简单,执行效率高,执行结果准确率高。
129.如图6所示,本发明的另一实施例提供一种基于角画像的交流辅助装置600,包括:采集模块601、判断模块602、角关系确定模块603、角画像获取模块604、解释模块605和输出模块606;
130.所述采集模块601,用于采集包含多个交流对象的视频数据和音频数据;
131.所述判断模块602,用于根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;
132.所述角关系确定模块603,用于当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系;
133.所述角画像获取模块604,用于根据所述角关系获取各个交流对象各自对应的角画像;
134.所述解释模块605,用于基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;
135.所述输出模块606,用于对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出。
136.本实施例提供的装置的运行方法请参见前述各方法实施例,在此不再赘述。
137.图6为本实施例中装置的模块组成示意图。可以理解的是,图6仅仅示出了装置的简化设计。在实际应用中,装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等,而所有可以实现本技术实施例的自然语言解释方法的装置都在本技术的保护范围之内。
138.本发明的另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中
存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如前述任一所述基于角画像的交流辅助方法。
139.应当知道的是,图6所示的基于角画像的交流辅助系统的框图仅作示意,其所示出的各模块的数量并不对本发明的保护范围进行限定。
140.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
141.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
142.在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
143.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
144.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
145.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例上述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
146.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-only memory,简称:rom)、随机存取器(英文:random access memory,简称:ram)、磁盘或光盘等。
147.以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会
有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
148.虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。

技术特征:


1.一种基于角画像的交流辅助方法,其特征在于,包括:采集包含多个交流对象的视频数据和音频数据;根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系;根据所述角关系获取各个交流对象各自对应的角画像;基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出。2.根据权利要求1所述的基于角画像的交流辅助方法,其特征在于,所述根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助的步骤,包括:从所述视频数据中提取第一动作数据和/或第一人脸数据;和/或,从所述音频数据中提取第一语音数据;判断所述第一动作数据是否有表示存在交流阻碍的动作行为和/或所述第一人脸数据中是否有表示存在交流阻碍的表情和/或所述第一语音数据中是否有表示存在交流阻碍的关键词;当所述第一动作数据中有表示存在交流阻碍的动作行为和/或所述第一人脸数据中有表示存在交流阻碍的表情和/或所述第一语音数据中有表示存在交流阻碍的关键词时,确定需要启动交流辅助。3.根据权利要求2所述的基于角画像的交流辅助方法,其特征在于,所述通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系的步骤,包括:对所述音频数据进行第一类关键词检索;对所述视频数据进行第二类关键信息检索;当检索到所述第二类关键信息时,根据所述第二类关键信息确定当前交流场所;当检索到所述第一类关键词时,根据所述当前交流场所、所述第一类关键词及所述第一类关键词所属语句所关联的交流对象,确定多个交流对象之前的角关系。4.根据权利要求3所述的基于角画像的交流辅助方法,其特征在于,所述交流行为数据包括:交流语言数据、交流动作数据和/或交流表情数据。5.根据权利要求4所述的基于角画像的交流辅助方法,其特征在于,所述基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果的步骤,包括:对所述多个交流对象分别配置唯一的对象标识;对所述交流行为数据按产生时间进行排序,并将其按交流对象的不同,对数据进行分段,得到多个交流行为数据段;对所述多个交流行为数据段分别标记对应的所述对象标识;根据对应的交流对象的角画像,利用角特征标签,对标记了所述对象标识的交流行为数据段进行解释;将所有所述交流行为数据段的解释结果进行融合,得到第一解释结果。
6.根据权利要求5所述的基于角画像的交流辅助方法,其特征在于,所述对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出的步骤,包括:对所述第一解释结果进行预设的数据处理,得到多种输出形式的输出数据;获取当前交流场景的信息,并根据交流场景与输出形式之间的对应关系,选择出与所述当前交流场景匹配的第一输出形式;根据所述第一输出形式,从所述输出数据中选择第一输出数据;将所述第一输出数据进行呈现。7.根据权利要求6所述的基于角画像的交流辅助方法,其特征在于,所述判断所述第一动作数据是否有表示存在交流阻碍的动作行为和/或所述第一人脸数据中是否有表示存在交流阻碍的表情和/或所述第一语音数据中是否有表示存在交流阻碍的关键词的步骤,包括:从所述第一动作数据中识别并提取手势动作,进行手势识别,得到第一手势数据,和/或,对所述第一人脸数据进行人脸表情特征提取,得到第一表情数据,和/或,对所述第一语音数据进行语音识别,得到第一语音识别数据;判断所述第一手势数据是否有表示存在交流阻碍的手势,和/或,判断所述第一表情数据中是否有表示存在交流阻碍的表情,和/或,判断所述第一语音识别数据中是否有表示存在交流阻碍的关键词。8.根据权利要求7所述的基于角画像的交流辅助方法,其特征在于,所述采集包含多个交流对象的视频数据和音频数据的步骤之前,还包括:从多个交流对象中确定第一对象与第二对象之间的关系,并利用所述第一对象和所述第二对象各自的唯一的对象标识生成第一关系标签;获取所述第一对象和所述第二对象之间的第一交流行为数据;根据所述第一交流行为数据和所述第一关系标签,构建所述第一对象的第一角画像、所述第二对象的第二角画像;重复前述操作,直至所有交流对象均按不同角建立了角画像。9.一种基于角画像的交流辅助装置,其特征在于,包括:采集模块、判断模块、角关系确定模块、角画像获取模块、解释模块和输出模块;所述采集模块,用于采集包含多个交流对象的视频数据和音频数据;所述判断模块,用于根据所述视频数据和/或所述音频数据判断是否需要启动交流辅助;所述角关系确定模块,用于当需要启动交流辅助时,通过所述视频数据和/或所述音频数据确定多个交流对象之间的角关系;所述角画像获取模块,用于根据所述角关系获取各个交流对象各自对应的角画像;所述解释模块,用于基于所述角画像,分别对所述多个交流对象的交流行为数据进行解释得到第一解释结果;所述输出模块,用于对所述第一解释结果进行处理,并以匹配当前交流场景的形式进行输出。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8中任一所述基于角画像的交流辅助方法。

技术总结


本发明提出基于角画像的交流辅助方法及、装置及存储介质,通过采集包含多个交流对象的视频数据和音频数据,根据视频数据和/或音频数据判断是否需要启动交流辅助;当需要时,通过视频数据和/或音频数据确定多个交流对象之间的角关系,然后根据角关系获取各个交流对象各自对应的角画像;基于角画像,分别对多个交流对象的交流行为数据进行解释得到第一解释结果;对第一解释结果进行处理,并以匹配当前交流场景的形式进行输出,不仅能在交流出现阻碍时及时启动辅助措施,也能通过角画像提供精确的交流行为解释,还能提供对解释结果提供多种输出形式,以最大程度地匹配当前交流场景,给用户带来贴心的体验。给用户带来贴心的体验。给用户带来贴心的体验。


技术研发人员:

林皓 高曦 杨华

受保护的技术使用者:

北京北信源软件股份有限公司

技术研发日:

2022.05.20

技术公布日:

2022/10/10

本文发布于:2024-09-21 22:14:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/28213.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数据   对象   角色
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议