基于座舱图像实现声音音自动调整的方法及系统与流程

1.本发明涉及声音音调整技术领域，特别涉及一种基于座舱图像实现声音音自动调整的方法及系统。

背景技术：

2.常见的智能语音交互助手都是按照默认方式与用户进行交互，或者是用户手动切换到自己喜欢的角与用户进行交互，且在交互过程较为一板一眼，且无法动态调节声音情感，相对比较机械化，导致趣味性不足，不能很好的满足用户的体验效果。
3.因此，本发明提出一种基于座舱图像实现声音音自动调整的方法及系统。

技术实现要素：

4.本发明提供一种基于座舱图像实现声音音自动调整的方法及系统，用以通过图像采集及分析，确定人员区域分布以及人员信息，进而实现交互的音匹配以及输出，满足人员需求，提高交互的体验感。
5.本发明提供一种基于座舱图像实现声音音自动调整的方法，包括：
6.步骤1：基于车辆座舱内部的图像采集设备对座舱内的驾乘人员进行图像采集；
7.步骤2：将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；
8.步骤3：当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；
9.步骤4：对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
10.优选的，所述人员信息包括：性别、年龄、情绪以及与确定在所述车辆座舱内部的人员区域分布。
11.优选的，对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈，包括：
12.基于默认音策略，并根据所述人员信息中的性别、年龄以及与确定在所述车辆座舱内部的人员区域分布，确定与对应人员进行声音交互反馈的匹配音；
13.基于默认情绪策略，获取与所述人员信息中的情绪所匹配的感情附加音，并基于所述匹配音以及感情附加音，将所述声音交互反馈进行输出。
14.优选的，还包括：
15.采用用户自定义方式，对所述默认音策略或默认情绪策略进行修改。
16.优选的，所述图像采集设备包括相机在内。
17.优选的，所述默认音策略为：
18.当年龄属于儿童范围时，对应女性温柔声音；
19.当年龄属于成年范围，且性别为女性时，对应男性声音；
20.当年龄属于成年范围，且性别为男性时，对应女性声音。
21.优选的，所述默认情绪策略为：
22.当情绪为开心时，采用开心的情绪对应的音作为感情附加音；
23.当情绪为难过、伤心、愤怒时，采用安抚关怀的情绪对应的音作为感情附加音。
24.本发明提供一种基于座舱图像实现声音音自动调整的系统，包括：
25.图像采集设备，用于基于对座舱内的驾乘人员进行图像采集；
26.车载电脑，用于将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；
27.所述车载电脑，还用于当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；
28.所述车载电脑，还用于对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
29.本发明提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行任一项所述方法的步骤。
30.本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行任一项所述方法的步骤。
31.与现有技术相比，本技术的有益效果如下：
32.通过图像采集及分析，确定人员区域分布以及人员信息，进而实现交互的音匹配以及输出，提高交互的体验感。
33.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
34.下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
35.附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
36.图1为本发明实施例中一种基于座舱图像实现声音音自动调整的方法；
37.图2为本发明实施例中一种基于座舱图像实现声音音自动调整的系统的结构图。
具体实施方式
38.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
39.本发明提供一种基于座舱图像实现声音音自动调整的方法，在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具
有任何限制含义。
40.针对本发明一种基于座舱图像实现声音音自动调整的方法的应用场景包括终端设备101、服务器102、和数据存储系统103。其中，终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
41.需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
42.在一个实施例中，本发明提供一种基于座舱图像实现声音音自动调整的方法，如图1所示，包括：
43.步骤1：基于车辆座舱内部的图像采集设备对座舱内的驾乘人员进行图像采集；
44.步骤2：将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；
45.步骤3：当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；
46.步骤4：对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
47.优选的，所述人员信息包括：性别、年龄、情绪以及与确定在所述车辆座舱内部的人员区域分布。
48.优选的，所述图像采集设备包括相机在内。
49.针对步骤1：
50.该实施例中，图像采集设备开始工作的时间点，当车辆开始打火启动时，图像采集设备开始自动工作，或者需要人为操作该图像采集设备的开启工作。
51.该实施例中，图像采集设备采集座舱内的驾乘人员，主要是对车辆内不同座位上的人员进行采集，以此，为后续人员区域分布提供基础。
52.针对步骤2：
53.该实施例中，在车辆启动之后，车载电脑会对图像采集设备采集的图像进行分析，比如，将采集的图像与标准的驾驶图像进行比较，来确定被占用的座位，进而得到人员区域分布，在确定出人员区域分布之后，将该分析结果以及采集的图像进行保存，如果后续车载电脑接收到唤醒语音交互，则将该存储的人员区域分布以及采集的图像作为已知条件，来继续进行后续分人员识别。
54.如果后续车载电脑并未接收到唤醒语音交互，此时，车载电脑对分析结果以及采集的图像继续保存，直到该车辆停止工作，将保存的内从释放。
55.针对步骤3：
56.该实施例中，在接收到唤醒语音交互时，进行声源定位，确定声音所来自区域，进
行对采集图像上的该区域进行进行确定，以此，通过人脸识别，获取基本信息，并通过人脸识别或者声音识别来得到情绪信息，进而得到人员信息。
57.针对步骤4：
58.该实施例中，信息分析过程中，主要是对人员信息进行的分析，通过根据年龄、性别、所处位置，确定匹配音，进而根据情绪，附加匹配感情，并进行输出。
59.在进行交互反馈之前，需要对唤醒语音交互进行反馈，因此，需要对唤醒语音交互进行识别，且识别的基础是基于语言词汇库实现的，且语言词汇数据库可以是下列至少之一：中文库、英文库、日文库、韩文库、饿文库、法文库、德文库以及阿拉伯文库等，具体可以根据对应的环境需求进行选择，以此，方便后续识别交互。
60.该实施例中，处了采用相机采集之外，还可采用tof(深度相机)、激光雷达、红外相机等为设备进行采集。
61.该实施例中，对声音交互反馈按照音进行输出，可以更好地满足不同乘客的情感化语音交互的需求以及提高体验感。
62.该实施例中，针对乘坐过该车辆的人员都进行过信息采集，包括性别、年龄和人脸图像，将历史采集的每条信息都存储起来，构建得到人员基本采集库。
63.采用照相机对车辆中的人员进行图像采集之后，主要是为了确定不同人员在车辆内部的分布情况，比如：车辆有5个座位，此时，主驾驶有1名人员，副驾驶有1名人员，剩余位置没有人员乘坐，得到的人员分布区域为主驾驶和副驾驶有人员乘坐。
64.该实施例中，车载电脑会实时采集来自车辆内部的声音信号，来确定声音来自的区域，且对方位的确定是基于声源定位实现的，可以是采用麦克风阵列和声强探头组合构成的设备来对声音信号进行确定。可以近似认为，这两种声音定位解决方案和技术都是人耳声音定位机理的扩展，是仿生技术。麦克风阵列模仿人类的两个耳朵，麦克风阵列使用几个到几千个麦克风，因此可以实现声源定位。
65.在该过程中，如果只存在一个方位的声音信号，此时，就针对该方位的人员唤醒语音交互进行交互反馈，如果，同时存在两个方位的声音信号，通过对两个声音信号的声音强度的判断，来优先对声音强度高的唤醒语音交互进行交互反馈，再对声音强度弱的唤醒语音交互进行交互反馈，当两者都交互完成后，才开始重新对下一时刻的唤醒语音交互进行采集。
66.该实施例中，当车载电脑接收到唤醒语音交互时，首先确定声音区域，其次，通过声音区域，从采集的图像上对该声音区域进行标定，比如，声音区域来自主驾驶，此时，在图像上将主驾驶进行标定，也就实现了对主驾驶人员的分布位置的确定，此时，就对主驾驶上的人员进行人脸识别，来从人员基本采集库中，来获取该主驾驶的基本人员信息，且车载电脑在接收到唤醒语音交互的信号时，通过将该信号输入到情绪判断模型中，来输出得到人员的情绪，并将人员情绪作为人员信息中的一部分。
67.也就是，人员的人员性别、年龄都是预先设置好的，如果说，该人员信息采集库中不存在该人员信息，则根据该人员的人脸图像，从人脸数据库中，对该人脸进行眼睛、眉毛、鼻子、嘴巴、脸颊等多个特征区域的特征识别，来自动判断该人员的年龄、性别，以眼睛为例，将眼睛特征区域在人脸数据库中进行遍历，来得到与该眼睛特征匹配的年龄以及性别，且依次，对剩余特征区域进行年龄以及性别的匹配，最后，来综合确定该人员的年龄以及性
别。
68.在该部分中，也就是车载电脑根据声音触发之后，来获取到所采集的图像，将声音来源标定在图像对应的位置上，来对该位置的人员进行人员识别，最后获取得到基本人员信息。
69.且在确定人员情绪的过程中，可以是通过一下两种方式实现，一种是基于基于相机实时拍摄该车辆内部人员的面部表情，通过面部情绪分析模型，对该面部表情进行分析，来确定该人员的情绪，又或者是通过对唤醒声音交互的声音信号通过声音情绪识别模型进行分析，来确定该人员的情绪，以此，来得到人员情绪。
70.针对该声音情绪识别模型，可以是将音频数据通过mfcc(中文名是梅尔倒谱系数(mel-scalefrequency cepstral coefficients))加载为特征向量形式，然后将其输入进入lstm神经网络进行抽取语音特征，最后采用分类函数(softmax)实现情感标签的分类任务，确定人员情绪。
71.针对该面部情绪分析模型，搜集每个情绪词汇对应的人脸图像，并利用情绪词汇对人脸图像进行标注形成训练样本集，对预先构建的初始网络模型进行训练，得到面部情绪识别模型，再利用面部情绪识别模型对面部情绪识别处理，这样可以更快的得到与该面部表情匹配的情绪结果。
72.该实施例中，该面部情绪分析模型包括：输入层、多个隐藏层和输出层，所述多个隐藏层中第一个隐藏层嵌入预先获得的不同情绪之间的相似度矩阵。这样就可以利用相似度矩阵对面部图像进行情绪特征提取。
73.且，该声音情绪识别模型包括：输入层、多个隐藏层和输出层，所述多个隐藏层中第一个隐藏层嵌入预先获得的不同声音语调之间的相似度矩阵。这样就可以利用相似度矩阵对声音像进行情绪特征提取。
74.该实施例中，情绪只有一个基本表情构成。
75.该实施例中，针对步骤4：进行人员信息分析的过程中，一个是对年龄分析，来确定该人员所处的年龄段，比如：儿童、未成年、成年人、中年人、老年人等，一个是对性别的分析，比如：男性、女性，一个是对情绪的分析，比如，开心、伤心、难过、悲痛等。
76.该实施例中，针对不同性别、年龄以及情绪的组合都对应有不同的默认音输出方式，且针对该输出方式训练得到音输出模型，进而可以有效的在进行信息分析之后，直接输出得到音输出方式，对该声音交互反馈进行有效输出。
77.该实施例中，当车辆中同时存在多个人员，且每个人员都在同个时间进行交互时，获取声音强度最大的进行首次交互。
78.上述技术方案的有益效果是：通过图像采集及分析，确定人员区域分布以及人员信息，进而实现交互的音匹配以及感情输出，提高交互的体验感。
79.在一个实施例中，对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈，包括：
80.基于默认音策略，并根据所述人员信息中的性别、年龄以及与确定在所述车辆座舱内部的人员区域分布，确定与对应人员进行声音交互反馈的匹配音；
81.基于默认情绪策略，获取与所述人员信息中的情绪所匹配的感情附加音，并基于所述匹配音以及感情附加音，将所述声音交互反馈进行输出。
82.该实施例中，人员区域分布的确定，主要是为了确定匹配音输出的声音大小，具体实施为：
83.步骤01：确定要交互的人员基于对应人员区域分布的位置信息；
84.步骤02：确定该位置信息与车载电脑的语音输出端的当前距离；
85.步骤03：从声音-距离数据库中，确定与当前距离匹配的输出声音大小；
86.步骤04：将确定的声音大小附加在音上，进行输出反馈。
87.针对该实施例，具体包括：
88.比如：人员1在后座中间，此时，人员1与车载终端的语音输出端的距离为1.2m，此时，声音-距离数据库中，包括：0-0.5米，采用20分贝输出交互，0.5-1.0，采用23分贝输出交互，1.0-1.5采用24分贝输出交互，剩余距离采用25分贝输出交互。
89.该实施例中，声音-距离数据库中包含的匹配内容都是默认的，当然，也可以人为对该距离与分贝输出的匹配进行调节，以此，来按照人为调节标准的声音大小进行语音交互。
90.且在交互的过程中，比如，还可以实施为：通过对车辆内部的安静程度进行分析，比如：环境-声音-距离数据库中，包括：距离0-0.5米，且处于安静环境时，采用20分贝输出交互；距离0-0.5米，且处于非安静环境时，采用21分贝输出交互；
91.距离0.5-1.0米，且处于安静环境时，采用23分贝输出交互；距离0.5-1.0米，且处于非安静环境时，采用24分贝输出交互；
92.距离1.0-1.5米，且处于安静环境时，采用24分贝输出交互；距离1.0-1.5米，且处于非安静环境时，采用25分贝输出交互；
93.剩余距离，无论是安静环境还是非安静环境，都采用26分贝输出交互。
94.也就是可以按照环境的安静与否，来实现采用不同分贝的交互输出。
95.又比如：可以对环境的噪声进行区分，来采用不同的分贝进行输出交互，比如构建的数据库是包括：噪声分贝-交互声音-人员声音-距离在内的，比如：
96.噪声分贝为20分贝-人员声音为21分贝-距离为0.6米，对应的交互声音为23分贝，此时的交互声音是可以直接从数据库中匹配的得到的。
97.又比如：噪声分贝为0分贝-人员声音为21分贝-距离为0.6米，对应的交互声音为21分贝，此时的交互声音也是可以直接从数据库中匹配的得到的。
98.通过从不同的数据库匹配对应的数据，可以实现对不同声音大小的匹配，保证对声的合理附加以及音的有效输出，实现与人员的有效交互。
99.优选的，所述默认音策略为：
100.当年龄属于儿童范围时，对应女性温柔声音；
101.当年龄属于成年范围，且性别为女性时，对应男性声音；
102.当年龄属于成年范围，且性别为男性时，对应女性声音。
103.优选的，所述默认情绪策略为：
104.当情绪为开心时，采用开心的情绪对应的音作为感情附加音；
105.当情绪为难过伤心愤怒时，采用安抚关怀的情绪对应的音作为感情附加音。
106.该实施例中，儿童范围：0-16岁，成年范围为17岁及以上，且该范围是提前预设好的。
107.该实施例中，默认音策略以及默认情绪策略的设定，是为了从音以及情绪两方面，来实现交互，保证交互提高感。
108.该实施例中，乘坐区域的确定，主要是为了确定该区域的乘坐人员，进而方便确定该人员的年龄和性别，方便匹配音。
109.上述技术方案的有益效果是：通过根据性别、年龄以及区域，可以匹配音，比如男声或者女声，通过根据情绪，匹配感情音，比如开心，通过两者结合，可以实现交互反馈的有效输出，提高交互体验感。
110.在一个实施例中，具体还包括：
111.对年龄进行范围划分，并基于默认音数据库，向不同的年龄阶段匹配相应的声音；
112.确定不同年龄阶段所是否需要与性别联系；
113.若需要，根据反向输出模式，向需要联系的年龄阶段的男性匹配女性声音，进行输出；
114.向需要联系的年龄阶段的女性匹配男性声音，进行输出；
115.若不需要，根据默认输出模式，向不需要联系的年龄阶段按照默认匹配声音进行输出。
116.该实施例中，比如：1-6是为儿童范围，7-18视为未成年范围，19-30是为青年范围，31-60视为中年范围，61及以上是为老年范围。
117.此时，儿童范围以及老年范围不需要与性别进行联系，假如默认的是，针对儿童范围的统一以对应的温柔女性的声音输出，针对老年范围，假如默认的是，针对老年人男性，以温柔男性的声音输出，针对老年人女性，以温柔女性的声音输出。
118.针对儿童范围以及老年范围，此时，可以默认不对情绪进行分析。
119.该实施例中，反向输出模式，比如，男性配女性的声音、女性配男性的声音，默认输出模式，就是针对与性别无关的年龄范围的一种输出。
120.该实施例中，首先以年龄作为一个首要标签，在以其他信息作为辅助标签，比如，在确定年龄为4岁之后，直接就输出女性温柔声音进行交互反馈。
121.上述技术方案的有益效果是：通过对年龄进行划分，并按照划分结果，进行不同的操作，实现声音的有效输出，为后续交互提供基础。
122.在一个实施例中，还包括：
123.采用用户自定义方式，对所述默认音策略或默认情绪策略进行修改。
124.该实施例中，比如：当年龄属于儿童范围时，默认对应女性温柔声音，此时，可以人为自定义调整为男性温柔声音等。
125.又比如：情绪为难过伤心愤怒时，默认的是采用安抚关怀的情绪进行交互，此时，可以人为自定义调整为严肃的情绪进行感情附加的输出。
126.该实施例中，在进行默认音策略修改的过程中，自定义不同阶段年龄、不同性别所对应的音输出，也就是，可以选择车载电脑中本身已经存储的除了默认策略之外的其他策略，也可以是自定义自己设置实现对音的调节输出。
127.比如，自定义年龄阶段10岁，对应音为搞笑音输出或者某些明星音输出，都是可以预先设定的。
128.在按照性别进行音的输出过程中，可以具体到某个人物的音，比如，某个明星音等，来增加交互乐趣，避免交互枯燥。
129.针对该实施例中，还可以具体实施为：
130.比如：车载电脑本身存储有包括默认策略在内的多种策略。
131.比如，针对音策略的：
132.策略1：
133.当年龄属于儿童范围时，对应男性温柔声音；
134.当年龄属于成年范围，且性别为女性时，对应中性声音；
135.当年龄属于成年范围，且性别为男性时，对应女性声音。
136.比如：策略2：
137.当年龄属于儿童范围时，对应中性温柔声音；
138.当年龄属于成年范围，且性别为女性时，对应男性声音；
139.当年龄属于成年范围，且性别为男性时，对应中性声音。
140.比如：针对情绪策略的：
141.当情绪为开心时，通过对该开心的程度进行分析，确定开心等级，比如，开心一级、开心二级以及开心三级，级别越高对应越开心，此时，就通过对开心等级确定，来确定开心高涨情绪，来按照不同等级的情绪对应的音作为感情附加音；
142.当情绪为难过时，通过对该难过的程度进行分析，确定难过等级，比如，难过一级、难过二级以及难过三级，级别越高对应越难过，此时，就通过对难过等级确定，来确定难过高涨情绪，来按照不同等级的情绪对应的音作为感情附加音；
143.当情绪为伤心时，通过对该伤心的程度进行分析，确定伤心等级，比如，伤心一级、伤心二级以及伤心三级，级别越高对应越伤心，此时，就通过对伤心等级确定，来确定伤心高涨情绪，来按照不同等级的情绪对应的音作为感情附加音；
144.当情绪为愤怒时，通过对该愤怒的程度进行分析，确定愤怒等级，比如，愤怒一级、愤怒二级以及愤怒三级，级别越高对应越愤怒，此时，就通过对愤怒等级确定，来确定愤怒高涨情绪，来按照不同等级的情绪对应的音作为感情附加音等。
145.上述技术方案的有益效果是：通过自定义调整，可以进一步保证对音调整的灵活性，提高交互体验效果。
146.在一个实施例中，本发明提供一种基于座舱图像实现声音音自动调整的系统，如图2所示，包括：
147.图像采集设备，用于基于对座舱内的驾乘人员进行图像采集；
148.车载电脑，用于将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；
149.所述车载电脑，还用于当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；
150.所述车载电脑，还用于对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
151.上述技术方案的有益效果是：通过图像采集及分析，确定人员区域分布以及人员信息，进而实现交互的音匹配以及输出，提高交互的体验感。
152.在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：
153.步骤1：基于车辆座舱内部的图像采集设备对座舱内的驾乘人员进行图像采集；
154.步骤2：将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；
155.步骤3：当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；
156.步骤4：对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
157.在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：
158.步骤1：基于车辆座舱内部的图像采集设备对座舱内的驾乘人员进行图像采集；
159.步骤2：将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；
160.步骤3：当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；
161.步骤4：对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
162.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
163.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
164.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。
165.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

技术特征：

1.一种基于座舱图像实现声音音自动调整的方法，其特征在于，包括：步骤1：基于车辆座舱内部的图像采集设备对座舱内的驾乘人员进行图像采集；步骤2：将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；步骤3：当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；步骤4：对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。2.如权利要求1所述的基于座舱图像实现声音音自动调整的方法，其特征在于，所述人员信息包括：性别、年龄、情绪以及与确定在所述车辆座舱内部的人员区域分布。3.如权利要求1所述的基于座舱图像实现声音音自动调整的方法，其特征在于，对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈，包括：基于默认音策略，并根据所述人员信息中的性别、年龄以及与确定在所述车辆座舱内部的人员区域分布，确定与对应人员进行声音交互反馈的匹配音；基于默认情绪策略，获取与所述人员信息中的情绪所匹配的感情附加音，并基于所述匹配音以及感情附加音，将所述声音交互反馈进行输出。4.如权利要求3所述的基于座舱图像实现声音音自动调整的方法，其特征在于，还包括：采用用户自定义方式，对所述默认音策略或默认情绪策略进行修改。5.如权利要求1所述的基于座舱图像实现声音音自动调整的方法，其特征在于，所述图像采集设备包括相机在内。6.如权利要求3所述的基于座舱图像实现声音音自动调整的方法，其特征在于，所述默认音策略为：当年龄属于儿童范围时，对应女性温柔声音；当年龄属于成年范围，且性别为女性时，对应男性声音；当年龄属于成年范围，且性别为男性时，对应女性声音。7.如权利要求3所述的基于座舱图像实现声音音自动调整的方法，其特征在于，所述默认情绪策略为：当情绪为开心时，采用开心的情绪对应的音作为感情附加音；当情绪为难过、伤心、愤怒时，采用安抚关怀的情绪对应的音作为感情附加音。8.一种基于座舱图像实现声音音自动调整的系统，其特征在于，包括：图像采集设备，用于基于对座舱内的驾乘人员进行图像采集；车载电脑，用于将所采集的图像传输到车载电脑进行图像分析，确定所述车辆座舱内部的人员区域分布；所述车载电脑，还用于当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；所述车载电脑，还用于对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。
9.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

技术总结

本发明提供了一种基于座舱图像实现声音音自动调整的方法及系统，方法包括：步骤1：基于车辆座舱内部的图像采集设备对座舱内的驾乘人员进行图像采集；步骤2：将所采集的图像传输到车载电脑进行图像分析，确定车辆座舱内部的人员区域分布；步骤3：当车载电脑接收到人员唤醒语音交互时，判断声音所来自区域，并基于所采集的图像对声音所来自区域的人员进行人员识别，调取人员信息；步骤4：对调取的人员信息进行信息分析，确定与对应人员进行声音交互反馈的匹配音，以所述匹配音输出声音交互反馈。通过图像采集及分析，确定人员区域分布以及人员信息，进而实现交互的音匹配以及感情输出，提高交互的体验感。提高交互的体验感。提高交互的体验感。