音频的音量调节方法、装置、介质及设备与流程



1.本发明涉及音频播放技术领域,特别是涉及音频的音量调节方法、装置、介质及设备。


背景技术:



2.现阶段音频播放的控制常常需要用户手动调节。以车载音频的播放为例,用户需通过控制车载信息娱乐系统的物理操作键或触摸屏来调节音频的播放音量。这种音量调节的方式实质上是调节车载信息娱乐系统的设定音量,而音频流本身的音量是固定的,没有被相应调节,音频的播放音量取决于系统的设定音量。
3.调节播放音量的操作较为繁琐,对于驾驶员而言也容易分散注意力,不利于安全驾驶,传统的音频音量调节方式已经不能满足日益增长的用户需求。


技术实现要素:



4.鉴于以上所述现有技术的缺点,本发明的目的在于提供音频的音量调节方法、装置、介质及设备,用于解决现有技术中音频的播放音量无法自动化、智能化调节的技术问题。
5.为实现上述目的及其他相关目的,本发明提供一种音频的音量调节方法,包括步骤:获取当前驾驶场景并进行识别;在播放音频之前,将所述音频转换为pcm音频流,根据预设驾驶场景与音量大小的对应关系,调节所述pcm音频流的音量至与当前驾驶场景相对应的音量大小;根据调节后的音量大小播放所述音频。
6.于本发明一实施例中,所述音频包括:tts语音、音乐音频、广播音频及电台音频中的至少一种。
7.于本发明一实施例中,所述获取当前驾驶场景并进行识别的步骤包括:采集车内的音视频信息并加以分析,以识别出车内的当前驾驶场景;或者接收外部设备发送的事件信息,据以识别出车内的当前驾驶场景。
8.于本发明一实施例中,车内的驾驶场景至少分为普通驾驶场景、危险驾驶场景,以及安眠驾驶场景;所述方法还包括:在所述普通驾驶场景下,保持所述pcm音频流的初始音量不变,再进行语音播报;在所述危险驾驶场景下,将所述pcm音频流的音量调节至大于所述初始音量的预设音量值,再进行语音播报;在所述安眠驾驶场景下,将所述pcm音频流的音量调节至小于所述初始音量的预设音量值,再进行语音播报。
9.于本发明一实施例中,将所述pcm音频流的音量调节至大于所述初始音量的步骤包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的高分贝音量;将所述pcm音频流的音量调节至小于所述初始音量的步骤包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的低分贝音量。
10.为实现上述目的及其他相关目的,本发明提供一种音频的音量调节装置,包括模块:场景识别模块,用于获取当前驾驶场景并进行识别;音量调节模块,用于将所述音频转
换为pcm音频流,根据预设驾驶场景与音量大小的对应关系,调节所述pcm音频流的音量至与当前驾驶场景相对应的音量大小;音频播放模块,用于根据调节后的音量大小播放所述音频。
11.于本发明一实施例中,所述场景识别模块获取当前驾驶场景并进行识别的过程包括:采集车内的音视频信息并加以分析,以识别出车内的当前驾驶场景;或者,接收外部设备发送的事件信息,据以识别出车内的当前驾驶场景。
12.于本发明一实施例中,车内的驾驶场景至少分为普通驾驶场景、危险驾驶场景,以及安眠驾驶场景;在所述普通驾驶场景下,所述音量调节模块保持所述pcm音频流的初始音量不变,再由所述语音播报模块进行语音播报;在所述危险驾驶场景下,所述音量调节模块将所述pcm音频流的音量调节至大于所述初始音量的预设音量值,再由所述语音播报模块进行语音播报;在所述安眠驾驶场景下,所述音量调节模块将所述pcm音频流的音量调节至小于所述初始音量的预设音量值,再由所述语音播报模块进行语音播报。
13.于本发明一实施例中,所述音量调节模块将所述pcm音频流的音量调节至大于所述初始音量的过程包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的高分贝音量;所述音量调节模块将所述pcm音频流的音量调节至小于所述初始音量的过程包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的低分贝音量。
14.为实现上述目的及其他相关目的,本发明提供一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现所述的语音播报的音量调节方法。
15.为实现上述目的及其他相关目的,本发明提供一种电子设备,包括:处理器及存储器;其中,所述存储器用于存储计算机程序;所述处理器用于加载执行所述计算机程序,以使所述电子设备执行所述的语音播报的音量调节方法。
16.如上所述,本发明的音频的音量调节方法、装置、介质及设备,可以识别驾驶场景,并根据驾驶场景自动调节待播放音频的音频流音量大小并进行播放,无需用户手动调节播放音量,对于驾驶员而言可有效避免注意力的分散,提高驾驶安全系数,在方便用户使用的同时还能提升用户体验,为用户带来舒适的驾驶环境。
附图说明
17.图1显示为本发明一实施例中音频的音量调节方法的应用场景示意图。
18.图2显示为本发明一实施例中音频的音量调节方法的流程示意图。
19.图3a~3b分别显示为本发明一实施例中pcm音频在调节前、调节后的音频图。
20.图4显示为本发明一实施例中音频的音量调节装置的模块示意图。
21.图5显示为本发明一实施例中电子设备的结构示意图。
具体实施方式
22.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施
例中的特征可以相互组合。
23.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
24.目前,音频播放的控制一般都靠用户手动调节。参见图1,以车载音频的播放为例,用户需通过控制车载信息娱乐系统的触摸屏1或物理操作键2(按键、旋钮等)来调节音频的播放音量。音频的种类包括但不限于:音乐音频、广播音频、电台音频、tts语音等。其中,tts技术(全称text to speech,即“从文本到语音”)在车载中是非常常用的语音播报技术。
25.这种音量调节的方式实质上是调节车载信息娱乐系统的设定音量,而音频流本身的音量是固定的,没有被相应调节,音频的播放音量取决于系统的设定音量。以tts语音为例,目前一般都采用同样的音量模式,也就是播报出来的声音大小取决于播放系统的媒体音量或者tts音量,而tts音频流本身的音量基本是固定的。
26.在实际的音频播放场景中,有时需要提高音量,有时又需要压低音量,而不需受控于播放系统的音量,所以音频流的音量变化就很有必要。
27.如图2所示,鉴于现有技术中存在的以上问题,本实施例提供一种音频的音量调节方法,由电子设备负责执行,该电子设备可以是具有音频播放功能或不具有音频播放功能的电子设备,如车机、智能手机、平板电脑等,本实施例的语音具体为tts语音。
28.本实施例的音频音量调节方法具体包括以下步骤:
29.s21:获取当前驾驶场景并进行识别。
30.具体的,在本步骤执行之前,厂家或用户可自行设定几种驾驶场景,以及每种驾驶场景所对应的音频播放音量,该音频播放音量可以是一预设音量值,或者由智能ai根据用户历史使用习惯所推荐的值。
31.举例而言,车内的驾驶场景可以包括:普通驾驶场景、危险驾驶场景、安眠驾驶场景。
32.危险驾驶场景即用户在驾驶时出现了疲劳驾驶、碰撞预警、交通灯识别等需要进行语音提醒的驾驶场景。危险驾驶场景所对应的音频播放音量应大于普通驾驶场景的音频播放音量,如普通驾驶场景对应的播放音量为10,危险驾驶场景所对应的音频播放音量为12,从而通过音量的提高来提升语音提醒的效果。
33.安眠驾驶场景即用户在驾驶时儿童出现犯困、睡觉等情况的驾驶场景。安眠驾驶场景需要车内环境较为安静,有助于儿童休息,故安眠驾驶场景所对应的音频播放音量应小于普通驾驶场景的音频播放音量,如普通驾驶场景对应的播放音量为10,安眠驾驶场景所对应的音频播放音量为8。通过压低音频播报音量来提醒用户需要调节空调、调节媒体声音等,可以有效避免播报声音过大而影响儿童睡觉。
34.具体的,获取当前驾驶场景并进行识别的方式包括但不限于以下几种:
35.方式一、采集车内的音视频信息并加以分析,以识别出车内的当前驾驶场景。
36.例如,车机通过车内的麦克风、摄像头来获得车内的音视频信息,通过图像识别技术可以分析出驾驶员的眨眼情况,判断驾驶员是否出现疲劳驾驶,若出现疲劳驾驶,则认为当前车内驾驶场景为危险驾驶场景;通过语音识别技术可以获取车内人员说出的关键字,
如“xx困了”、“xx睡着了”,从而可以判定当前车内驾驶场景为安眠驾驶场景。由于如何识别驾驶场景的部分不是本发明改进的重点,故于此不做详细说明。
37.方式二、接收外部设备发送的事件信息,据以识别出车内的当前驾驶场景。
38.例如,用户接听来电,用户的智能手机会向车机发送用户正在接听电话的事件信息,车机在接收该事件信息后确定当前的驾驶场景为用户正在通话。
39.又例如,用户在挂断电话时,用户的智能手机会向车机发送用户通话结束的事件信息,车机在接收该事件信息后确定当前的驾驶场景为普通驾驶场景。其中,用户接听电话的驾驶场景所对应的音频播放音量应小于普通驾驶场景的音频播放音量,以避免打扰用户通话。
40.s22:在播放音频之前,将所述音频转换为pcm音频流。
41.pcm是英文pulse-code modulation的缩写,中文译名是脉冲编码调制。pcm编码技术是把声音从模拟转换成数字信号的一种技术,它的原理简单地说就是利用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲,把这些脉冲的幅值按一定的精度进行量化,这些量化后的数值被连续地输出、传输、处理或记录到存储介质中,所有这些组成了数字音频的产生过程。
42.s23:根据预设驾驶场景与音量大小的对应关系,调节所述pcm音频流的音量至与当前驾驶场景相对应的音量大小。
43.例如,在所述普通驾驶场景下,保持所述pcm音频流的初始音量不变;在所述危险驾驶场景下,将所述pcm音频流的音量调节至大于所述初始音量的一预设音量值,或者,通过分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的高分贝音量;在所述安眠驾驶场景下,将所述pcm音频流的音量调节至小于所述初始音量的一预设音量值,或者,通过分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的低分贝音量。
44.具体的,将pcm音频流调节至大于所述初始音量的一预设音量值包括:将采样的数据乘以一个大于1的数字,并保证不会出现溢出现象。如图3a~3b所示,显示为一pcm音频在调节前、调节后的音频图。同理,将pcm音频流调节至小于所述初始音量的一预设音量值包括:将采样的数据除以一个大于1的数字,并保证不会出现溢出现象。由于pcm音频流的调节技术不是本发明的改进对象,故于此不做详细介绍。
45.s24:根据调节后的音量大小播放所述音频。
46.实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。基于这样的理解,本发明还提供一种计算机程序产品,包括一个或多个计算机指令。所述计算机指令可以存储在计算机可读存储介质中。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如:软盘、硬盘、磁带)、光介质(如:dvd)、或者半导体介质(如:固态硬盘solid state disk(ssd))等。
47.参阅图4,本实施例提供一种音频的音量调节装置40,由于本实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。本实施例的装置40包括如下模块:
48.场景识别模块41,用于获取当前驾驶场景并进行识别;
49.具体的,采集车内的音视频信息并加以分析,以识别出车内的当前驾驶场景;或
者,接收外部设备发送的事件信息,据以识别出车内的当前驾驶场景。
50.音量调节模块42,用于将所述音频转换为pcm音频流,根据预设驾驶场景与音量大小的对应关系,调节所述pcm音频流的音量至与当前驾驶场景相对应的音量大小;
51.具体的,在所述普通驾驶场景下,所述音量调节模块保持所述pcm音频流的初始音量不变,再由所述语音播报模块进行语音播报;在所述危险驾驶场景下,所述音量调节模块将所述pcm音频流的音量调节至大于所述初始音量的预设音量值,再由所述语音播报模块进行语音播报;在所述安眠驾驶场景下,所述音量调节模块将所述pcm音频流的音量调节至小于所述初始音量的预设音量值,再由所述语音播报模块进行语音播报。其中,该预设音量值可以由厂家或用户自行定义,或者还可以是通过分析用户历史播放数据而得到的高分贝音量、低分贝音量。
52.音频播放模块43,用于根据调节后的音量大小播放所述音频。
53.本领域技术人员应当理解,图4实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个或多个物理实体上。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。
54.参阅图5,本实施例提供一种电子设备,电子设备可以是车机、便携式电脑、智能手机等设备。详细的,电子设备至少包括通过总线连接的:存储器、处理器,其中,存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以执行前述方法实施例中的全部或部分步骤。
55.上述提到的系统总线可以是外设部件互连标准(peripheral pomponent interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,简称ram),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
56.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
57.综上,本发明的音频的音量调节方法、装置、介质及设备,通过驾驶场景的识别,动态调整待播放音频的音频流音量,有助于提升用户驾驶体验,有效克服了现有技术中的种种缺点而具高度产业利用价值。
58.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

技术特征:


1.一种音频的音量调节方法,其特征在于,包括步骤:获取当前驾驶场景并进行识别;在播放音频之前,将所述音频转换为pcm音频流,根据预设驾驶场景与音量大小的对应关系,调节所述pcm音频流的音量至与当前驾驶场景相对应的音量大小;根据调节后的音量大小播放所述音频。2.根据权利要求1所述的方法,其中,所述音频包括:tts语音、音乐音频、广播音频及电台音频中的至少一种。3.根据权利要求1所述的方法,其中,所述获取当前驾驶场景并进行识别的步骤包括:采集车内的音视频信息并加以分析,以识别出车内的当前驾驶场景;或者接收外部设备发送的事件信息,据以识别出车内的当前驾驶场景。4.根据权利要求1所述的方法,其中,车内的驾驶场景至少分为普通驾驶场景、危险驾驶场景,以及安眠驾驶场景;所述方法还包括:在所述普通驾驶场景下,保持所述pcm音频流的初始音量不变,再进行语音播报;在所述危险驾驶场景下,将所述pcm音频流的音量调节至大于所述初始音量的预设音量值,再进行语音播报;在所述安眠驾驶场景下,将所述pcm音频流的音量调节至小于所述初始音量的预设音量值,再进行语音播报。5.根据权利要求4所述的方法,其中,将所述pcm音频流的音量调节至大于所述初始音量的预设音量值的步骤包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的高分贝音量;将所述pcm音频流的音量调节至小于所述初始音量的预设音量值的步骤包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的低分贝音量。6.一种音频的音量调节装置,其特征在于,包括模块:场景识别模块,用于获取当前驾驶场景并进行识别;音量调节模块,用于将所述音频转换为pcm音频流,根据预设驾驶场景与音量大小的对应关系,调节所述pcm音频流的音量至与当前驾驶场景相对应的音量大小;音频播放模块,用于根据调节后的音量大小播放所述音频。7.根据权利要求6所述的装置,其中,所述场景识别模块获取当前驾驶场景并进行识别的过程包括:采集车内的音视频信息并加以分析,以识别出车内的当前驾驶场景;或者,接收外部设备发送的事件信息,据以识别出车内的当前驾驶场景。8.根据权利要求6所述的装置,其中,车内的驾驶场景至少分为普通驾驶场景、危险驾驶场景,以及安眠驾驶场景;在所述普通驾驶场景下,所述音量调节模块保持所述pcm音频流的初始音量不变,再由所述语音播报模块进行语音播报;在所述危险驾驶场景下,所述音量调节模块将所述pcm音频流的音量调节至大于所述初始音量的预设音量值,再由所述语音播报模块进行语音播报;在所述安眠驾驶场景下,所述音量调节模块将所述pcm音频流的音量调节至小于所述初始音量的预设音量值,再由所述语音播报模块进行语音播报。9.根据权利要求8所述的装置,其中,
所述音量调节模块将所述pcm音频流的音量调节至大于所述初始音量的过程包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的高分贝音量;所述音量调节模块将所述pcm音频流的音量调节至小于所述初始音量的过程包括:分析用户历史播放数据,将所述pcm音频流的音量调节至用户惯用的低分贝音量。10.一种计算机可读存储介质,其中存储有计算机程序,其特征在于,所述计算机程序被处理器加载执行时,实现如权利要求1至5中任一所述的语音播报的音量调节方法。11.一种电子设备,其特征在于,包括:处理器及存储器;其中,所述存储器用于存储计算机程序;所述处理器用于加载执行所述计算机程序,以使所述电子设备执行如权利要求1至5中任一所述的语音播报的音量调节方法。

技术总结


本发明提供音频的音量调节方法、装置、介质及设备。其中,音频的音量调节方法包括步骤:获取当前驾驶场景并进行识别;在播放音频之前,将所述音频转换为PCM音频流,根据预设驾驶场景与音量大小的对应关系,调节所述PCM音频流的音量至与当前驾驶场景相对应的音量大小;根据调节后的音量大小播放所述音频。本发明可通过驾驶场景的识别,动态调整待播放音频的音频流音量,有助于提升用户驾驶体验。有助于提升用户驾驶体验。有助于提升用户驾驶体验。


技术研发人员:

孙中全 田发景 刘根华

受保护的技术使用者:

上海博泰悦臻网络技术服务有限公司

技术研发日:

2021.05.13

技术公布日:

2022/11/15

本文发布于:2024-09-21 08:31:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/4591.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   音量   音频   场景
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议