语音控制方法、装置、设备及存储介质与流程



1.本发明涉及车辆控制技术领域,尤其涉及一种语音控制方法、装置、设备及存储介质。


背景技术:



2.传统车辆中都会安装一个车载显示屏,以向用户提供控制显示界面与娱乐显示界面等,在行车过程中,若用户需要控制车辆的运行或者切换娱乐项目等,需要用户腾出手通过触控屏或者按键等进行控制,此过程会分散用户的注意力,存在驾驶安全隐患。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:



4.本发明的主要目的在于提供一种语音控制方法、装置、设备及存储介质,旨在解决现有技术中行车过程中,手动触摸显示屏控制车辆状态会分散用户注意力,存在行车安全隐患的技术问题。
5.为实现上述目的,本发明提供了一种语音控制方法,所述方法包括以下步骤:
6.识别用户发出的语音信号,获取所述语音信号中的语音控制关键字
7.获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;
8.将所述语音控制关键字与所述文字识别库进行匹配;
9.在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作。
10.可选地,所述获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库,包括:
11.获取车辆显示屏的当前显示界面;
12.对所述当前显示界面进行预处理,获得目标显示界面;
13.通过预设文字识别模型对所述目标显示界面进行文字识别,获得初始文本库;
14.获取所述初始文本库中的文字在所述目标显示界面上的文字坐标;
15.基于所述文字坐标更新所述初始文本库,获得文字识别库。
16.可选地,所述对所述当前显示界面进行预处理,包括:
17.获取所述当前显示界面的颜显示信息;
18.根据所述颜显示信息对所述当前显示界面进行灰度处理,获得灰度处理后的显示界面对应的目标颜显示信息;
19.通过预设边缘处理模型进获得所述目标颜显示信息与所述灰度处理后的显示界面对应的边缘处理信息;
20.根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二
值化处理。
21.可选地,所述根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二值化处理之前,包括:
22.划分所述目标颜显示信息的灰度等级,并根据所述灰度等级确定灰度等级区间;
23.根据所述灰度等级区间与预设像素信息确定灰度等级区间对应的灰度值概率;
24.根据所述灰度值概率确定灰度均值,并通过所述灰度均值确定类间方差;
25.在所述类间方差满足预设条件时,获取预设二值化阈值。
26.可选地,所述获取所述初始文本库中的文字在所述目标显示界面上的文字坐标,包括:
27.获取所述目标显示界面的分辨率;
28.基于所述分辨率划分出所述目标显示界面中的目标单元格;
29.检测所述目标单元格中是否存在文字;
30.若存在,则确定所述目标单元格的位置信息;
31.将所述位置信息取余,和/或,取整,获得文字坐标。
32.可选地,所述将所述语音控制关键字与所述文字识别库进行匹配,包括:
33.提取所述语音控制关键字中的目标关键字与下一个目标关键字;
34.将所述目标关键字与所述文字识别库进行匹配;
35.若匹配成功,则获取所述目标关键字对应的目标关键字坐标;
36.基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配。
37.可选地,所述基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配,包括:
38.提取所述目标关键字坐标中的目标关键字横坐标与目标关键字纵坐标;
39.基于所述目标关键字横坐标与所述目标关键字纵坐标分别检测所述目标关键字预设间隔内是否存在文字;
40.若存在,则提取第二关键字;
41.将所述第二关键字与所述下一个目标关键字进行匹配。
42.此外,为实现上述目的,本发明还提出一种语音控制装置,所述语音控制装置包括:
43.语音识别模块,用于识别用户发出的语音信号,获取所述语音信号中的语音控制关键字;
44.文字识别模块,用于获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;
45.文字匹配模块,用于将所述语音控制关键字与所述文字识别库进行匹配;
46.指令执行模块,用于在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作。
47.此外,为实现上述目的,本发明还提出一种语音控制设备,所述语音控制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序,所述语音控制程序配置为实现如上文所述的语音控制方法的步骤。
48.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有语音控制程序,所述语音控制程序被处理器执行时实现如上文所述的语音控制方法的步骤。
49.本发明公开了一种语音控制方法,所述语音控制方法包括:识别用户发出的语音信号,获取所述语音信号中的语音控制关键字;获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;将所述语音控制关键字与所述文字识别库进行匹配;在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作,与现有技术中通过手动触摸显示屏以实现控制车辆状态相比,本发明通过识别用户的语音信号,以获得语音信号中的语音控制关键字,同时,对车载显示屏的当前显示界面进行文字识别,从而获得当前显示界面对应的文字识别库,并将所述语音控制关键字与所述文字识别库进行匹配,进而确定当前显示界面中是否存在用户输入的语音控制关键字,若匹配成功,则确定当前显示界面上的文本触摸坐标,并对该文本触摸坐标执行触摸操作,进而实现控制车辆状态,避免了现有技术中行车过程中,手动触摸显示屏控制车辆状态会分散用户注意力,存在行车安全隐患的技术问题,提高了用户的驾驶安全性。
附图说明
50.图1是本发明实施例方案涉及的硬件运行环境的语音控制设备的结构示意图;
51.图2为本发明语音控制方法第一实施例的流程示意图;
52.图3为本发明语音控制方法一实施例的车载显示屏示意图;
53.图4为本发明语音控制方法第二实施例的流程示意图;
54.图5为本发明语音控制方法第三实施例的流程示意图;
55.图6为本发明语音控制方法一实施例的执行逻辑示意图;
56.图7为本发明语音控制装置第一实施例的结构框图。
57.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
58.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
59.参照图1,图1为本发明实施例方案涉及的硬件运行环境的语音控制设备结构示意图。
60.如图1所示,该语音控制设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
61.本领域技术人员可以理解,图1中示出的结构并不构成对语音控制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
62.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音控制程序。
63.在图1所示的语音控制设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明语音控制设备中的处理器1001、存储器1005可以设置在语音控制设备中,所述语音控制设备通过处理器1001调用存储器1005中存储的语音控制程序,并执行本发明实施例提供的语音控制方法。
64.本发明实施例提供了一种语音控制方法,参照图2,图2为本发明一种语音控制方法第一实施例的流程示意图。
65.本实施例中,所述语音控制方法包括以下步骤:
66.步骤s10:识别用户发出的语音信号,获取所述语音信号中的语音控制关键字。
67.需要说明的是,本实施例方法的执行主体可以是具有数据采集、数据传输以及数据处理功能的设备,例如:车载控制器或者服务器等,还可以是其他具有相同或者相似功能的设备,本实施例对此不作具体限制,在本实施例以及下述实施例中,将会以车载控制器为例进行说明。
68.值得说明的是,识别用户发出的语音信号可以是通过提取用户发出的语音信号的中文字信息,并从中提取出关键控制字,其中,识别语音信号的过程可以是基于ai的语音识别模型,还可以是其他可以实现相同或者相似功能的模型或者程序,本实施例对此不做具体限制。
69.应当理解的是,语音控制关键信号用于控制车辆的运行状态或者运行功能的控制关键字,例如:如果需要打开车辆的空调功能,识别用户的语音信号之后,可以获得“空调器”的控制关键字,对应于车辆显示屏上的空调器选项。
70.步骤s20:获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库。
71.应当说明的是,当前显示界面是指车辆搭载的显示屏或者外挂的控制显示屏等上的当前时刻显示界面,本实施例对此不做具体限制,在本实施例中,以车载显示屏为例进行说明。
72.可以理解的是,预设文字识别模型用于识别输入图像中文字信息,以获得输入图像的文字信息,其中,预设文字识别模型可以是ocr文字识别引擎、机器识别或者深度学习的文字识别模型,本实施例对此不做具体限制。
73.在具体实现中,将当前时刻的车载显示屏的显示界面输入到预设文字识别模型中,以获得当前显示界面上记载的文字,参考图3,通过预设文字识别模型提取图3中的文字为“收音机”、“多媒体”、“导航”、“电话”、“手机互联”、“丙申年二月十八”、“星期六”、“2016年3月26日”以及“10:40”等。
74.此外,文字识别库中还可以包括各个文字对应的坐标信息。
75.步骤s30:将所述语音控制关键字与所述文字识别库进行匹配。
76.需要说明的是,将语音控制关键字与文字识别库进行匹配的过程可以是确定文字识别库中是否存在所述语音控制关键字的过程,例如:如上文所述的文字识别库,用户语音信号为“打开收音机”,将语音控制关键字与文字识别库进行匹配,则可以匹配成功。
77.步骤s40:在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触
摸坐标,并基于所述文本触摸坐标执行对应的触摸操作。
78.值得说明的是,文本触摸坐标是指在语音控制关键字在车载显示屏上的文字坐标区域,其中文字坐标可以是通过文字识别库获得,例如:在图3中,若用户的语音控制信号为“打开收音机”,则文本触摸坐标将会在图3中收音机所在的区域。
79.应当说明的是,在考虑到车载显示屏的文字只是用于标注,没有实际的操作意义,还可以通过坐标偏移或者筛选以调整实际触摸坐标,即将文本触摸坐标与预设指令坐标进行筛选,获得目标触摸坐标,或者将文本触摸坐标按照预设偏移规则进行偏移,获得目标触摸坐标。
80.其中,预设指令坐标可以是预先设定的无效触摸坐标,即不会产生触摸信号的坐标,将文本触摸坐标与无效触摸坐标进行匹配,以筛选与无效坐标重合的文本触摸坐标;预设偏移规则可以是将文本触摸坐标以横纵偏移的形式,进行修正,考虑到各个车载显示屏系统的不同,会存在文本作为触摸界面上方或者下方起到标识的作用,因此,将文本触摸坐标进行偏移以显示准确位置的触摸操作。
81.在具体实现中,在确定目标触摸坐标之后,将会在车载显示屏中的所述目标触摸坐标区域生成对应的触摸信号,以实现对应的触摸操作。
82.本实施例公开了一种语音控制方法,所述语音控制方法包括:识别用户发出的语音信号,获取所述语音信号中的语音控制关键字;获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;将所述语音控制关键字与所述文字识别库进行匹配;在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作,本实施例通过识别用户的语音信号,以获得语音信号中的语音控制关键字,同时,对车载显示屏的当前显示界面进行文字识别,从而获得当前显示界面对应的文字识别库,并将所述语音控制关键字与所述文字识别库进行匹配,进而确定当前显示界面中是否存在用户输入的语音控制关键字,若匹配成功,则确定当前显示界面上的文本触摸坐标,并对该文本触摸坐标执行触摸操作,进而实现控制车辆状态,避免了现有技术中行车过程中,手动触摸显示屏控制车辆状态会分散用户注意力,存在行车安全隐患的技术问题,提高了用户的驾驶安全性。
83.参考图4,图4为本发明一种语音控制方法第二实施例的流程示意图。
84.基于上述第一实施例,在本实施例中,所述步骤s20,包括:
85.步骤s201:获取车辆显示屏的当前显示界面。
86.需要说明的是,应当说明的是,当前显示界面是指车辆搭载的显示屏或者外挂的控制显示屏等上的当前时刻显示界面,本实施例对此不做具体限制,在本实施例中,以车载显示屏为例进行说明。
87.步骤s202:对所述当前显示界面进行预处理,获得目标显示界面。
88.值得说明的是,对当前显示界面进行预处理的过程可以是进行灰度处理、图像二值化处理等,本实施例对此不做具体限制。
89.进一步地,所述步骤s202,包括:
90.获取所述当前显示界面的颜显示信息;
91.根据所述颜显示信息对所述当前显示界面进行灰度处理,获得灰度处理后的显示界面对应的目标颜显示信息;
92.通过预设边缘处理模型进获得所述目标颜显示信息与所述灰度处理后的显示界面对应的边缘处理信息;
93.根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二值化处理。
94.应当说明的是,颜显示信息包括:当前显示界面的rgb信息,其中,为了确定所述当前显示界面的显示信息的rgb值,还需要针对每一像素进行建立坐标系,确定每一像素的坐标,并获取车载显示屏的分辨率,获取当前显示界面的rgb值的公式为:
95.t=t(r1(x,y),g1(x,y),b1(x,y));x∈m,y∈n
96.其中,t为当前显示界面的rgb值集合,x和y是图标像素坐标值,r1(x,y)、g1(x,y)和b1(x,y)对应坐标rgb像素值,m和n为车载监视器显示界面的分辨率。
97.可以理解的是,对当前显示界面进行灰度处理可以采用阈值法,即划分一个灰度处理阈值,以使各个rgb像素值进行灰度处理,其中灰度处理阈值可以是0.3、0.6以及0.1,本实施例对此不做具体限制。
98.其中,获取灰度处理后的rgb像素值的公式为:
99.r2(x,y)=g2(x,y)=b2(x,y)=0.3r1(x,y)+0.6g1(x,y)+0.1b(x,y)
100.其中,r1(x,y)、g1(x,y)和b1(x,y)为处理前坐标(x,y)的像素值;r2(x,y)、g2(x,y)和b2(x,y)为处理后坐标(x,y)的像素值。
101.可以理解的是,预设边缘处理模型可以是基于sobel算子的边缘处理模型,还可以是其他具有相同或者相似功能的模型,本实施例对此不做具体限制。
102.在具体实现中,对灰度处理后的当前显示界面以3x3图像区域通过基于sobel算子的预设边缘处理模型进行边缘处理,以增强图像清晰度,获得边缘处理信息,其中,获得边缘处理信息的公式为:
[0103][0104]
其中,gx是指水平梯度卷积因子,gy是指垂直梯度卷积因子,a是指原始图像,hx是指横向图像灰度值,hy是指纵向图像灰度值,r3是指图像灰度值。
[0105]
其中,原始图像a为:
[0106][0107]
横向卷积因子gx与纵向卷积因子gy分别为:
[0108]
[0109][0110]
在具体实现中,经过边缘处理后,获得边缘处理信息,并根据所述边缘处理信息与预设二值化阈值对灰度处理后的显示界面进行二值化处理,其中预设二值化阈值是通过预先计算获得。
[0111]
进一步地,为了获得最佳的二值化阈值,所述根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二值化处理之前,包括:
[0112]
划分所述目标颜显示信息的灰度等级,并根据所述灰度等级确定灰度等级区间;
[0113]
根据所述灰度等级区间与预设像素信息确定灰度等级区间对应的灰度值概率;
[0114]
根据所述灰度值概率确定灰度均值,并通过所述灰度均值确定类间方差;
[0115]
在所述类间方差满足预设条件时,获取预设二值化阈值。
[0116]
需要说明的是,基于otsu的原理和思想,对边缘处理后的图像r3(x,y)的划分为n阶灰度区间,用一个阀值为t将图像的灰度等级划分为a、b两个部分;则可得a和b区域的灰度值概率:
[0117][0118][0119]
其中,pa是指a灰度等级的灰度值概率,pb是指b灰度等级的灰度值概率,pi(i=0,1,2,

,n-1)表示为灰度为i像素的概率。
[0120]
再通过上述的灰度值概率计算灰度均值,灰度均值的计算公式为:
[0121][0122]
其中,δ1,δ2分别是图像分割后a\b两部分的灰度均值,pi(i=0,1,2,

,n-1)表示为灰度为i像素的概率。
[0123]
根据各个部分的灰度均值计算类间方差的公式为:
[0124][0125]
σ2=pa(δ
1-δ)2+pb(δ
2-δ)2[0126]
其中,pa是指a灰度等级的灰度值概率,pb是指b灰度等级的灰度值概率,pi(i=0,1,2,

,n-1)表示为灰度为i像素的概率,δ是指a、b两部分的灰度均值。
[0127]
值得说明的是,预设条件是指当需要满足σ2/σ1取最大值,即第二类间方差与第一类间方差的比为最大值时,记为预设二值化阈值。
[0128]
进一步地,获得预设二值化阈值之后,对边缘处理信息进行二值化处理获得的图像为:
[0129]
r4(x,y)=g4(x,y)=b4(x,y):x∈m,y∈n
[0130]
步骤s203:通过预设文字识别模型对所述目标显示界面进行文字识别,获得初始文本库。
[0131]
可以理解的是,预设文字识别模型用于识别输入图像中文字信息,以获得输入图像的文字信息,其中,预设文字识别模型可以是ocr文字识别引擎、机器识别或者深度学习的文字识别模型,本实施例对此不做具体限制。
[0132]
步骤s204:获取所述初始文本库中的文字在所述目标显示界面上的文字坐标。
[0133]
应当理解的是,获取目标显示界面上的文字坐标可以是通过先在车载显示屏上建立坐标系,在本实施例中,坐标系可以是将车载显示屏的当前显示界面按照分辨率进行划分为单元格的形式,依次检测各个单元格中是否存在文字信息,若存在,则将该单元格在整个显示界面中的位置作为文字坐标。
[0134]
进一步地,所述步骤s204,包括:
[0135]
获取所述目标显示界面的分辨率;
[0136]
基于所述分辨率划分出所述目标显示界面中的目标单元格;
[0137]
检测所述目标单元格中是否存在文字;
[0138]
若存在,则确定所述目标单元格的位置信息;
[0139]
将所述位置信息取余,和/或,取整,获得文字坐标。
[0140]
值得说明的是,将目标显示界面按照分辨率划分为h*v的最小单元,h为长度方向的最小尺寸,v为高度方向最小尺寸,然后依次增加1个单元格,直至检测到单元格内村子文字,增加到λ个单元格的公式为:
[0141][0142]
其中,%符号为取余运算符,int为取整运算符。
[0143]
在具体实现中,将每次增加1个单元格的图像发送到ocr引擎后,当识别到新增的文本“tλ”,则可以得到该文本坐标,记为:(tλ:λ%(h/m),λ%(v/n)),int(h/m)为该文本的横坐标,int(v/n)该文本的纵坐标,即对该文本的横坐标进行取余运算,获得精确的文本横坐标;对该文本的纵坐标进行取整运算,以获得精确的文本纵坐标。
[0144]
步骤s205:基于所述文字坐标更新所述初始文本库,获得文字识别库。
[0145]
在具体实现中,将识别到的文字与对应的文字坐标对应存储,以更新初始文本库,从而获得文字识别库。
[0146]
本实施例公开了获取车辆显示屏的当前显示界面;对所述当前显示界面进行预处理,获得目标显示界面;通过预设文字识别模型对所述目标显示界面进行文字识别,获得初始文本库;获取所述初始文本库中的文字在所述目标显示界面上的文字坐标;基于所述文字坐标更新所述初始文本库,获得文字识别库,本实施例通过对当前显示界面进行预处理,并将预处理后获得的目标显示界面通过预设文字识别模型识别文字,获得初始文本库,在通过获取初始文本库中的文字在目标显示界面上的文字坐标,进而文字与文字坐标对应的文字识别库,为后续进行关键字匹配提供精准的匹配条件。
[0147]
参考图5,图5为本发明一种语音控制方法第三实施例的流程示意图。
[0148]
基于上述第二实施例,在本实施例中,所述步骤s40,包括:
[0149]
步骤s401:提取所述语音控制关键字中的目标关键字与下一个目标关键字。
[0150]
需要说明的是,目标关键字是指语音控制关键字中的第一个关键字,例如:语音控制关键字为“空调器”,目标关键字为“空”,下一个目标关键字为“调”,本实施例对此不做具体限制。
[0151]
步骤s402:将所述目标关键字与所述文字识别库进行匹配。
[0152]
步骤s403:若匹配成功,则获取所述目标关键字对应的目标关键字坐标。
[0153]
值得说明的是,先将第一个关键字与文字识别库进行匹配,检测文字识别库中是否存在该目标关键字,若存在,则提取所述目标关键字在文字识别库中的目标关键字坐标,若存在多个坐标,将所有的关键字坐标都保存。
[0154]
步骤s404:基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配。
[0155]
应当说明的是,在确定文字识别库中存在语音控制关键字的第一个关键字时,将基于所述第一关键字对应的文字坐标在横纵方向上进行下一目标关键字的匹配,以确定是否存在连续的关键字组,从而确定当前显示界面上是否存在语音控制关键字。
[0156]
进一步地,所述步骤s404,包括:
[0157]
提取所述目标关键字坐标中的目标关键字横坐标与目标关键字纵坐标;
[0158]
基于所述目标关键字横坐标与所述目标关键字纵坐标分别检测所述目标关键字预设间隔内是否存在文字;
[0159]
若存在,则提取第二关键字;
[0160]
将所述第二关键字与所述下一个目标关键字进行匹配。
[0161]
可以理解的是,预设时间间隔可以是有用户设定的像素间隔,本实施例对此不做具体限制。
[0162]
易于理解的是,根据语音控制关键字的第一个关键字与第一个关键字坐标开展横坐标方向排查,以检测是否存在第二个关键字,如匹配成功,得到第二个字体的坐标(x1,int(v/n),系统计算在相同横坐标内,在(λ*h)%m与x1之间是否存在第二个非语音控制关键字,如存在,则反馈系统未到适配内容,如无任何字,则反馈系统有适配;同时,基于第二个关键字与第二个关键字的文字坐标进行横纵方向上的第三个关键字坐标,直至所有语音控制关键字匹配完成。
[0163]
同理,在纵方向上的关键字匹配也可以通过上述方法完成,即根据语音控制关键字的第一个关键字与第一个关键字坐标开展纵坐标方向排查,以检测是否存在第二个关键字,如匹配成功,得到第二个字体的坐标((λ*h)%m,y1),系统计算在相同纵坐标内,在λ%(n/v)与y1之间是否存在第二个非语音控制关键字,如存在,则反馈系统未到适配内容,如无任何字,则反馈系统有适配;同时,基于第二个关键字与第二个关键字的文字坐标进行横纵方向上的第三个关键字坐标,直至所有语音控制关键字匹配完成。
[0164]
值得说明的是,在进行语音控制关键字的匹配时,若是语音控制关键字存在两个或者两个以上的文字,需要考虑相邻关键字之间的间隔,即相邻控制关键字的间隔需要一致,且在预设间隔距离内,其中预设间隔距离可以是5mm,本实施例对此不做具体限制。
[0165]
在具体实现中,参考图6,图6为本实施方法的流程示意图,本实施例在车载显示屏上的语音控制关键字对应的文字坐标区域处,生成触摸信号,以实现在该文字坐标区域执行虚拟触摸操作,执行对应的操作指令。
[0166]
本实施例公开了提取所述语音控制关键字中的目标关键字与下一个目标关键字;将所述目标关键字与所述文字识别库进行匹配;若匹配成功,则获取所述目标关键字对应的目标关键字坐标;基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配,本实施例通过依次对语音控制关键字的坐标拾取,以确定各个关键字横纵坐标上是否存在下一关键字,以实现完成的语音控制关键字的匹配,从而判断当前显示界面上是否存在语音控制关键字,进而确定是否需要执行对应的触摸操作。
[0167]
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有语音控制程序,所述语音控制程序被处理器执行时实现如上文所述的语音控制方法的步骤。
[0168]
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
[0169]
参照图7,图7为本发明语音控制装置第一实施例的结构框图。
[0170]
如图7所示,本发明实施例提出的语音控制装置包括:
[0171]
语音识别模块10,用于识别用户发出的语音信号,获取所述语音信号中的语音控制关键字。
[0172]
文字识别模块20,用于获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库。
[0173]
文字匹配模块30,用于将所述语音控制关键字与所述文字识别库进行匹配。
[0174]
指令执行模块40,用于在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作。
[0175]
本实施例公开了一种语音控制方法,所述语音控制方法包括:识别用户发出的语音信号,获取所述语音信号中的语音控制关键字;获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;将所述语音控制关键字与所述文字识别库进行匹配;在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作,本实施例通过识别用户的语音信号,以获得语音信号中的语音控制关键字,同时,对车载显示屏的当前显示界面进行文字识别,从而获得当前显示界面对应的文字识别库,并将所述语音控制关键字与所述文字识别库进行匹配,进而确定当前显示界面中是否存在用户输入的语音控制关键字,若匹配成功,则确定当前显示界面上的文本触摸坐标,并对该文本触摸坐标执行触摸操作,进而实现控制车辆状态,避免了现有技术中行车过程中,手动触摸显示屏控制车辆状态会分散用户注意力,存在行车安全隐患的技术问题,提高了用户的驾驶安全性。
[0176]
在一实施例中,所述文字识别模块20,还用于获取车辆显示屏的当前显示界面;对所述当前显示界面进行预处理,获得目标显示界面;通过预设文字识别模型对所述目标显示界面进行文字识别,获得初始文本库;获取所述初始文本库中的文字在所述目标显示界面上的文字坐标;基于所述文字坐标更新所述初始文本库,获得文字识别库。
[0177]
在一实施例中,所述文字识别模块20,还用于获取所述当前显示界面的颜显示信息;根据所述颜显示信息对所述当前显示界面进行灰度处理,获得灰度处理后的显示界面对应的目标颜显示信息;通过预设边缘处理模型进获得所述目标颜显示信息与所述灰度处理后的显示界面对应的边缘处理信息;根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二值化处理。
[0178]
在一实施例中,所述文字识别模块20,还用于划分所述目标颜显示信息的灰度等级,并根据所述灰度等级确定灰度等级区间;根据所述灰度等级区间与预设像素信息确定灰度等级区间对应的灰度值概率;根据所述灰度值概率确定灰度均值,并通过所述灰度均值确定类间方差;在所述类间方差满足预设条件时,获取预设二值化阈值。
[0179]
在一实施例中,所述文字识别模块20,还用于获取所述目标显示界面的分辨率;基于所述分辨率划分出所述目标显示界面中的目标单元格;检测所述目标单元格中是否存在文字;若存在,则确定所述目标单元格的位置信息;将所述位置信息取余,和/或,取整,获得文字坐标。
[0180]
在一实施例中,所述指令执行模块40,还用于提取所述语音控制关键字中的目标关键字与下一个目标关键字;将所述目标关键字与所述文字识别库进行匹配;若匹配成功,则获取所述目标关键字对应的目标关键字坐标;基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配。
[0181]
在一实施例中,所述指令执行模块40,还用于提取所述目标关键字坐标中的目标关键字横坐标与目标关键字纵坐标;基于所述目标关键字横坐标与所述目标关键字纵坐标分别检测所述目标关键字预设间隔内是否存在文字;若存在,则提取第二关键字;将所述第二关键字与所述下一个目标关键字进行匹配。
[0182]
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
[0183]
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
[0184]
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的语音控制方法,此处不再赘述。
[0185]
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0186]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0187]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0188]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种语音控制方法,其特征在于,所述语音控制方法包括:识别用户发出的语音信号,获取所述语音信号中的语音控制关键字;获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;将所述语音控制关键字与所述文字识别库进行匹配;在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作。2.如权利要求1所述的语音控制方法,其特征在于,所述获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库,包括:获取车辆显示屏的当前显示界面;对所述当前显示界面进行预处理,获得目标显示界面;通过预设文字识别模型对所述目标显示界面进行文字识别,获得初始文本库;获取所述初始文本库中的文字在所述目标显示界面上的文字坐标;基于所述文字坐标更新所述初始文本库,获得文字识别库。3.如权利要求2所述的语音控制方法,其特征在于,所述对所述当前显示界面进行预处理,包括:获取所述当前显示界面的颜显示信息;根据所述颜显示信息对所述当前显示界面进行灰度处理,获得灰度处理后的显示界面对应的目标颜显示信息;通过预设边缘处理模型进获得所述目标颜显示信息与所述灰度处理后的显示界面对应的边缘处理信息;根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二值化处理。4.如权利要求3所述的语音控制方法,其特征在于,所述根据所述边缘处理信息与预设二值化阈值对所述灰度处理后的显示界面进行二值化处理之前,包括:划分所述目标颜显示信息的灰度等级,并根据所述灰度等级确定灰度等级区间;根据所述灰度等级区间与预设像素信息确定灰度等级区间对应的灰度值概率;根据所述灰度值概率确定灰度均值,并通过所述灰度均值确定类间方差;在所述类间方差满足预设条件时,获取预设二值化阈值。5.如权利要求2所述的语音控制方法,其特征在于,所述获取所述初始文本库中的文字在所述目标显示界面上的文字坐标,包括:获取所述目标显示界面的分辨率;基于所述分辨率划分出所述目标显示界面中的目标单元格;检测所述目标单元格中是否存在文字;若存在,则确定所述目标单元格的位置信息;将所述位置信息取余,和/或,取整,获得文字坐标。6.如权利要求1-5任一项所述的语音控制方法,其特征在于,所述将所述语音控制关键字与所述文字识别库进行匹配,包括:提取所述语音控制关键字中的目标关键字与下一个目标关键字;
将所述目标关键字与所述文字识别库进行匹配;若匹配成功,则获取所述目标关键字对应的目标关键字坐标;基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配。7.如权利要求6所述的语音控制方法,其特征在于,所述基于所述目标关键字坐标将所述下一个目标关键字与所述文字识别库进行匹配,包括:提取所述目标关键字坐标中的目标关键字横坐标与目标关键字纵坐标;基于所述目标关键字横坐标与所述目标关键字纵坐标分别检测所述目标关键字预设间隔内是否存在文字;若存在,则提取第二关键字;将所述第二关键字与所述下一个目标关键字进行匹配。8.一种语音控制装置,其特征在于,所述语音控制装置包括:语音识别模块,用于识别用户发出的语音信号,获取所述语音信号中的语音控制关键字;文字识别模块,用于获取车辆显示屏的当前显示界面,并通过预设文字识别模型对所述当前显示界面进行文字识别,获得文字识别库;文字匹配模块,用于将所述语音控制关键字与所述文字识别库进行匹配;指令执行模块,用于在匹配成功时,根据所述语音控制关键字与所述文字识别库确定文本触摸坐标,并基于所述文本触摸坐标执行对应的触摸操作。9.一种语音控制设备,其特征在于,所述语音控制设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序,所述语音控制程序配置为实现如权利要求1至7中任一项所述的语音控制方法。10.一种存储介质,其特征在于,所述存储介质上存储有语音控制程序,所述语音控制程序被处理器执行时实现如权利要求1至7任一项所述的语音控制方法。

技术总结


本发明涉及车辆控制技术领域,尤其涉及一种语音控制方法、装置、设备及存储介质,本发明通过识别用户的语音信号,以获得语音信号中的语音控制关键字,同时,对车载显示屏的当前显示界面进行文字识别,从而获得当前显示界面对应的文字识别库,并将所述语音控制关键字与所述文字识别库进行匹配,进而确定当前显示界面中是否存在用户输入的语音控制关键字,若匹配成功,则确定当前显示界面上的文本触摸坐标,并对该文本触摸坐标执行触摸操作,进而实现控制车辆状态,避免了现有技术中行车过程中,手动触摸显示屏控制车辆状态会分散用户注意力,存在行车安全隐患的技术问题,提高了用户的驾驶安全性。驶安全性。驶安全性。


技术研发人员:

汪宇航 林苏华 高龙华 唐极峰 邓克晚 陶晓娟 石聪

受保护的技术使用者:

东风柳州汽车有限公司

技术研发日:

2022.06.20

技术公布日:

2022/10/20

本文发布于:2024-09-24 04:26:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/23805.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   文字   语音   关键字
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议