一种人机语音交互实现方法、系统及电子设备与流程



1.本发明涉及人机语音交互技术领域,尤其涉及一种人机语音交互实现方法、系统及电子设备。


背景技术:



2.随着科技的进步,数字文化馆内的电子产品越来越多,也越来越智能化,人机语音交互产品就是其中一个。人机语音交互系统可以为参观的客户提供有效的人机交互功能,通过语音与机器进行交流,让机器明白人说的是什么,并给出相应的回答。例如,通过人机语音交互系统获取数字文化馆内的相关产品的介绍以及相关功能,也可通过人机语音交互系统为客户指引路径,告诉客户想要去的地方的路线等功能。
3.现有的人机交互过程中,往往涉及到大量的数据库的使用,但是并不能对数据库的使用权限进行预设置,这样无法有效保护数据库创建者的权益。另外,现有人机交互过程需要使用标准的中文或者外文才能实现有效沟通,倘若说的是方言,则无法形成有效沟通,虽然现在开始出现部分的人机交互可以实现方言控制的功能,但是,由于每个人或者每个地区的人所说的方言不同或者不标准,这仍然会导致方言进行控制不够精确。


技术实现要素:



4.本发明的目的是提供一种人机语音交互实现方法、系统及电子设备,其可以解决背景技术中涉及的技术问题。
5.为实现上述目的,本发明的技术方案为:一种人机语音交互实现方法,该方法包括如下步骤:步骤一、采集语音输出者的声纹特征,基于采集的声纹特征预设置语音输出者的语言库访问权限,所述语言库包括方言库、普通话库以及外文库,所述语言库访问权限包括解锁任意一个语言库的一级权限、解锁任意两个语言库的二级权限以及解锁所有语言库的三级权限;步骤二、采集语音输出者输出的语音信息;步骤三、对采集的语音信息进行分析,确定语音信息所属于的语言类型,所述语言类型包括方言、普通话以及外文;步骤四、根据确定的语言类型和预设置的语言库访问权限确认是否可匹配相应的语言库,若可匹配,则执行步骤五;若不可匹配,则执行步骤九;步骤五、匹配相应的语言库,并从该语言库中匹配与采集的语音信息对应的反馈语音信息,若确定的语言类型属于普通话,则直接输出标准语言文本;若语言类型不属于普通话,则将匹配的语音信息转换成普通话语音信息,并输出标准语言文本;步骤六、请求语音输出者确认该标准语言文本内容是否正确,若正确,则执行步骤七,否则执行步骤八;步骤七、根据输出的标准语言文本从指令库中匹配相应的执行指令并执行;
步骤八、重新录入新的反馈语音信息并替换掉语言库中原有的反馈语音信息,再继续执行步骤五;步骤九、提示访问权限不足,并请求是否升级访问权限,若是,则执行步骤一,否则结束。
6.作为本发明的一种优选改进,在步骤五中,从语言库中匹配与采集的语音信息对应的反馈语音信息具体包括:从语言库中匹配与此采集的语音信息对应的预存语音信息,所述语言库中预存储有词表,所述词表包括预存语音信息和与该预存语音信息一一对应的标准语音文本;根据匹配的预存语音信息从所述词表中调出对应的标准语音文本。
7.作为本发明的一种优选改进,所述词表的创建步骤如下:输入语音信息和与该语音信息一一对应的标准语音文本;将输入语音信息与标准语音文本建立一一对应关系的词表。
8.作为本发明的一种优选改进,步骤八具体包括:向人机语音交互服务器发送录入提示信息以使人机语音交互服务器向语音输出者发送反馈语音信息录入请求信息;从所述人机语音交互服务器接收录入的反馈语音信息并对语言库中的原有反馈语音信息进行替换。
9.本发明还提供了一种人机语音交互实现系统,该系统包括:权限设置模块,用于采集语音输出者的声纹特征,基于采集的声纹特征预设置语音输出者的语言库访问权限;语音信息采集模块,用于采集语音输出者输出的语音信息;语音信息分析模块,用于对采集的语音信息进行分析,确定语音信息所属于的语言类型;访问权限确认模块,用于根据确定的语言类型和预设置的语言库访问权限确认是否可匹配相应的语言库;标准语音文本输出模块,用于匹配相应的语言库,并从该语言库中匹配与采集的语音信息对应的反馈语音信息,若确定的语言类型属于普通话,则直接输出标准语言文本;若语言类型不属于普通话,则将匹配的语音信息转换成普通话语音信息,并输出标准语言文本;标准语音文本内容确认模块,用于请求语音输出者确认该标准语言文本内容是否正确;指令执行模块,用于根据输出的标准语言文本从指令库中匹配相应的执行指令并执行;反馈语音信息替换模块,用于重新录入新的反馈语音信息并替换掉语言库中原有的反馈语音信息;访问权限提示模块,用于提示访问权限不足,并请求是否升级访问权限。
10.作为本发明的一种优选改进,所述语言库包括方言库、普通话库以及外文库。
11.作为本发明的一种优选改进,所述语言库访问权限包括解锁任意一个语言库的一级权限、解锁任意两个语言库的二级权限以及解锁所有语言库的三级权限。
12.作为本发明的一种优选改进,所述语言类型包括方言、普通话以及外文。
13.作为本发明的一种优选改进,所述反馈语音信息替换模块包括:录入请求模块,用于向人机语音交互服务器发送录入提示信息以使人机语音交互服务器向语音输出者发送反馈语音信息录入请求信息;替换模块,用于从所述人机语音交互服务器接收录入的反馈语音信息并对语言库中的原有反馈语音信息进行替换。
14.本发明还提供了一种电子设备,所述电子设备中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时执行所述的方法中的步骤。
15.本发明的有益效果在于:1、通过权限设置模块来进行语言库访问权限的预设置,并设置访问权限确认模块来确实是否有访问权限,从而可以保护数据库创建者的权益,或者可以针对性的提供服务;2、可以实现不同类型的语言都可进行人机交互;3、通过标准语音文本内容确认模块来确认匹配的语音文本是否正确,当不正确时,可进行修正,从而创建自己专属语言库,提高识别准确度。
附图说明
16.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。下文描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:图1为本发明人机语音交互实现系统的结构框架图;图2为本发明反馈语音信息替换模块的结构框架图;图3为本发明电子设备的结构框架图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
18.请参阅图1所示,本发明提高了一种人机语音交互实现系统,该系统包括权限设置模块1、语音信息采集模块2、语音信息分析模块3、访问权限确认模块4、标准语音文本输出模块5、标准语音文本内容确认模块6、指令执行模块7、反馈语音信息替换模块8以及访问权限提示模块9。
19.所述权限设置模块1用于采集语音输出者的声纹特征,基于采集的声纹特征预设置语音输出者的语言库访问权限。
20.具体的,所述语言库包括方言库、普通话库以及外文库,所述方言库包括中国各地各种方言,当然,所述方言库中的方言种类不一定涵盖中国所有的方言,但是,可以根据实际需要去在方言库中添加新的方言,所述外文库包括但不限于英语库、日语库、德语库、西班牙语库以及法语库。所述语言库访问权限包括解锁任意一个语言库的一级权限、解锁任
意两个语言库的二级权限以及解锁所有语言库的三级权限。
21.所述语音信息采集模块2用于采集语音输出者输出的语音信息。
22.所述语音信息分析模块3用于对采集的语音信息进行分析,确定语音信息所属于的语言类型,具体的,所述语言类型包括方言、普通话以及外文。
23.所述访问权限确认模块4用于根据确定的语言类型和预设置的语言库访问权限确认是否可匹配相应的语言库。
24.所述标准语音文本输出模块5用于匹配相应的语言库,并从该语言库中匹配与采集的语音信息对应的反馈语音信息,若确定的语言类型属于普通话,则直接输出标准语言文本;若语言类型不属于普通话,则将匹配的语音信息转换成普通话语音信息,并输出标准语言文本。
25.所述标准语音文本内容确认模块6用于请求语音输出者确认该标准语言文本内容是否正确。
26.所述指令执行模块7用于根据输出的标准语言文本从指令库中匹配相应的执行指令并执行。
27.所述反馈语音信息替换模块8用于重新录入新的反馈语音信息并替换掉语言库中原有的反馈语音信息。
28.具体的,再结合图2所示,所述反馈语音信息替换模块8包括录入请求模块81和替换模块82。
29.所述录入请求模块81用于向人机语音交互服务器发送录入提示信息以使人机语音交互服务器向语音输出者发送反馈语音信息录入请求信息。
30.所述替换模块82用于从所述人机语音交互服务器接收录入的反馈语音信息并对语言库中的原有反馈语音信息进行替换。
31.所述访问权限提示模块9用于提示访问权限不足,并请求是否升级访问权限。
32.基于上述的人机语音交互系统,本发明还提供了一种人机语音交互实现方法,该方法包括如下步骤:步骤一、采集语音输出者的声纹特征,基于采集的声纹特征预设置语音输出者的语言库访问权限,所述语言库包括方言库、普通话库以及外文库,所述语言库访问权限包括解锁任意一个语言库的一级权限、解锁任意两个语言库的二级权限以及解锁所有语言库的三级权限;步骤二、采集语音输出者输出的语音信息;步骤三、对采集的语音信息进行分析,确定语音信息所属于的语言类型,所述语言类型包括方言、普通话以及外文;步骤四、根据确定的语言类型和预设置的语言库访问权限确认是否可匹配相应的语言库,若可匹配,则执行步骤五;若不可匹配,则执行步骤九;步骤五、匹配相应的语言库,并从该语言库中匹配与采集的语音信息对应的反馈语音信息,若确定的语言类型属于普通话,则直接输出标准语言文本;若语言类型不属于普通话,则将匹配的语音信息转换成普通话语音信息,并输出标准语言文本;具体的,从语言库中匹配与采集的语音信息对应的反馈语音信息具体包括:从语言库中匹配与此采集的语音信息对应的预存语音信息,所述语言库中预存储
有词表,所述词表包括预存语音信息和与该预存语音信息一一对应的标准语音文本;根据匹配的预存语音信息从所述词表中调出对应的标准语音文本。
33.进一步的,所述词表的创建步骤如下:输入语音信息和与该语音信息一一对应的标准语音文本;将输入语音信息与标准语音文本建立一一对应关系的词表。
34.步骤六、请求语音输出者确认该标准语言文本内容是否正确,若正确,则执行步骤七,否则执行步骤八;步骤七、根据输出的标准语言文本从指令库中匹配相应的执行指令并执行;步骤八、重新录入新的反馈语音信息并替换掉语言库中原有的反馈语音信息,再继续执行步骤五;具体包括:向人机语音交互服务器发送录入提示信息以使人机语音交互服务器向语音输出者发送反馈语音信息录入请求信息;从所述人机语音交互服务器接收录入的反馈语音信息并对语言库中的原有反馈语音信息进行替换。
35.步骤九、提示访问权限不足,并请求是否升级访问权限,若是,则执行步骤一,否则结束。
36.再结合图3所示,本发明还提供了一种电子设备200,包括人机语音交互服务器201、存储器202以及处理器203,所述存储器202中存储有计算机程序指令,所述计算机程序指令被所述处理器203读取并运行时执行所述的方法中的步骤。
37.具体的,所述存储器202可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。其中,存储器202用于存储程序,所述处理器203在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器203中,或者由处理器203实现。
38.所述处理器203可以是一种集成电路芯片,具有信号的处理能力。上述的处理器203可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器203也可以是任何常规的处理器等。
39.可以理解,图3所示的结构仅为示意,所述电子设备200还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
40.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
41.在本技术所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
42.另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
43.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
44.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
45.本发明的有益效果在于:1、通过权限设置模块来进行语言库访问权限的预设置,并设置访问权限确认模块来确实是否有访问权限,从而可以保护数据库创建者的权益,或者可以针对性的提供服务;2、可以实现不同类型的语言都可进行人机交互;3、通过标准语音文本内容确认模块来确认匹配的语音文本是否正确,当不正确时,可进行修正,从而创建自己专属语言库,提高识别准确度。
46.尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。

技术特征:


1.一种人机语音交互实现方法,其特征在于,该方法包括如下步骤:步骤一、采集语音输出者的声纹特征,基于采集的声纹特征预设置语音输出者的语言库访问权限,所述语言库包括方言库、普通话库以及外文库,所述语言库访问权限包括解锁任意一个语言库的一级权限、解锁任意两个语言库的二级权限以及解锁所有语言库的三级权限;步骤二、采集语音输出者输出的语音信息;步骤三、对采集的语音信息进行分析,确定语音信息所属于的语言类型,所述语言类型包括方言、普通话以及外文;步骤四、根据确定的语言类型和预设置的语言库访问权限确认是否可匹配相应的语言库,若可匹配,则执行步骤五;若不可匹配,则执行步骤九;步骤五、匹配相应的语言库,并从该语言库中匹配与采集的语音信息对应的反馈语音信息,若确定的语言类型属于普通话,则直接输出标准语言文本;若语言类型不属于普通话,则将匹配的语音信息转换成普通话语音信息,并输出标准语言文本;步骤六、请求语音输出者确认该标准语言文本内容是否正确,若正确,则执行步骤七,否则执行步骤八;步骤七、根据输出的标准语言文本从指令库中匹配相应的执行指令并执行;步骤八、重新录入新的反馈语音信息并替换掉语言库中原有的反馈语音信息,再继续执行步骤五;步骤九、提示访问权限不足,并请求是否升级访问权限,若是,则执行步骤一,否则结束。2.如权利要求1所述的一种人机语音交互实现方法,其特征在于,在步骤五中,从语言库中匹配与采集的语音信息对应的反馈语音信息具体包括:从语言库中匹配与此采集的语音信息对应的预存语音信息,所述语言库中预存储有词表,所述词表包括预存语音信息和与该预存语音信息一一对应的标准语音文本;根据匹配的预存语音信息从所述词表中调出对应的标准语音文本。3.如权利要求2所述的一种人机语音交互实现方法,其特征在于,所述词表的创建步骤如下:输入语音信息和与该语音信息一一对应的标准语音文本;将输入语音信息与标准语音文本建立一一对应关系的词表。4.如权利要求1所述的一种人机语音交互实现方法,其特征在于,步骤八具体包括:向人机语音交互服务器发送录入提示信息以使人机语音交互服务器向语音输出者发送反馈语音信息录入请求信息;从所述人机语音交互服务器接收录入的反馈语音信息并对语言库中的原有反馈语音信息进行替换。5.一种人机语音交互实现系统,其特征在于,该系统包括:权限设置模块,用于采集语音输出者的声纹特征,基于采集的声纹特征预设置语音输出者的语言库访问权限;语音信息采集模块,用于采集语音输出者输出的语音信息;语音信息分析模块,用于对采集的语音信息进行分析,确定语音信息所属于的语言类
型;访问权限确认模块,用于根据确定的语言类型和预设置的语言库访问权限确认是否可匹配相应的语言库;标准语音文本输出模块,用于匹配相应的语言库,并从该语言库中匹配与采集的语音信息对应的反馈语音信息,若确定的语言类型属于普通话,则直接输出标准语言文本;若语言类型不属于普通话,则将匹配的语音信息转换成普通话语音信息,并输出标准语言文本;标准语音文本内容确认模块,用于请求语音输出者确认该标准语言文本内容是否正确;指令执行模块,用于根据输出的标准语言文本从指令库中匹配相应的执行指令并执行;反馈语音信息替换模块,用于重新录入新的反馈语音信息并替换掉语言库中原有的反馈语音信息;访问权限提示模块,用于提示访问权限不足,并请求是否升级访问权限。6.如权利要求5所述的一种人机语音交互实现系统,其特征在于,所述语言库包括方言库、普通话库以及外文库。7.如权利要求5所述的一种人机语音交互实现系统,其特征在于,所述语言库访问权限包括解锁任意一个语言库的一级权限、解锁任意两个语言库的二级权限以及解锁所有语言库的三级权限。8.如权利要求5所述的一种人机语音交互实现系统,其特征在于,所述语言类型包括方言、普通话以及外文。9.如权利要求5所述的一种人机语音交互实现系统,其特征在于,所述反馈语音信息替换模块包括:录入请求模块,用于向人机语音交互服务器发送录入提示信息以使人机语音交互服务器向语音输出者发送反馈语音信息录入请求信息;替换模块,用于从所述人机语音交互服务器接收录入的反馈语音信息并对语言库中的原有反馈语音信息进行替换。10.一种电子设备,其特征在于,所述电子设备中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时执行权利要求1-4任意一项所述的方法中的步骤。

技术总结


本发明提供了一种人机语音交互实现系统,该系统包括权限设置模块、语音信息采集模块、语音信息分析模块、访问权限确认模块、标准语音文本输出模块、标准语音文本内容确认模块、指令执行模块、反馈语音信息替换模块以及访问权限提示模块。本发明还提供了一种基于所述的人机语音交互实现系统的人机语音交互实现方法。本发明还提供了一种电子设备,所述电子设备中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时执行所述的方法中的步骤。本发明的有益效果在于:可以保护数据库创建者的权益,或者可以针对性的提供服务;可以实现不同类型的语言都可进行人机交互;创建专属语言库,提高识别准确度。提高识别准确度。提高识别准确度。


技术研发人员:

刘跃华 王新

受保护的技术使用者:

湖南正宇软件技术开发有限公司

技术研发日:

2022.06.15

技术公布日:

2022/7/22

本文发布于:2024-09-22 23:26:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/16046.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   语言   所述   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议