一种语音打断方法、装置、计算机设备及存储介质与流程



1.本技术涉及人工智能技术领域,尤其涉及一种语音打断方法、装置、计算机设备及存储介质


背景技术:



2.目前,在智能客服或智能外呼等电话或视频电话业务场景中,通常由智能ai代替人工客服提供语音服务。但现有的智能客服中打断方式单一,在实际应用中难以掌握播报语音的打断点,导致在一些场景中,可能会出现智能客服立即或随时停止播报语音的播放,使当前播报语音的语义播放不完整,不符合真人对话的方式,客户体验较差。


技术实现要素:



3.本技术实施例的目的在于提出一种语音打断方法、装置、计算机设备及存储介质,以解决现有技术中语音打断方式单一,客户体验差的问题。
4.为了解决上述技术问题,本技术实施例提供一种语音打断方法,采用了如下所述的技术方案:
5.获取播报语音,从所述播报语音中提取播报属性后,根据所述播报属性确定打断条件
6.当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息;
7.根据所述语音信息和所述打断条件判断是否打断所述播报语音。
8.进一步的,所述打断条件包括字数打断规则以及时间打断规则;所述根据所述播报属性确定打断条件的步骤包括:
9.若所述播报属性为一般属性时,则确定所述打断条件为所述时间打断规则;
10.若所述播报属性为重要属性时,则确定所述打断条件为所述字数打断规则、或所述字数打断规则和所述时间打断规则。
11.进一步的,所述则确定所述打断条件为字数打断规则或混合打断规则的步骤包括:
12.从预设信息库中匹配与所述客户语音对应的客户信息,得到匹配结果;
13.若所述匹配结果为从所述预设信息库中匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则;
14.若所述匹配结果为从所述预设信息库中未匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则和所述时间打断规则。
15.进一步的,所述语音信息包括语音特征以及语音内容;所述根据所述语音信息和所述打断条件判断是否打断所述播报语音的步骤包括:
16.从所述打断条件中提取预设特征以及预设内容;
17.当所述语音特征满足所述预设特征时,判断所述语音内容是否满足所述预设内容;
18.若所述客户语音的内容满足所述预设内容时,则打断所述播报语音;
19.若所述客户语音的内容不满足所述预设内容时,则不打断所述播报语音。
20.进一步的,所述则打断所述播报语音的步骤包括:
21.获取所述客户语音的内容满足所述预设内容时的当前时间;
22.根据所述当前时间确定打断时机,根据所述打断时机对所述播报语音进行打断。
23.进一步的,所述当播放播报语音时,接收客户语音的步骤包括:
24.获取预设的语音接收时间;
25.当播放播报语音的时间满足所述语音接收时间后,接收客户语音。
26.进一步的,所述从所述客户语音中提取语音信息的步骤包括:
27.通过asr模型将所述客户语音转换为语音信息;
28.所述根据所述语音信息和所述打断条件判断是否打断所述播报语音的步骤包括:
29.通过nlp模型对所述语音信息进行解析,得到解析结果;
30.根据所述解析结果和所述打断条件判断是否打断所述播报语音。
31.为了解决上述技术问题,本技术实施例还提供一种语音打断装置,采用了如下所述的技术方案:
32.条件确定模块,用于获取播报语音,从所述播报语音中提取播报属性后,根据所述播报属性确定打断条件;
33.特征提取模块,用于当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息;以及
34.语音打断模块,用于根据所述语音信息和所述打断条件判断是否打断所述播报语音。
35.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
36.包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的语音打断方法的步骤。
37.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
38.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的语音打断方法的步骤。
39.与现有技术相比,本技术实施例主要有以下有益效果:通过获取播报语音,从所述播报语音中提取播报属性后,根据所述播报属性确定打断条件;当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息;根据所述语音信息和所述打断条件判断是否打断所述播报语音。本技术中,根据播报属性确定打断条件,以根据不同的播报语音选用不同的打断方式,从而适配不同的业务场景,提升本技术语音打断方法的适用性,且根据语音信息中客户所表述的内容判断是否满足打断条件,以提升语音打断判断的准确性,使语音打断更符合真人对话的方式,有效提升用户体验。
附图说明
40.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的
附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术可以应用于其中的示例性系统架构图;
42.图2根据本技术的语音打断方法的一个实施例的流程图;
43.图3是根据本技术的语音打断装置的一个实施例的结构示意图;
44.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
45.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
46.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
47.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
48.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
49.客户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
50.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
51.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
52.需要说明的是,本技术实施例所提供的语音打断方法一般由服务器/终端设备执行,相应地,语音打断装置一般设置于服务器/终端设备中。
53.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
54.继续参考图2,示出了根据本技术的语音打断方法的一个实施例的流程图。所述的语音打断方法,包括以下步骤:
55.步骤s201,获取播报语音,从所述播报语音中提取播报属性后,根据所述播报属性确定打断条件。
56.在本实施例中,上述播报属性表征为播报语音的播报类型,其中播报属性包括一般属性和重要属性;示例的,在金融业务中,若播报语音为核心条款(如价格、需客户确认的业务内容等),则播报语音的播报属性为重要属性,若播报语音为一般条款(如前序、公司简介等),则播报语音为一般属性。
57.需要说明的是,在一个完整的业务流程中,包括有多段播报语音,其中各播报语音的播报属性可相同,也可不同。
58.上述打断条件中,由于每段播报语音的播报属性不同,因此本技术基于不同的播报属性设立了不同的打断条件,该打断条件包括字数打断规则、时间打断规则中的至少一种,以提升本技术打断方法的适用性,使人机对话更符合真人对话的方式。
59.步骤s202,当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息。
60.在本实施例中,上述播报语音由业务端进行播放,并由业务端进行收听,业务端播报语音时可为全程处于接收状态,此时客户端在业务端播报语音全过程中发送的客户语音均能被业务端所接收;此外,业务端播报语音时也可为非全程处于接收状态,即在业务端播报语音过程中某一时刻后,客户端发出的客户语音才可被业务端所接收,此具体实施方式请参见下文描述。
61.上述语音信息表征为客户语音中的语音内容。
62.需要说明的是,语音打断方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式从客户端(如手机、平板等具有通话功能的终端)中接收客户语音。需要指出的是,上述无线连接方式可以包括但不限于3g/4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
63.步骤s203,根据所述语音信息和所述打断条件判断是否打断所述播报语音。
64.在本实施例中,若语音信息满足打断条件时,则打断播报语音;若语音信息不满足打断条件时,则不打断播报语音。
65.需要说明的是,在一个完整的业务流程中,包括有多段播报语音,其中播报语音包括业务语音以及响应话术;在根据语音信息和打断条件判断是否打断播报语音时,记录打断点;在根据语音信息和打断条件确定打断播报语音后,可直接多段播报语音中调用当前播报语音的下一段播报语音中的业务语音进行播报,或根据语音信息生成相应的响应话术进行回答(如语音信息为“保单内容”,经过语音识别后生成的响应话术可以是“不同投保事项的保单内容不同,请说明投保事项”),在播报下一段播报语音或响应话术后,重复步骤s201至s203。在根据所述语音信息和所述打断条件确定不打断播报语音后,则继续从打断点开始继续播报语音,并重复步骤s201至s203。
66.本技术中,根据播报属性确定打断条件,以根据不同的播报语音选用不同的打断方式,从而适配不同的业务场景,提升本技术语音打断方法的适用性,且根据语音信息中客户所表述的内容判断是否满足打断条件,以提升语音打断判断的准确性,使语音打断更符合真人对话的方式,有效提升用户体验。
67.在一些可选的实现方式中,上述步骤s201,所述打断条件包括字数打断规则以及时间打断规则;所述根据所述播报属性确定打断条件的步骤包括:
68.若所述播报属性为一般属性时,则确定所述打断条件为所述时间打断规则;
69.若所述播报属性为重要属性时,则确定所述打断条件为所述字数打断规则、或所述字数打断规则和所述时间打断规则。
70.在本实施例中,上述一般属性表征为非核心条款,此非核心条款无需客户进行确认,而上述重要属性表征为核心条款,此核心条款需要客户进行确认。
71.上述时间打断规则中,具有预设应答时间,在预设应答时间内采集用客户语音,在后续步骤中,根据采集得到的客户语音和所述打断条件判断是否打断所述播报语音。
72.上述字数打断规则中,具有预设应答字数,在客户回答的客户语音中的字数满足预设应答字数时,且在后续步骤中,根据满足预设应答字数的客户语音和所述打断条件判断是否打断所述播报语音。
73.在一些可选的实现方式中,所述则确定所述打断条件为字数打断规则或混合打断规则的步骤包括:
74.从预设信息库中匹配与所述客户语音对应的客户信息,得到匹配结果;
75.若所述匹配结果为从所述预设信息库中匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则;
76.若所述匹配结果为从所述预设信息库中未匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则和所述时间打断规则。
77.在本实施例中,当匹配结果为从预设信息库中匹配有与客户语音对应的客户信息,则表征为具有客户的具体信息,因此采用字数打断规则,根据客户信息设置预设应答字数。
78.当匹配结果为从预设信息库中未匹配有与客户语音对应的客户信息,则表征为不具有客户的具体信息,因此采用字数打断规则和时间打断规则的混合,设置通用的预设应答字数以及一般客户的回复时间;示例的,在设置通用的预设应答字数中,若需确认客户姓名时,根据姓名的通用字数并预留一定冗余进行设置,如姓名的通用字数为3,则设置通用的预设应答字数为5。
79.在一些可选的实现方式中,所述语音信息包括语音特征以及语音内容;所述根据所述语音信息和所述打断条件判断是否打断所述播报语音的步骤包括:
80.从所述打断条件中提取预设特征以及预设内容;
81.当所述语音特征满足所述预设特征时,判断所述语音内容是否满足所述预设内容;
82.若所述客户语音的内容满足所述预设内容时,则打断所述播报语音;
83.若所述客户语音的内容不满足所述预设内容时,则不打断所述播报语音。
84.在本实施例中,若打断条件为时间打断规则时,上述预设特征为预设应答时间,上述语音特征为语音时间;在当语音时间与预设应答时间相同后,判断语音内容是否满足预设内容,其中可根据历史客户的回复时间设定预设应答时间,预设内容可为“好的”、“跳过”等表示可打断跳过当前播报语音的词语,示例的,在播报语音的播放属性为一般属性,如一般属性为公司简介时,当语音时间达到预设应答时间时,判断语音内容中所答复的内容是
否包含预设内容表征为可打断跳过当前播报语音的词语。
85.若打断条件为字数打断规则时,上述预设特征为预设应答字数,上述语音特征为语音字数;示例的,在当语音字数与预设应答字数相同后,判断语音内容是否满足预设内容,在播报语音的播放属性为重要属性,且预设信息库中有客户语音对应的客户信息时,如在业务中需确认客户姓名时,根据预存于预设信息库中的客户信息的客户姓名字数确定预设应答字数,以及根据客户姓名确定预设内容,当语音特征的语音字数等于预设应答字数后,判断语音内容中所答复的内容是否为预设内容中的客户姓名。
86.若打断条件为字数打断规则和时间打断规则时,上述预设特征为预设应答时间和预设应答字数,上述语音特征为语音时间和语音字数,其中关于预设应答时间、预设应答字数、语音时间和语音字数的设定可参见上文;示例的,在播报语音的播放属性为重要属性,且预设信息库中有客户语音对应的客户信息时,可根据先满足预设应答时间或预设应答字数作为标准,如在业务中需确认客户姓名时,若语音特征中的语音字数先满足预设应答字数时,则不判断语音时间是否满足预设应答时间,直接判断语音内容中所答复的内容是否为预设内容中的客户姓名,同理若语音特征中的语音时间先满足预设应答时间时,则不判断语音字数是否满足预设应答字数,直接判断语音内容中所答复的内容是否为预设内容中的客户姓名。
87.这样根据播报语音不同的播报属性,设置了多种打断条件,包括字数打断规则、时间打断规则、以及字数打断规则和时间打断规则,以适配不同的业务场景,适用性广。
88.在一些可选的实现方式中,所述则打断所述播报语音的步骤包括的步骤包括:
89.获取所述客户语音的内容满足所述预设内容时的当前时间;
90.根据所述当前时间确定打断时机,根据所述打断时机对所述播报语音进行打断。
91.在本实施例中,在与客户对话的过程中,持续获取与客户对话时长,当客户语音的内容满足预设内容时,记录当前的时长作为当前时间,并根据当前时间确定打断时机,在确定打断时机后,暂停获取获取与客户对话时长,根据nlp模型(自然语言处理技术)识别客户语音的语义,并生成回复客户语音的话术,从打断时机处进行播放回复客户语音的话术,并重新开始获取与客户对话时长。
92.示例的,当在播报语音为金融合同的注意事项时,此时若客户回复好的或知道了等包含确定话术的客户语音后,确定客户回复“好的、知道了”时的当前时间,并根据当前时间确定打断时机,以打断当前播报的语音,当nlp模型(自然语言处理技术)识别客户语音生成回复客户语音的话术后,从打断时机处进行播放回复客户语音的话术,并重新开始获取与客户对话时长。
93.在一些可选的实现方式中,上述步骤s202中,所述当播放播报语音时,接收客户语音的步骤包括:
94.获取预设的语音接收时间;
95.当播放播报语音的时间满足所述语音接收时间后,接收客户语音。
96.在本实施例中,在播放播报语音起始时,开始计时,当计时的时间达到语音接收时间时,开始接收客户语音;如播报语音中包含有客户需注意的事项时,当业务的播报语音中客户需注意的事项播放完后,即播报语音的时间满足所述语音接收时间后,接收客户语音,这样以保证客户能够清楚业务中的注意事项。
97.在一些可选的实现方式中,上述步骤s202中,所述语音信息为文本信息;所述从所述客户语音中提取语音信息的步骤包括:
98.通过asr模型将所述客户语音转换为语音信息;
99.所述根据所述语音信息和所述打断条件判断是否打断所述播报语音的步骤包括:
100.通过nlp模型对所述语音信息进行解析,得到解析结果;
101.根据所述解析结果和所述打断条件判断是否打断所述播报语音。
102.在本实施例中,上述语音信息包括语音文本,上述asr模型为自动语音识别技术,用于将客户语音并转译成语音文本;上述nlp模型为自然语言处理技术,用于识别语音文本的语义,即通过nlp模型对所述语音信息进行解析,得到语音文本的语义,之后根据识别的语音文本的语义和打断条件判断是否打断所述播报语音。
103.需要强调的是,为进一步保证上述播报语音以及客户语音信息的私密和安全性,上述播报语音以及客户语音信息还可以存储于一区块链的节点中。
104.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
105.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
106.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
107.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
108.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
109.进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种语音打断装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
110.如图3所示,本实施例所述的语音打断装置300包括:条件确定模块301、特征提取模块302以及语音打断模块303。其中:
111.条件确定模块,用于获取播报语音,从所述播报语音中提取播报属性后,根据所述播报属性确定打断条件;
112.特征提取模块,用于当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息;以及
113.语音打断模块,用于根据所述语音信息和所述打断条件判断是否打断所述播报语音。
114.本技术中,根据播报属性确定打断条件,以根据不同的播报语音选用不同的打断方式,从而适配不同的业务场景,提升本技术语音打断方法的适用性,且根据语音信息中客户所表述的内容判断是否满足打断条件,以提升语音打断判断的准确性,使语音打断更符合真人对话的方式,有效提升用户体验。
115.在一些可选的实现方式中,上述条件确定模块301包括第一确定子模块以及第二确定子模块。其中:
116.若所述播报属性为一般属性时,则确定所述打断条件为所述时间打断规则;
117.若所述播报属性为重要属性时,则确定所述打断条件为所述字数打断规则、或所述字数打断规则和所述时间打断规则。
118.在一些可选的实现方式中,上述第二确定子模块包括匹配单元、第一确定单元以及第二确定单元。其中:
119.匹配单元,用于从预设信息库中匹配与所述客户语音对应的客户信息,得到匹配结果;
120.第一确定单元,用于若所述匹配结果为从所述预设信息库中匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则;
121.第二确定单元,用于若所述匹配结果为从所述预设信息库中未匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则和所述时间打断规则。
122.在一些可选的实现方式中,上述语音打断模块303包括提取子模块、判断子模块、第一打断子模块以及不打断子模块。其中:
123.提取子模块,用于从所述打断条件中提取预设特征以及预设内容;
124.判断子模块,用于当所述语音特征满足所述预设特征时,判断所述语音内容是否满足所述预设内容;
125.第一打断子模块,用于若所述客户语音的内容满足所述预设内容时,则打断所述播报语音;
126.不打断子模块,用于若所述客户语音的内容不满足所述预设内容时,则不打断所述播报语音。
127.在一些可选的实现方式中,上述第一打断子模块还包括获取单元以及打断单元。其中:
128.获取单元,用于获取所述客户语音的内容满足所述预设内容时的当前时间;
129.打断单元,用于根据所述当前时间确定打断时机,根据所述打断时机对所述播报语音进行打断。
130.在一些可选的实现方式中,上述特征提取模块302包括获取子模块以及接收子模块,其中:
131.获取子模块,用于获取预设的语音接收时间;
132.接收子模块,用于当播放播报语音的时间满足所述语音接收时间后,接收客户语音。
133.在一些可选的实现方式中,上述特征提取模块302包括转换子模块。其中:
134.转换子模块,用于通过asr模型将所述客户语音转换为语音信息。
135.上述语音打断模块包括解析子模块以及第二打断子模块。其中:
136.解析子模块,用于通过nlp模型对所述语音信息进行解析,得到解析结果;
137.第二打断子模块,用于根据所述解析结果和所述打断条件判断是否打断所述播报语音。
138.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
139.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
140.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
141.所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如语音打断方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
142.所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述语音打断方法的计算机可读指令。
143.所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在
所述计算机设备4与其他电子设备之间建立通信连接。
144.本技术中,根据播报属性确定打断条件,以根据不同的播报语音选用不同的打断方式,从而适配不同的业务场景,提升本技术语音打断方法的适用性,且根据语音信息中客户所表述的内容判断是否满足打断条件,以提升语音打断判断的准确性,使语音打断更符合真人对话的方式,有效提升用户体验。
145.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音打断方法的步骤。
146.本技术中,根据播报属性确定打断条件,以根据不同的播报语音选用不同的打断方式,从而适配不同的业务场景,提升本技术语音打断方法的适用性,且根据语音信息中客户所表述的内容判断是否满足打断条件,以提升语音打断判断的准确性,使语音打断更符合真人对话的方式,有效提升用户体验。
147.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
148.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。

技术特征:


1.一种语音打断方法,其特征在于,包括下述步骤:获取播报语音,从所述播报语音中提取播报属性后,根据所述播报属性确定打断条件;当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息;根据所述语音信息和所述打断条件判断是否打断所述播报语音。2.根据权利要求1所述的语音打断方法,其特征在于,所述打断条件包括字数打断规则以及时间打断规则;所述根据所述播报属性确定打断条件的步骤包括:若所述播报属性为一般属性时,则确定所述打断条件为所述时间打断规则;若所述播报属性为重要属性时,则确定所述打断条件为所述字数打断规则、或所述字数打断规则和所述时间打断规则。3.根据权利要求2所述的语音打断方法,其特征在于,所述则确定所述打断条件为字数打断规则或混合打断规则的步骤包括:从预设信息库中匹配与所述客户语音对应的客户信息,得到匹配结果;若所述匹配结果为从所述预设信息库中匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则;若所述匹配结果为从所述预设信息库中未匹配有与所述客户语音对应的客户信息时,确定所述打断条件为所述字数打断规则和所述时间打断规则。4.根据权利要求2或3所述的语音打断方法,其特征在于,所述语音信息包括语音特征以及语音内容;所述根据所述语音信息和所述打断条件判断是否打断所述播报语音的步骤包括:从所述打断条件中提取预设特征以及预设内容;当所述语音特征满足所述预设特征时,判断所述语音内容是否满足所述预设内容;若所述客户语音的内容满足所述预设内容时,则打断所述播报语音;若所述客户语音的内容不满足所述预设内容时,则不打断所述播报语音。5.根据权利要求4所述的语音打断方法,其特征在于,所述则打断所述播报语音的步骤包括:获取所述客户语音的内容满足所述预设内容时的当前时间;根据所述当前时间确定打断时机,根据所述打断时机对所述播报语音进行打断。6.根据权利要求1至3中任一项所述的语音打断方法,其特征在于,所述当播放播报语音时,接收客户语音的步骤包括:获取预设的语音接收时间;当播放播报语音的时间满足所述语音接收时间后,接收客户语音。7.根据权利要求1至3中任一项所述的语音打断方法,其特征在于,所述语音信息为文本信息;所述从所述客户语音中提取语音信息的步骤包括:通过asr模型将所述客户语音转换为语音信息;所述根据所述语音信息和所述打断条件判断是否打断所述播报语音的步骤包括:通过nlp模型对所述语音信息进行解析,得到解析结果;根据所述解析结果和所述打断条件判断是否打断所述播报语音。8.一种语音打断装置,其特征在于,包括:条件确定模块,用于获取播报语音,从所述播报语音中提取播报属性后,根据所述播报
属性确定打断条件;特征提取模块,用于当播放所述播报语音时,接收客户语音,从所述客户语音中提取语音信息;以及语音打断模块,用于根据所述语音信息和所述打断条件判断是否打断所述播报语音。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音打断方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音打断方法的步骤。

技术总结


本申请实施例属于人工智能领域,涉及一种语音打断方法,包括获取播报语音,从播报语音中提取播报属性后,根据播报属性确定打断条件;当播放播报语音时,接收客户语音,从客户语音中提取语音信息;根据语音信息和打断条件判断是否打断播报语音。本申请还提供一种语音打断装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,播报语音和客户语音可存储于区块链中。本申请根据播报属性确定打断条件,以根据不同的播报语音选用不同的打断方式,从而适配不同的业务场景,适用性广,且根据语音信息中客户所表述的内容判断是否满足打断条件,以提升语音打断判断的准确性,使语音打断更符合真人对话的方式,有效提升用户体验。有效提升用户体验。有效提升用户体验。


技术研发人员:

王锁平 周登宇 乔磊 石浩

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.04.11

技术公布日:

2022/7/8

本文发布于:2024-09-23 07:16:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/11292.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   语音   客户   条件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议