模拟对话方法、装置、电子设备以及计算机可读存储介质与流程

1.本发明涉及计算机技术领域，尤其涉及一种模拟对话方法、装置、电子设备以及计算机可读存储介质。

背景技术：

2.现有技术中通过在电子设备中引入变音技术，以模拟用户与第三方进行对话，从而可以提高弱势体的通话安全性以及居家安全性，例如，可以通过变音设备将独居女性或者独自在家的儿童的声音变换为成年男性的声音与第三方进行对话，以提高独居女性以及独自在家的儿童的居家安全性。
3.然而，由于这种变音设备的变音效果比较单一，例如，这种变音设备只能将用户的声音变换为固定的变音音进行播放，从而导致变音设备的应用场景比较受限，并且存在适应性比较差的问题。

技术实现要素：

4.本发明提供一种模拟对话方法、装置、电子设备以及计算机可读存储介质，用以解决现有技术中由于变音设备的变音效果比较单一导致其应用场景比较受限以及适应性比较差的问题。
5.本发明提供第一种模拟对话方法，包括：
6.获取第一用户的语音信息，将所述语音信息转换为文本信息；
7.获取目标音以及所述文本信息对应的回复文本；
8.基于所述回复文本和所述目标音生成目标模拟语音；
9.播放所述目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。
10.根据本发明提供的第一种模拟对话方法，获取所述文本信息对应的回复文本，包括：
11.提取所述文本信息中的第一关键词；
12.基于所述第一关键词，从预设对话数据库中确定与所述文本信息对应的回复文本，所述预设对话数据库中包括多条对话文本信息。
13.根据本发明提供的第一种模拟对话方法，所述将所述语音信息转换为文本信息之后，所述方法还包括：
14.将所述文本信息发送至所述第二用户对应的电子设备；
15.获取所述文本信息对应的回复文本，包括：
16.接收所述电子设备发送的所述文本信息对应的回复文本。
17.根据本发明提供的第一种模拟对话方法，所述获取目标音，包括如下至少一项：
18.基于所述语音信息的音信息，从音数据库中确定所述目标音；
19.基于所述文本信息中的第二关键词，从所述音数据库中确定所述目标音；
20.接收所述第二用户对应的电子设备发送的所述目标音。
21.根据本发明提供的第一种模拟对话方法，所述方法还包括：
22.对所述语音信息进行异常检测，得到检测结果；
23.在所述检测结果为异常的情况下，生成呼叫提示信息；
24.将所述呼叫提示信息和所述语音信息发送至所述第二用户的紧急联系人，并将所述呼叫提示信息和所述语音信息上传至云服务器。
25.根据本发明提供的第一种模拟对话方法，所述方法还包括：
26.基于所述第二用户的录音信息生成第一声纹模型，并基于所述第一声纹模型获取所述第二用户对应的用户音；
27.基于预设语音数据库生成多个第二声纹模型，并基于所述多个第二声纹模型获取多种模拟音，所述预设语音数据库包括多类语音信息；
28.将所述用户音以及多种模拟音作为备选音存储至所述音数据库中，并将所述备选音同步传输至所述第二用户对应的电子设备。
29.本发明还提供第二种模拟对话方法，包括：
30.接收模拟对话装置发送的文本信息，所述文本信息为基于第一用户的语音信息转换得到的；
31.获取第二用户从模式选择界面中选择的目标对话模式，所述模式选择界面中显示有多种对话模式；
32.基于所述目标对话模式和所述文本信息，获取所述文本信息对应的回复文本；
33.将所述回复文本发送至所述模拟对话装置，所述回复文本用于指示所述模拟对话装置基于所述回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。
34.根据本发明提供的第二种模拟对话方法，所述基于所述目标对话模式和所述文本信息，获取所述文本信息对应的回复文本，包括：
35.在所述目标对话模式为在线对话模式的情况下，获取所述第二用户编辑的回复文本；
36.在所述目标对话模式为模板对话模式的情况下，获取所述第二用户基于所述文本信息从对话模板显示界面中选择的回复文本，所述对话模板显示界面中显示有多条对话文本。
37.根据本发明提供的第二种模拟对话方法，所述方法还包括：
38.获取所述第二用户从音显示界面中选择的目标音，并将所述目标音发送至所述模拟对话装置，所述音显示界面中显示有多种备选音，所述备选音包括所述第二用户的用户音以及多种模拟音。
39.本发明还提供第一种模拟对话装置，包括：
40.语音识别模块，用于获取第一用户的语音信息，将所述语音信息转换为文本信息；
41.数据获取模块，用于获取目标音以及所述文本信息对应的回复文本；
42.语音生成模块，用于基于所述回复文本和所述目标音生成目标模拟语音；
43.模拟对话模块，用于播放所述目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。
44.本发明还提供第二种模拟对话装置，包括：
45.数据接收模块，用于接收模拟对话装置发送的文本信息，所述文本信息为基于第一用户的语音信息转换得到的；
46.模式选择模块，用于获取第二用户从模式选择界面中选择的目标对话模式，所述模式选择界面中显示有多种对话模式
47.文本获取模块，用于基于所述目标对话模式和所述文本信息，获取所述文本信息对应的回复文本；
48.文本发送模块，用于将所述回复文本发送至所述模拟对话装置，所述回复文本用于指示所述模拟对话装置基于所述回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。
49.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一种所述的模拟对话方法或者如上述第二种所述的模拟对话方法。
50.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一种所述的模拟对话方法或者如上述第二种所述的模拟对话方法。
51.本发明提供的模拟对话方法、装置、电子设备以及计算机可读存储介质，通过基于自由选择的目标音以及回复文本以生成目标模拟语音，由于目标音和回复文本的选择均不受限制，从而使得生成的目标模拟语音可以适用于各种应用场景的应用需求，从而便于本发明提供的模拟对话方法的大范围应用推广，解决了现有技术中由于变音设备的变音效果比较单一导致其应用场景比较受限以及适应性比较差的问题。
附图说明
52.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
53.图1是本发明实施例提供的第一种模拟对话方法的流程示意图之一；
54.图2是本发明实施例提供的第一种模拟对话方法的流程示意图之二；
55.图3是本发明实施例提供的第一种模拟对话方法的流程示意图之三；
56.图4是本发明实施例提供的第一种模拟对话方法的流程示意图之四；
57.图5是本发明实施例提供的第一种模拟对话方法的流程示意图之五；
58.图6是本发明实施例提供的第一种模拟对话方法的流程示意图之六；
59.图7是本发明实施例提供的第二种模拟对话方法的流程示意图之七；
60.图8是本发明实施例提供的第二种模拟对话方法的流程示意图之八；
61.图9是本发明实施例提供的第一种模拟对话装置的结构示意图；
62.图10是本发明实施例提供的第二种模拟对话装置的结构示意图；
63.图11是本发明实施例提供的电子设备的结构示意图。
具体实施方式
64.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
65.下面结合图1-图6描述本发明的第一种模拟对话方法。如图1所示，本发明提供第一种模拟对话方法，其执行主体为模拟对话设备的处理器或者控制器，该方法包括：
66.步骤101，获取第一用户的语音信息，将语音信息转换为文本信息。其中，第一用户为第三方，第一用户的语音信息可以通过设置在门口的语音采集模块进行采集。具体地，可以通过自动语音识别技术(automatic speech recognition，asr)将第一用户的语音信息转换为文本信息。
67.步骤102，获取目标音以及文本信息对应的回复文本。其中，目标音表示从多种备选音中确定出的音，备选音包括第二用户的用户音以及多种模拟音，模拟音包括但不仅限于成年男性的音、儿童的音、成年女性的音、老人的音以及宠物的音。回复文本表示用于回复第一用户的文本信息的文字信息。
68.步骤103，基于回复文本和目标音生成目标模拟语音。具体地，可以基于tts语音合成技术(text to speech，从文本到语音)、回复文本以及目标音生成目标模拟语音。
69.步骤104，播放目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。其中，第二用户表示弱势体所代表的用户，例如，独居女性、独自在家的儿童、空巢老人以及聋哑人。目标模拟语音用于模拟弱势体所代表的用户与第三方进行对话，以提高弱势体的通话安全性以及居家安全性。
70.上述步骤101至步骤104，通过基于自由选择的目标音以及回复文本以生成目标模拟语音，由于目标音和回复文本的选择均不受限制，从而使得生成的目标模拟语音可以适用于各种应用场景的应用需求，从而便于本发明提供的模拟对话方法的大范围应用推广，解决了现有技术中由于变音设备的变音效果比较单一导致其应用场景比较受限以及适应性比较差的问题。
71.在一个实施例中，如图2所示，上述步骤102包括步骤201至步骤202，其中：
72.步骤201，提取文本信息中的第一关键词。进一步地，第一关键词包括与具体对话场景相关的词，例如，可以从文本信息“您的外卖送到了”中提取“外卖”和“送到”这两个第一关键词。
73.步骤202，基于第一关键词，从预设对话数据库中确定与文本信息对应的回复文本，预设对话数据库中包括多条对话文本信息。
74.在一个实施例中，预设对话数据库中包含多个对话场景对应的对话文本信息。在第一关键词为与具体对话场景相关的词的情况下，可以根据第一关键词从预设对话数据库中包含的多个对话场景中确定出目标对话场景，进而根据第一关键词从目标对话场景对应的多条对话文本信息中查出与文本信息对应的回复文本，以实现在保证文本查效果的同时，减少与第一关键词一一匹配的对话文本信息的数量，从而可以提高文本查效率。
75.上述步骤201至步骤202，通过提取文本信息中的第一关键词，并基于第一关键词从预设对话数据库中确定与文本信息对应的回复文本，以实现自动获取文本信息对应的回
复文本，整个过程无需人工进行干预，从而可以在第二用户不方便回复的情况下模拟第二用户与第一用户进行对话，从而满足第二用户不方便回复这一特殊应用场景的应用需求，进一步提高了本发明提供的模拟对话方法的适用范围。
76.在一个实施例中，如图3所示，上述步骤102还包括步骤301至步骤302，其中：
77.步骤301，将文本信息发送至第二用户对应的电子设备。
78.步骤302，接收电子设备发送的文本信息对应的回复文本。其中，该回复文本表示第二用户通过电子设备发送的文本信息，
79.上述步骤301至步骤302，通过将文本信息发送至第二用户对应的电子设备，并接收电子设备发送的文本信息对应的回复文本，从而可以在第二用户不方便直接通过语音回复第一用户的情况下，基于用户通过电子设备发送的回复文本以及获取到的目标音生成目标模拟语音，从而基于生成的目标模拟语音与第二用户进行正常对话，从而可以满足第二用户不方便通过语音回复时的应用需求，进一步提高了本发明提供的模拟对话方法的适用范围，例如，可以应用于独居女性害怕直接通过原声变音回复第三方从而被第三方察觉到的情况，也可以应用于无话通过语音与第三方进行直接对话的情况。
80.在一个实施例中，如图4所示，上述步骤102还包括步骤401至步骤403，其中：
81.步骤401，基于语音信息的音信息，从音数据库中确定目标音。其中，音数据库包括第二用户的用户音以及多种模拟音。模拟音包括但不仅限于成年男性的音、儿童的音、成年女性的音、老人的音以及宠物的音。
82.具体地，可以基于第一用户的语音信息获取第一用户的音信息，并基于音信息获取到第一用户的第一身份信息，第一身份信息包括性别、年龄段以及说话语气的强烈程度等信息。从而基于第一用户的第一身份信息从音数据库中确定目标音。例如，在第一用户为成年男性或者说话语气比较强烈的情况下，可以选择模拟音作为目标音，以提高第二用户的居家安全性。
83.步骤402，或者基于文本信息中的第二关键词，从音数据库中确定目标音。
84.进一步地，第二关键词包括与第一用户的身份信息相关的词，例如，可以从文本信息“您的快递送到了”中提取“快递”这一个第二关键词。
85.具体地，从文本信息中提取第二关键词，并基于第二关键词获取到第一用户的第二身份信息，第二身份信息包括职业信息。从而基于第一用户的身份信息从音数据库中确定目标音。例如，在第一用户的职业为外卖员的情况下，可以选择模拟音作为目标音，以提高第二用户的居家安全性。
86.在一个实施例中，基于第一用户的语音信息获取第一用户的音信息，并基于音信息获取到第一用户的第一身份信息。从文本信息中提取第二关键词，并基于第二关键词获取到第一用户的第二身份信息，并基于第一身份信息和第二身份信息从音数据库中确定出目标音。例如，在基于第一身份信息确定第一用户为成年男性或者说话语气比较强烈，或者，基于第二身份信息确定第一用户为外卖员的情况下，选择模拟音作为目标音，以提高第二用户的居家安全性，实现结合第一用户的音信息以及文本信息综合评估第一用户的身份，进而能够进一步提高第二用户的居家安全性。
87.步骤403，或者接收第二用户对应的电子设备发送的目标音。
88.具体地，在第二用户比较方便的情况下，可以通过第二用户直接判断第一用户的
身份信息的方式来确定所要选择的目标音，例如，第二用户可以通过安装在门口的摄像头采集的视频图像来判断第一用户的身份信息，也可以通过第二用户发出的语音来判断第一用户的身份信息，从而基于观察结果确定合适的目标音。
89.需要说明的是，上述步骤401、步骤402以及步骤403提供了三种确定目标音的不同方式，用户可以根据具体应用场景选择单独使用一种方式确定目标音，也可以结合多种方式来确定目标音，本发明不作限制。
90.上述步骤401至步骤403，通过提供了三种不同的目标音的确定方式以供用户自由选择或者组合使用，从而进一步提高模拟对话方法的灵活性以及可操作性，从而使得生成的目标模拟语音可以适用于各种应用场景的应用需求。
91.在一个实施例中，如图5所示，本发明提供的第一种模拟对话方法，还包括步骤501至步骤503，其中：
92.步骤501，对语音信息进行异常检测，得到检测结果。进一步地，对语音信息进行关键词异常检测以及语气异常检测，得到检测结果。关键词异常检测包括但不仅限于检测语音信息中是否存在带有威胁性的关键词以及检测语音信息中是否存在反应第二用户的健康状况的关键词。
93.步骤502，在检测结果为异常的情况下，生成呼叫提示信息。
94.进一步地，检测语音信息中是否存在“赶紧开门”以及“你开不开门”等带有威胁性的关键词，在检测到检测语音信息中存在带有威胁性的关键词的情况下，判定检测结果为异常，生成的呼叫提示信息中包含第二用户存在潜在人身威胁的信息。
95.进一步地，检测语音信息中是否存在“您还好吗”以及“您摔到了吗”等反应第二用户的健康状况的关键词的情况下，判定检测结果为异常，生成的呼叫提示信息中包含第二用户的健康状况存在异常的信息。
96.步骤503，将呼叫提示信息和语音信息发送至第二用户的紧急联系人，并将呼叫提示信息和语音信息上传至云服务器。
97.上述步骤501至步骤503，通过在检测到语音信息存在异常的情况下，生成呼叫提示信，并将呼叫提示信息发送至第二用户的紧急联系人，以便于通知第二用户的紧急联系人密切关注第二用户的安全；通过将语音信息发送至第二用户的紧急联系人，以使第二用户的紧急联系人将语音信息作为证据留存，从而在出现突发刑事事件的情况下第二用户的紧急联系人将留存的语音信息作为证据提交至警方进行备案侦查；通过将呼叫提示信息和语音信息上传至云服务器，以实现将呼叫提示信息和语音信息作为关键证据进行备份，从而可以降低第二用户的受害风险，进一步提高了第二用户的居家安全性。
98.在一个实施例中，如图6所示，本发明提供的第一种模拟对话方法，还包括步骤601至步骤603，其中：
99.步骤601，基于第二用户的录音信息生成第一声纹模型，并基于第一声纹模型获取第二用户对应的用户音。
100.其中，声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性，而且有相对稳定性的特点。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不同，因此声纹可以用于辨识不同的用户。
101.第一声纹模型为第一声纹图，包含了第二用户的音高、音强、音长以及音信息。其中，音高、音强、音长、音在语言学中被称为语音"四要素"，这些音素又可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化，仪器又把这些电讯号的变化绘制成波谱图形，就成了声纹图。
102.步骤602，基于预设语音数据库生成多个第二声纹模型，并基于多个第二声纹模型获取多种模拟音，预设语音数据库包括多类语音信息。其中，多类语音信息包括成年男性、老人、儿童、宠物等个体的语音信息。第二声纹模型为第二声纹图，每一个第二声纹图包含了该第二声纹图对应个体的音高、音强、音长以及音信息。
103.步骤603，将用户音以及多种模拟音作为备选音存储至音数据库中，并将备选音同步传输至第二用户对应的电子设备。
104.上述步骤601至步骤603，通过获取第二用户的第一声纹模型以及不同个体的第二声纹模型，并基于第一声纹模型获取第二用户对应的用户音以及基于第二声纹模型获取多种模拟音，从而可以将用户音以及多种模拟音作为备选音以供第一用户或者处理器自动选择目标音。
105.下面提供一个具体实施例，以对本发明提供的第一种模拟对话方法作进一步说明。本具体实施例1包括以下步骤：
106.步骤11，获取第一用户的语音信息，将语音信息转换为文本信息；提取文本信息中的第一关键词；基于第一关键词，从预设对话数据库中确定与文本信息对应的回复文本，预设对话数据库中包括多条对话文本信息。
107.步骤12，基于音数据库中的多种备选音确定目标音；基于回复文本和目标音生成目标模拟语音；播放目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。
108.下面结合图7-图8描述本发明的第二种模拟对话方法。如图7所示，本发明提供第二种模拟对话方法，其执行主体为第二用户对应的电子设备的处理器或者控制器，该方法包括：
109.步骤701，接收模拟对话装置发送的文本信息，文本信息为基于第一用户的语音信息转换得到的。其中，第一用户为第三方，第一用户的语音信息可以通过设置在门口的语音采集模块进行采集。具体地，可以通过自动语音识别技术(automatic speech recognition，asr)将第一用户的语音信息转换为文本信息。
110.步骤702，获取第二用户从模式选择界面中选择的目标对话模式，模式选择界面中显示有多种对话模式。
111.其中，第二用户表示弱势体所代表的用户，例如，独居女性、独自在家的儿童、空巢老人以及聋哑人。模式选择界面中显示的对话模式包括在线对话模式和模板对话模式。在线对话模式表示第二用户直接编辑回复文本进行对话答复的方式。模板对话模式表示第二用户从对话模板显示界面显示的多条对话文本中选择回复文本进行对话答复的方式。
112.步骤703，基于目标对话模式和文本信息，获取文本信息对应的回复文本。
113.步骤704，将回复文本发送至模拟对话装置，回复文本用于指示模拟对话装置基于回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于目标模拟语音与第
一用户进行对话。
114.其中，目标音表示从多种备选音中确定出的音，备选音包括第二用户的用户音以及多种模拟音，模拟音包括但不仅限于成年男性的音、儿童的音、成年女性的音、老人的音以及宠物的音。回复文本表示用于回复第一用户的文本信息的文字信息。
115.具体地，可以基于tts语音合成技术(text to speech，从文本到语音)、回复文本以及目标音生成目标模拟语音。目标模拟语音用于模拟弱势体所代表的用户与第三方进行对话，以提高弱势体的通话安全性以及居家安全性。
116.步骤701至步骤704，通过基于自由选择的目标音以及回复文本以生成目标模拟语音，由于目标音和回复文本的选择均不受限制，从而使得生成的目标模拟语音可以适用于各种应用场景的应用需求，从而便于本发明提供的模拟对话方法的大范围应用推广，解决了现有技术中由于变音设备的变音效果比较单一导致其应用场景比较受限以及适应性比较差的问题。
117.在一个实施例中，如图8所示，上述步骤703还包括步骤801至步骤802，其中：
118.步骤801，在目标对话模式为在线对话模式的情况下，获取第二用户编辑的回复文本。
119.进一步地，第二用户可以在对话框中编辑回复文本，并通过对话框将编辑的回复文本发送至模拟对话装置，以实现对话答复。其中，对话框用于显示第一用户和第二用户的交互文本信息，包括第一用户的文本信息以及第二用户的编辑的回复文本。
120.步骤802，在目标对话模式为模板对话模式的情况下，获取第二用户基于文本信息从对话模板显示界面中选择的回复文本，对话模板显示界面中显示有多条对话文本。
121.上述步骤801至步骤802，通过提供在线对话模式以及模板对话模式以供用户根据实际的应用需求进行灵活选择，从而能够兼容不同应用场景的应用需求，进一步提高了本发明提供的模拟对话方法的适用性。
122.在一个实施例中，获取第二用户从音显示界面中选择的目标音，并将目标音发送至模拟对话装置，音显示界面中显示有多种备选音，备选音包括第二用户的用户音以及多种模拟音。
123.上述实施例通过在音显示界面中显示有多种备选音以供用户进行选择并确定目标音，以便于用户根据具体的应用场景进行自主灵活选择，从而能够兼容不同应用场景的应用需求，进一步提高了本发明提供的模拟对话方法的适用性。
124.下面提供一个具体实施例，以对本发明提供的第二种模拟对话方法作进一步说明。本具体实施例2包括以下步骤：
125.步骤21，接收模拟对话装置发送的文本信息，文本信息为基于第一用户的语音信息转换得到的；获取第二用户从音显示界面中选择的目标音，并将目标音发送至模拟对话装置，音显示界面中显示有多种备选音，备选音包括第二用户的用户音以及多种模拟音。
126.步骤22，获取第二用户从模式选择界面中选择的目标对话模式，模式选择界面中显示有多种对话模式；在目标对话模式为在线对话模式的情况下，获取第二用户编辑的回复文本；在目标对话模式为模板对话模式的情况下，获取第二用户基于文本信息从对话模
板显示界面中选择的回复文本，对话模板显示界面中显示有多条对话文本。
127.步骤23，将回复文本发送至模拟对话装置，回复文本用于指示模拟对话装置基于回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。
128.本发明还提供一种模拟对话系统，包括模拟对话装置和用户电子设备，其中，模拟对话装置用于执行上述任意一个实施例提供的第一种模拟对话方法，用户电子设备用于执行上述任意一个实施例提供的第二种模拟对话方法。
129.进一步地，用户电子设备包括控制器以及用户操作界面，用户操作界面包含有模式选择界面、对话框、对话模板显示界面以及音显示界面。其中，模式选择界面中显示有多种对话模式，包括在线对话模式和模板对话模式。对话框用于显示第一用户和第二用户的交互文本信息。对话模板显示界面中显示有多条对话文本，音显示界面中显示有多种备选音，备选音包括第二用户的用户音以及多种模拟音。
130.下面对本发明提供的模拟对话装置进行描述，下文描述的模拟对话装置与上文描述的模拟对话方法可相互对应参照。
131.如图9所示，本发明提供第一种模拟对话装置，第一种模拟对话装置100包括语音识别模块101、数据获取模块102、语音生成模块103和模拟对话模块104，其中：
132.语音识别模块101，用于获取第一用户的语音信息，将语音信息转换为文本信息。
133.数据获取模块102，用于获取目标音以及文本信息对应的回复文本。
134.语音生成模块103，用于基于回复文本和目标音生成目标模拟语音。
135.模拟对话模块104，用于播放目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。
136.在一个实施例中，数据获取模块102包括文本获取单元，用于提取文本信息中的第一关键词；基于第一关键词，从预设对话数据库中确定与文本信息对应的回复文本，预设对话数据库中包括多条对话文本信息。
137.在一个实施例中，文本获取单元还用于将文本信息发送至第二用户对应的电子设备；接收电子设备发送的文本信息对应的回复文本。
138.在一个实施例中，数据获取模块102还包括音获取单元，音获取单元用于基于语音信息的音信息，从音数据库中确定目标音；或者，基于文本信息中的第二关键词，从音数据库中确定目标音；或者，接收第二用户对应的电子设备发送的目标音。
139.在一个实施例中，第一种模拟对话装置100还包括呼叫提示模块，用于对语音信息进行异常检测，得到检测结果；在检测结果为异常的情况下，生成呼叫提示信息；将呼叫提示信息和语音信息发送至第二用户的紧急联系人，并将呼叫提示信息和语音信息上传至云服务器。
140.在一个实施例中，第一种模拟对话装置100还包括音生成模块，用于基于第二用户的录音信息生成第一声纹模型，并基于第一声纹模型获取第二用户对应的用户音；基于预设语音数据库生成多个第二声纹模型，并基于多个第二声纹模型获取多种模拟音，预设语音数据库包括多类语音信息；将用户音以及多种模拟音作为备选音存储至音数据库中，并将备选音同步传输至第二用户对应的电子设备。
141.如图10所示，本发明提供第二种模拟对话装置，第二种模拟对话装置200包括数据
接收模块201、模式选择模块202、文本获取模块203和文本发送模块204，其中：
142.数据接收模块201，接收模拟对话装置发送的文本信息，文本信息为基于第一用户的语音信息转换得到的。
143.模式选择模块202，获取第二用户从模式选择界面中选择的目标对话模式，模式选择界面中显示有多种对话模式。
144.文本获取模块203，基于目标对话模式和文本信息，获取文本信息对应的回复文本。
145.文本发送模块204，将回复文本发送至模拟对话装置，回复文本用于指示模拟对话装置基于回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。
146.在一个实施例中，文本获取模块203，用于在目标对话模式为在线对话模式的情况下，获取第二用户编辑的回复文本；在目标对话模式为模板对话模式的情况下，获取第二用户基于文本信息从对话模板显示界面中选择的回复文本，对话模板显示界面中显示有多条对话文本。
147.在一个实施例中，第二种模拟对话装置200还包括音选取模块，用于获取第二用户从音显示界面中选择的目标音，并将目标音发送至模拟对话装置，音显示界面中显示有多种备选音，备选音包括第二用户的用户音以及多种模拟音。
148.图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述实施例提供的第一种模拟对话方法或者第二种模拟对话方法，该第一种模拟对话方法包括：获取第一用户的语音信息，将语音信息转换为文本信息；获取目标音以及文本信息对应的回复文本；基于回复文本和目标音生成目标模拟语音；播放目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。
149.此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
150.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述实施例提供的第一种模拟对话方法或者第二种模拟对话方法，该第一种模拟对话方法包括：获取第一用户的语音信息，将语音信息转换为文本信息；获取目标音以及文本信息对应的回复文本；基于回复文本和目标音生成目标模拟语音；播放目标模拟语音，以使第二用户基于目标模拟语音与第一用户进行对话。
151.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
152.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
153.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种模拟对话方法，其特征在于，包括：获取第一用户的语音信息，将所述语音信息转换为文本信息；获取目标音以及所述文本信息对应的回复文本；基于所述回复文本和所述目标音生成目标模拟语音；播放所述目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。2.根据权利要求1所述的模拟对话方法，其特征在于，获取所述文本信息对应的回复文本，包括：提取所述文本信息中的第一关键词；基于所述第一关键词，从预设对话数据库中确定与所述文本信息对应的回复文本，所述预设对话数据库中包括多条对话文本信息。3.根据权利要求1所述的模拟对话方法，其特征在于，所述将所述语音信息转换为文本信息之后，所述方法还包括：将所述文本信息发送至所述第二用户对应的电子设备；获取所述文本信息对应的回复文本，包括：接收所述电子设备发送的所述文本信息对应的回复文本。4.根据权利要求1-3任一项所述的模拟对话方法，其特征在于，所述获取目标音，包括如下至少一项：基于所述语音信息的音信息，从音数据库中确定所述目标音；基于所述文本信息中的第二关键词，从所述音数据库中确定所述目标音；接收所述第二用户对应的电子设备发送的所述目标音。5.根据权利要求1-3任一项所述的模拟对话方法，其特征在于，所述方法还包括：对所述语音信息进行异常检测，得到检测结果；在所述检测结果为异常的情况下，生成呼叫提示信息；将所述呼叫提示信息和所述语音信息发送至所述第二用户的紧急联系人，并将所述呼叫提示信息和所述语音信息上传至云服务器。6.根据权利要求4所述的模拟对话方法，其特征在于，所述方法还包括：基于所述第二用户的录音信息生成第一声纹模型，并基于所述第一声纹模型获取所述第二用户对应的用户音；基于预设语音数据库生成多个第二声纹模型，并基于所述多个第二声纹模型获取多种模拟音，所述预设语音数据库包括多类语音信息；将所述用户音以及多种模拟音作为备选音存储至所述音数据库中，并将所述备选音同步传输至所述第二用户对应的电子设备。7.一种模拟对话方法，其特征在于，包括：接收模拟对话装置发送的文本信息，所述文本信息为基于第一用户的语音信息转换得到的；获取第二用户从模式选择界面中选择的目标对话模式，所述模式选择界面中显示有多种对话模式；基于所述目标对话模式和所述文本信息，获取所述文本信息对应的回复文本；
将所述回复文本发送至所述模拟对话装置，所述回复文本用于指示所述模拟对话装置基于所述回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。8.根据权利要求7所述的模拟对话方法，其特征在于，所述基于所述目标对话模式和所述文本信息，获取所述文本信息对应的回复文本，包括：在所述目标对话模式为在线对话模式的情况下，获取所述第二用户编辑的回复文本；在所述目标对话模式为模板对话模式的情况下，获取所述第二用户基于所述文本信息从对话模板显示界面中选择的回复文本，所述对话模板显示界面中显示有多条对话文本。9.根据权利要求7所述的模拟对话方法，其特征在于，所述方法还包括：获取所述第二用户从音显示界面中选择的目标音，并将所述目标音发送至所述模拟对话装置，所述音显示界面中显示有多种备选音，所述备选音包括所述第二用户的用户音以及多种模拟音。10.一种模拟对话装置，其特征在于，包括：语音识别模块，用于获取第一用户的语音信息，将所述语音信息转换为文本信息；数据获取模块，用于获取目标音以及所述文本信息对应的回复文本；语音生成模块，用于基于所述回复文本和所述目标音生成目标模拟语音；模拟对话模块，用于播放所述目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。11.一种模拟对话装置，其特征在于，包括：数据接收模块，用于接收模拟对话装置发送的文本信息，所述文本信息为基于第一用户的语音信息转换得到的；模式选择模块，用于获取第二用户从模式选择界面中选择的目标对话模式，所述模式选择界面中显示有多种对话模式文本获取模块，用于基于所述目标对话模式和所述文本信息，获取所述文本信息对应的回复文本；文本发送模块，用于将所述回复文本发送至所述模拟对话装置，所述回复文本用于指示所述模拟对话装置基于所述回复文本以及获取到的目标音生成目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话。12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的模拟对话方法或者如权利要求7至9任一项所述的模拟对话方法。13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的模拟对话方法或者如权利要求7至9任一项所述的模拟对话方法。

技术总结

本发明提供一种模拟对话方法、装置、电子设备以及计算机可读存储介质，涉及语音技术领域，所述方法包括：获取第一用户的语音信息，将所述语音信息转换为文本信息；获取目标音以及所述文本信息对应的回复文本；基于所述回复文本和所述目标音生成目标模拟语音；播放所述目标模拟语音，以使第二用户基于所述目标模拟语音与所述第一用户进行对话，以解决现有技术中由于变音设备的变音效果比较单一导致其应用场景比较受限以及适应性比较差的问题。应用场景比较受限以及适应性比较差的问题。应用场景比较受限以及适应性比较差的问题。