一种语音合成信息生成方法及装置与流程

1.本发明涉及语音数据处理技术领域，具体涉及一种语音合成信息生成方法及装置。

背景技术：

2.在金融服务行业中，从业人员经常需要面对语言障碍客户。但是大多数从业人员不懂手语，无法正常与此类客户沟通交流。而对于语言障碍客户来说，他们只能通过书写文字或者手语来与从业人员进行沟通，这种方式会造成沟通困难，导致业务办理效率低下等问题。
3.现有技术通过识别语言障碍客户的手语，并进而转换得到语言障碍客户想要表达的语音信息，但是，识别手语信息量单一，无法充分获取语言障碍客户想要表达的信息。

技术实现要素：

4.针对现有技术中的问题，本发明实施例提供一种语音合成信息生成方法及装置，能够至少部分地解决现有技术中存在的问题。
5.一方面，本发明提出一种语音合成信息生成方法，包括：
6.获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
7.融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
8.对所述文本词汇信息进行语音合成，得到语音合成信息。
9.其中，所述人体关节点特征包括手指关节特征；相应的，所述语音合成信息生成方法还包括：
10.若基于所述手指关节特征识别到手指指向的目标物，则提取目标物特征；
11.融合所述人体关节点特征、所述唇语特征和所述目标物特征，得到所述融合特征。
12.其中，所述对所述融合特征进行文本识别，得到文本词汇信息，包括：
13.基于预设特征识别模型对所述融合特征进行文本识别，得到文本词汇信息；
14.其中，所述预设特征识别模型根据特征识别样本数据训练神经网络得到。
15.其中，在所述基于预设特征识别模型对所述融合特征进行文本识别的步骤之前，所述语音合成信息生成方法还包括：
16.对所述目标视频进行断句检测，得到断句节点，以所述断句节点分割所述目标视频，得到各目标视频片段；
17.基于所述预设特征识别模型对各目标视频片段中的融合特征分别进行文本识别。
18.其中，所述语音合成信息生成方法还包括：
19.融合所述文本词汇信息和所述目标视频，得到综合融合信息；
20.对所述综合融合信息进行语音合成，得到语音合成信息。
21.其中，所述对所述综合融合信息进行语音合成，得到语音合成信息，包括：
22.基于预设语音合成模型对所述综合融合信息进行语音合成，得到语音合成信息；
23.其中，所述预设语音合成模型为可分别对视频内容和语言内容进行语音合成的多模态模型。
24.其中，在所述得到语音合成信息的步骤之后，所述语音合成信息生成方法还包括：
25.通过扬声器输出所述语音合成信息。
26.一方面，本发明提出一种语音合成信息生成装置，包括：
27.获取单元，用于获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
28.融合单元，用于融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
29.合成单元，用于对所述文本词汇信息进行语音合成，得到语音合成信息。
30.再一方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，
31.所述处理器和所述存储器通过所述总线完成相互间的通信；
32.所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：
33.获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
34.融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
35.对所述文本词汇信息进行语音合成，得到语音合成信息。
36.本发明实施例提供一种非暂态计算机可读存储介质，包括：
37.所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：
38.获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
39.融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
40.对所述文本词汇信息进行语音合成，得到语音合成信息。
41.本发明实施例提供的语音合成信息生成方法及装置，获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；对所述文本词汇信息进行语音合成，得到语音合成信息，能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
附图说明
42.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以
根据这些附图获得其他的附图。在附图中：
43.图1是本发明一实施例提供的语音合成信息生成方法的流程示意图。
44.图2是本发明另一实施例提供的语音合成信息生成方法的流程示意图。
45.图3是本发明实施例提供的语音合成信息生成方法模块化的结构示意图。
46.图4是本发明一实施例提供的语音合成信息生成装置的结构示意图。
47.图5为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
48.为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互任意组合。
49.对本发明实施例相关术语统一说明如下：
50.1、多模态技术
51.指整合或融合两种及两种以上信息模态的建模技术。
52.2、语音合成
53.又称文语转换(text to speech)技术，简称tts技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。
54.3、唇语
55.读唇法，亦称为唇语、唇读或视话法，是一种当无法听闻正常声音时(例如听力障碍或者声音收录不足)，通过视觉理解嘴唇、面部及舌头动作来理解语言的方法。
56.4、手语
57.用手指字母和手势进行交际的方式，多为聋哑人使用。
58.5、人脸识别
59.即人脸检测(face detection)，它是一种在任意数字图像中到人脸的位置和大小的计算机技术。
60.6、人体关键点检测
61.人体关键点检测(human keypoints detection)又称为人体姿态估计，是到人体中包括头，手，肘等关节的位置，然后依次连接得到一个“火柴人”。
62.7、视频内容理解
63.视频内容理解能力可以分析出视频中的明星、素人、游戏画面等各种元素。
64.8、自然语言模型
65.词序列的概率分布，其作用是为一个长度为m的文本确定一个概率分布，表示该文本存在的可能性。可以通过大量的现实中的文本实现文本纠错。
66.图1是本发明一实施例提供的语音合成信息生成方法的流程示意图，如图1所示，本发明实施例提供的语音合成信息生成方法，包括：
67.步骤s1：获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像。
68.步骤s2：融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合
特征进行文本识别，得到文本词汇信息。
69.步骤s3：对所述文本词汇信息进行语音合成，得到语音合成信息。
70.在上述步骤s1中，装置获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像。装置可以是执行该方法的计算机设备，例如可以包括服务器。需要说明是，本发明实施例涉及数据的获取及分析是经用户授权的。
71.可以通过摄像头采集目标视频，通过接收摄像头的视频流得到目标视频。
72.语言障碍客户可以包括无法说话、语言表达困难等来银行柜台办理业务的客户。
73.人体关节点特征即是上述人体中包括头，手，肘等关节的位置特征，由于客户需要坐下办理业务，因此，人体关节点特征主要是指人体胸部以上的人体部位关节的位置特征，通过识别人体关节点特征可以确定人体姿态，根据人体姿态可以确定客户想要表达的语音信息。
74.唇语特征，即是体现唇语动作特点的特征，具体可以参照上述说明。
75.可以通过人体关键点检测技术提取人体关节点特征。提取唇语特征也可以采用现有成熟技术来实现。
76.在上述步骤s2中，装置融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息。此时的融合特征包含人体关节点特征和唇语特征，进而得到的语音合成信息的信息量包括人体关节点特征和唇语特征。
77.所述人体关节点特征包括手指关节特征；相应的，所述语音合成信息生成方法还包括：
78.若基于所述手指关节特征识别到手指指向的目标物，则提取目标物特征；通过识别手指关节特征，可以识别出用户的手指指向，如果确定手指指向有目标物，则提取目标物特征，目标物可以是客户随身携带的物件，例如身份证、手机、业务办理文件等；也可以是银行柜台附近的相关物件，例如密码输入设备、签字笔等。
79.通过提取目标物特征，可以确定客户手指指向的是何种目标物。
80.融合所述人体关节点特征、所述唇语特征和所述目标物特征，得到所述融合特征。此时的融合特征包含人体关节点特征、唇语特征和目标物特征，进而得到的语音合成信息的信息量包括人体关节点特征、唇语特征和目标物特征。
81.所述对所述融合特征进行文本识别，得到文本词汇信息，包括：
82.基于预设特征识别模型对所述融合特征进行文本识别，得到文本词汇信息；可以将融合特征进行向量化，并输入到预设特征识别模型中，将预设特征识别模型的输出结果作为文本词汇信息，文本词汇信息即是以文本词汇形式体现的客户想要表达的信息。
83.其中，所述预设特征识别模型根据特征识别样本数据训练神经网络得到。
84.特征识别样本数据可以包括人体关节点样本数据、唇语样本数据和目标物样本数据。神经网络的具体类型以及训练方法可以采用现有方法，不再赘述。
85.在所述基于预设特征识别模型对所述融合特征进行文本识别的步骤之前，所述语音合成信息生成方法还包括：
86.对所述目标视频进行断句检测，得到断句节点，以所述断句节点分割所述目标视频，得到各目标视频片段；可对目标视频中各帧图像进行检测，依次判断各帧图像是否满足
断句条件，如果检测到满足断句条件的帧图像，则可确定存在断句节点，断句节点具体位置可以通过分类网络实现，也可以通过关节点检测判断一个较长的无手语动作的时间点来实现。
87.基于所述预设特征识别模型对各目标视频片段中的融合特征分别进行文本识别。可参照上述对整体目标视频中的融合特征进行文本识别的说明，不再赘述。
88.在上述步骤s3中，装置对所述文本词汇信息进行语音合成，得到语音合成信息。可以利用tts技术对文本词汇信息进行语音合成，得到语音合成信息。如图2所示，所述语音合成信息生成方法还包括：
89.融合所述文本词汇信息和所述目标视频，得到综合融合信息；将识别网络输出的文本词汇信息和摄像头采集的目标视频进行融合，得到综合融合信息。
90.对所述综合融合信息进行语音合成，得到语音合成信息。可以利用tts技术对综合融合信息进行语音合成，得到语音合成信息。
91.所述对所述综合融合信息进行语音合成，得到语音合成信息，包括：
92.基于预设语音合成模型对所述综合融合信息进行语音合成，得到语音合成信息；
93.其中，所述预设语音合成模型为可分别对视频内容和语言内容进行语音合成的多模态模型。如图2所示，利用多模态模型的自然语言理解、视频内容理解两个能力将客户的语义与视频内容关联起来，更准确地反映客户所要表达的信息。
94.而利用多模态模型的好处是可以使用更少的数据完成精准的内容理解。
95.如图2所示，在所述得到语音合成信息的步骤之后，所述语音合成信息生成方法还包括：
96.通过扬声器输出所述语音合成信息。
97.如图3所示，本发明实施例的方法可以基于模块化来实现，说明如下：
98.主要分为数据获取、特征提取、词汇识别、语义表达四个大模块。其中数据获取模块主要通过摄像头完成，拍摄目标人相关视频图像。
99.在获取视频图像信息之后，一部分送到特征提取模块，通过人体关键点检测技术提取人体关节点特征，通过嘴唇特征模块提取唇语特征，并将两个特征进行融合之后送到识别网络。
100.识别网络包含了断句和识别功能，当没有词汇表达的时候，断句功能输出空，当有词汇表达的时候输出对应词汇。将词汇序列送到语义表达模块。
101.语义表达模块综合视频图像信息和识别的词汇信息，利用多模态模型的自然语言理解、视频内容理解两个能力将用户的语义与视频内容关联起来，更准确的反应目标人所要表达的信息。而利用多模态模型的好处是可以使用更少的数据完成精准的内容理解。语义表达模块输出的文本信息送到多模态模型的语音合成模块，完成语音生成之后，输出到扬声器得到最终的音频输出。
102.本发明实施例提供的语音合成信息生成方法，获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；对所述文本词汇信息进行语音合成，得到语音合成信息，能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
103.进一步地，所述人体关节点特征包括手指关节特征；相应的，所述语音合成信息生成方法还包括：
104.若基于所述手指关节特征识别到手指指向的目标物，则提取目标物特征；可参照上述说明，不再赘述。
105.融合所述人体关节点特征、所述唇语特征和所述目标物特征，得到所述融合特征。可参照上述说明，不再赘述。
106.本发明实施例提供的语音合成信息生成方法，通过融合目标物特征，进一步能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
107.进一步地，所述对所述融合特征进行文本识别，得到文本词汇信息，包括：
108.基于预设特征识别模型对所述融合特征进行文本识别，得到文本词汇信息；可参照上述说明，不再赘述。
109.其中，所述预设特征识别模型根据特征识别样本数据训练神经网络得到。可参照上述说明，不再赘述。
110.本发明实施例提供的语音合成信息生成方法，能够准确和方便地得到文本词汇信息。
111.进一步地，在所述基于预设特征识别模型对所述融合特征进行文本识别的步骤之前，所述语音合成信息生成方法还包括：
112.对所述目标视频进行断句检测，得到断句节点，以所述断句节点分割所述目标视频，得到各目标视频片段；可参照上述说明，不再赘述。
113.基于所述预设特征识别模型对各目标视频片段中的融合特征分别进行文本识别。可参照上述说明，不再赘述。
114.本发明实施例提供的语音合成信息生成方法，通过分段对融合特征分别进行文本识别，进一步能够准确和方便地得到文本词汇信息。
115.进一步地，所述语音合成信息生成方法还包括：
116.融合所述文本词汇信息和所述目标视频，得到综合融合信息；可参照上述说明，不再赘述。
117.对所述综合融合信息进行语音合成，得到语音合成信息。可参照上述说明，不再赘述。
118.本发明实施例提供的语音合成信息生成方法，通过对综合融合信息进行语音合成，进一步能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
119.进一步地，所述对所述综合融合信息进行语音合成，得到语音合成信息，包括：
120.基于预设语音合成模型对所述综合融合信息进行语音合成，得到语音合成信息；可参照上述说明，不再赘述。
121.其中，所述预设语音合成模型为可分别对视频内容和语言内容进行语音合成的多模态模型。可参照上述说明，不再赘述。
122.本发明实施例提供的语音合成信息生成方法，通过模型对综合融合信息进行语音合成，能够提高语音合成的准确性和处理效率。
123.进一步地，在所述得到语音合成信息的步骤之后，所述语音合成信息生成方法还包括：
124.通过扬声器输出所述语音合成信息。可参照上述说明，不再赘述。
125.本发明实施例提供的语音合成信息生成方法，能够使得银行工作人员和客户及时听到语音信息，进一步方便办理业务。
126.需要说明的是，本发明实施例提供的语音合成信息生成方法可用于金融领域，也可用于除金融领域之外的任意技术领域，本发明实施例对语音合成信息生成方法的应用领域不做限定。
127.图4是本发明一实施例提供的语音合成信息生成装置的结构示意图，如图4所示，本发明实施例提供的语音合成信息生成装置，包括获取单元401、融合单元402和合成单元403，其中：
128.获取单元401用于获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合单元402用于融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；合成单元403用于对所述文本词汇信息进行语音合成，得到语音合成信息。
129.具体的，装置中的获取单元401用于获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合单元402用于融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；合成单元403用于对所述文本词汇信息进行语音合成，得到语音合成信息。
130.本发明实施例提供的语音合成信息生成装置，获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；对所述文本词汇信息进行语音合成，得到语音合成信息，能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
131.进一步地，所述人体关节点特征包括手指关节特征；相应的，所述语音合成信息生成装置还用于：
132.若基于所述手指关节特征识别到手指指向的目标物，则提取目标物特征；
133.融合所述人体关节点特征、所述唇语特征和所述目标物特征，得到所述融合特征。
134.本发明实施例提供的语音合成信息生成装置，通过融合目标物特征，进一步能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
135.进一步地，所述融合单元402具体用于：
136.基于预设特征识别模型对所述融合特征进行文本识别，得到文本词汇信息；
137.其中，所述预设特征识别模型根据特征识别样本数据训练神经网络得到。
138.本发明实施例提供的语音合成信息生成装置，能够准确和方便地得到文本词汇信息。
139.进一步地，在所述基于预设特征识别模型对所述融合特征进行文本识别的步骤之前，所述语音合成信息生成装置具体用于：
140.对所述目标视频进行断句检测，得到断句节点，以所述断句节点分割所述目标视频，得到各目标视频片段；
141.基于所述预设特征识别模型对各目标视频片段中的融合特征分别进行文本识别。
142.本发明实施例提供的语音合成信息生成装置，通过分段对融合特征分别进行文本识别，进一步能够准确和方便地得到文本词汇信息。
143.进一步地，所述语音合成信息生成装置具体用于：
144.融合所述文本词汇信息和所述目标视频，得到综合融合信息；
145.对所述综合融合信息进行语音合成，得到语音合成信息。
146.本发明实施例提供的语音合成信息生成装置，通过对综合融合信息进行语音合成，进一步能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。
147.进一步地，所述合成单元403具体用于：
148.基于预设语音合成模型对所述综合融合信息进行语音合成，得到语音合成信息；
149.其中，所述预设语音合成模型为可分别对视频内容和语言内容进行语音合成的多模态模型。
150.本发明实施例提供的语音合成信息生成装置，通过模型对综合融合信息进行语音合成，能够提高语音合成的准确性和处理效率。
151.进一步地，所述语音合成信息生成装置还用于：
152.通过扬声器输出所述语音合成信息。
153.本发明实施例提供的语音合成信息生成装置，能够使得银行工作人员和客户及时听到语音信息，进一步方便办理业务。
154.本发明实施例提供语音合成信息生成装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。
155.图5为本发明实施例提供的电子设备实体结构示意图，如图5所示，所述电子设备包括：处理器(processor)501、存储器(memory)502和总线503；
156.其中，所述处理器501、存储器502通过总线503完成相互间的通信；
157.所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：
158.获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
159.融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
160.对所述文本词汇信息进行语音合成，得到语音合成信息。
161.本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：
162.获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
163.融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
164.对所述文本词汇信息进行语音合成，得到语音合成信息。
165.本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：
166.获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；
167.融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；
168.对所述文本词汇信息进行语音合成，得到语音合成信息。
169.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
170.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
171.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
172.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
173.在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
174.以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种语音合成信息生成方法，其特征在于，包括：获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；对所述文本词汇信息进行语音合成，得到语音合成信息。2.根据权利要求1所述的语音合成信息生成方法，其特征在于，所述人体关节点特征包括手指关节特征；相应的，所述语音合成信息生成方法还包括：若基于所述手指关节特征识别到手指指向的目标物，则提取目标物特征；融合所述人体关节点特征、所述唇语特征和所述目标物特征，得到所述融合特征。3.根据权利要求1或2所述的语音合成信息生成方法，其特征在于，所述对所述融合特征进行文本识别，得到文本词汇信息，包括：基于预设特征识别模型对所述融合特征进行文本识别，得到文本词汇信息；其中，所述预设特征识别模型根据特征识别样本数据训练神经网络得到。4.根据权利要求3所述的语音合成信息生成方法，其特征在于，在所述基于预设特征识别模型对所述融合特征进行文本识别的步骤之前，所述语音合成信息生成方法还包括：对所述目标视频进行断句检测，得到断句节点，以所述断句节点分割所述目标视频，得到各目标视频片段；基于所述预设特征识别模型对各目标视频片段中的融合特征分别进行文本识别。5.根据权利要求1所述的语音合成信息生成方法，其特征在于，所述语音合成信息生成方法还包括：融合所述文本词汇信息和所述目标视频，得到综合融合信息；对所述综合融合信息进行语音合成，得到语音合成信息。6.根据权利要求5所述的语音合成信息生成方法，其特征在于，所述对所述综合融合信息进行语音合成，得到语音合成信息，包括：基于预设语音合成模型对所述综合融合信息进行语音合成，得到语音合成信息；其中，所述预设语音合成模型为可分别对视频内容和语言内容进行语音合成的多模态模型。7.根据权利要求1所述的语音合成信息生成方法，其特征在于，在所述得到语音合成信息的步骤之后，所述语音合成信息生成方法还包括：通过扬声器输出所述语音合成信息。8.一种语音合成信息生成装置，其特征在于，包括：获取单元，用于获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合单元，用于融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；合成单元，用于对所述文本词汇信息进行语音合成，得到语音合成信息。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述
方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

技术总结

本发明提供一种语音合成信息生成方法及装置，涉及语音数据处理技术领域，可用于金融领域或其他技术领域。所述方法包括：获取目标视频，并根据所述目标视频提取人体关节点特征和唇语特征；所述目标视频包含有语言障碍客户的实时影像；融合所述人体关节点特征和所述唇语特征，得到融合特征，并对所述融合特征进行文本识别，得到文本词汇信息；对所述文本词汇信息进行语音合成，得到语音合成信息。所述装置执行上述方法。本发明实施例提供的语音合成信息生成方法及装置，能够准确和高效地识别语言障碍客户想要表达的语音信息，提高业务办理效率。效率。效率。