一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统的制作方法


一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统
技术领域
1.本发明属于流媒体处理技术领域,具体涉及一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统。


背景技术:



2.随着计算机性能和网络传输大幅提升,传统卫星信号开始从卫星传输逐步推广互联网传输,人们从网络接收信息越来越广泛,其中以实时流媒体和长短视频方式为主要载体,但绝大多数的音视频对于全球数百万听障人士存在极度不友好,因为听障人士通常使用手语进行交流,有声的世界对于这部分体是个悲伤且未知的领域,导致他们无法有效获取到最新新闻,教育,娱乐等咨询,并且现有的卫星或者ott信号制作方除了极少数部分重大新闻事件配有手语解说之外,几乎所有电视节目信号都是没有手语解说,对于电视信号制作方而言,如果每个节目信号都配有手语解说,需要耗费大量的人力和金钱,成本不堪重负,同时又面临着全球几百万听障人士实际诉求而言,双方有着不可调和的矛盾点,且对于失去听力时间较早的用户而言,其语言认识能力较弱,手语翻译无法帮助此类用户准确的了解手语中表述的含义,例如:手语翻译“一打啤酒”时,会通过手语分别对“一”、“打”、“啤酒”进行表述,对于失去听力时间较早的听障人士而言,其无法明白“一打”此时是一个量词,表述的应该是“十二”的含义,基于上述问题,本技术提出了一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,以解决上述问题。


技术实现要素:



3.本发明的目的是提供一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,能够通过iptv实时流媒体处理系统对注入的iptv实时流媒体进行处理,并生成带有手语解说的流媒体,便于听障人士观看,还降低了节目制作的成本,同时,通过对手语无法表述的词条进行转换,生成的带有手语解说的流媒体能够向听障用户进行准确的表述,帮助语言认知能力较弱的听障用户准确的了解流媒体中表述的含义。
4.本发明采取的技术方案具体如下:
5.一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,包括:
6.多个应用网元组合而成的集服务器,所述集服务器至少包含:cscae网元、csai网元以及camux网元,其中,cscae网元、csai网元以及camux网元可以单独部署,也可以以集方式部署,且cscae网元、csai网元以及camux网元均通过有线通讯或无线通讯的方式接入网络;
7.主数据库,所述主数据库存储于集服务器中,所述主数据库中至少包括:语音数据库、词条转换库、手语数据矩阵、vr手势模型库;
8.通过集服务器,对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看,具体步骤如下:
9.s100、将实时流媒体注入系统中;
10.s200、通过cscae网元对实时流媒体进行处理,获取实时流媒体中的详细信息,并提取其中的原始音频数据;
11.s300、对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据;
12.s400、根据词条转换库,对文本数据进行转换,生成优化文本;
13.s500、通过csai网元和优化文本,从手语数据矩阵中提取与优化文本相对应的手语数据,并生成手语序列图像;
14.s600、根据vr手势模型库,将手语序列图像转换成手语视频流媒体;
15.s700、通过camux网元以及实时流媒体的详细信息,将手语视频流媒体和实时流媒体做混流,生成手语解说流媒体;
16.s800、将手语解说流媒体注入cdn分发网络,供用户观看;
17.其中,将实时流媒体注入系统,可以是通过网络传输、无线传输或其他数据传输方式进行。
18.在一种优选方案中,所述s200中,通过cscae网元对实时流媒体进行处理的具体处理步骤包括:
19.s201、通过cscae网元对注入系统的流媒体进行分析,提取流媒体的详细信息;
20.s202、对流媒体实时分离音频数据和视频数据,提取视频idr帧实时图像,并将其与原始音频数据分开存储;
21.其中,所述流媒体的详细信息包括:
22.音频个数、音频编码信息、音频dts、音频pts以及语言信息;
23.视频个数、视频编码信息、视频dts、视频pts以及视频idr帧信息;
24.在此,dts表示解码时间戳,pts表示显示时间戳。
25.在一种优选方案中,所述s300中,对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据的具体步骤如下:
26.s301、对原始音频信号进行预处理;
27.s302、提取音频特征,对音频中的人物音频、背景声音及噪声进行识别,并将人物音频数据连续分段存储;
28.s303、根据语音数据库进行模式匹配,将人物音频数据转换成文本数据;
29.在一种优选方案中,所述s400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:
30.s401、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条;
31.s402、通过词条转换库,将手语无法表述的词条转换为手语能够表述的词条,并生成优化文本,其转换规则为:根据同义或近义的准则,将检索词转换为转换词。
32.进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条和手语无法表述的词条进行收录,并将词条分类为两类:检索词和转换词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,检索词为手语无法直接表述的词条;转换词为手语能够直接表述的词条。
33.在一种优选方案中,所述s400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:
34.s40a、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条以及手语表述较为分散的词条;
35.s40b、通过词条转换库,将手语无法表述的词条以及手语表述较为分散的词条进行转换,并生成带有感情彩的优化文本,其转换规则为:将前缀词条和后缀词条作为限定条件,将检索词替换为转换词,并在该转换词之前增加前置补充词,同时在该转换词后面增加后置补充词。
36.进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条、手语无法表述的词条以及手语表述仅为分散的词条进行收录,并将词条分类为两类:前缀词条、检索词、后缀词条、前置补充词、转换词以及后置补充词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,前缀词条为文本数据中,位于检索词前面的词条;检索词为手语无法直接表述的词条;后缀词条为文本数据中,位于检索词后面的词条;转换词为手语能够直接表述的词条;前置补充词是指在转换词前面补充的词语;后置补充词是指在转换词后面补充的词语。
37.在一种优选方案中,所述s500中手语数据矩阵是已经经过机器学习训练好的手语表达词义的最小单位模型数据,所述的文本数据经过csai,从数据矩阵提取对应手语数据,能够把文本数据拆分为手语数据矩阵识别的最小化的词义,通过标签词义识别手语数据,生成连续的手语序列图像数据。
38.在一种优选方案中,所述s600中,根据vr手势模型库,将手语序列图像转换成手语视频流,所述vr手势模型库是已经通过机器学习训练好的自定义人物基础模型,能够把手语连续的图像动作按照时序序列结合人物基础模型,根据原始音频数据段dts/pts时间戳,实时生成真实的手语视频流。
39.在一种优选方案中,所述700中,根据实时流媒体时间戳信息,对手语视频流和流媒体做混流,生成新的手语解说流媒体,其中,通过读取流的dts/pts信息作为音视频的同步时间轴,能够识别音频数据dts/pts信息,并从手语流获取对应的同一dts/pts信息视频流,将手语视频和视频流叠加然后和音频混流输出带有手语解说的音视频流,其中手语视频叠加显示区域默认在右下角。
40.一种服务器设备,包括通过系统总线连接的处理单元、存储元件和通讯模块,所述存储元件内部存储有iptv实时流媒体处理系统和主数据库,所述处理单元运行iptv实时流媒体处理系统时,能够执行上述任意一项所述的iptv实时流媒体处理步骤。
41.一种服务器可读写存储介质,其上存储有iptv实时流媒体处理系统和数据库,所述iptv实时流媒体处理系统被执行时能够实现上述任意一项所述的iptv实时流媒体处理步骤。
42.本发明取得的技术效果为:
43.本发明通过iptv实时流媒体处理系统对注入的iptv实时流媒体进行处理,并生成带有手语解说的流媒体,便于听障人士观看,还降低了节目制作的成本;
44.本发明通过cscae网元对iptv实时流媒体中的人物音频进行文本处理,通过词条转换库对无语无法表述的词条进行转换,使得生成的手语解说视频能够向听障用户进行准确的表述,能够帮助语言认知能力较弱的听障用户准确的了解流媒体中表述的含义。
附图说明
45.图1是本发明iprv实时流媒体处理流程示意图;
46.图2时本发明集服务器的框架图。
具体实施方式
47.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
48.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
49.其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个较佳的实施方式中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
50.再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
51.实施例1
52.请参阅附图1所示,为本发明第一个实施例,该实施例提供了一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,包括:
53.多个应用网元组合而成的集服务器,所述集服务器至少包含:cscae网元、csai网元以及camux网元,其中,cscae网元、csai网元以及camux网元可以单独部署,也可以以集方式部署,且cscae网元、csai网元以及camux网元均通过有线通讯或无线通讯的方式接入网络;
54.主数据库,所述主数据库存储于集服务器中,所述主数据库中至少包括:语音数据库、词条转换库、手语数据矩阵、vr手势模型库;
55.通过集服务器,对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看,具体步骤如下:
56.s100、将实时流媒体注入系统中;
57.s200、通过cscae网元对实时流媒体进行处理,获取实时流媒体中的详细信息,并提取其中的原始音频数据;
58.s300、对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据;
59.s400、根据词条转换库,对文本数据进行转换,生成优化文本;
60.s500、通过csai网元和优化文本,从手语数据矩阵中提取与优化文本相对应的手语数据,并生成手语序列图像;
61.s600、根据vr手势模型库,将手语序列图像转换成手语视频流媒体;
62.s700、通过camux网元以及实时流媒体的详细信息,将手语视频流媒体和实时流媒体做混流,生成手语解说流媒体;
63.s800、将手语解说流媒体注入cdn分发网络,供用户观看;
64.其中,将实时流媒体注入系统,可以是通过网络传输、无线传输或其他数据传输方式进行。
65.需要说明的是,服务器集就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行,在服务器上安装并运行了集服务,该服务器即可加入集,集化操作可以减少单点故障数量,并且实现了集化资源的高可用性,同时,如果服务器运行了集服务并且无法到集中的其它节点,它自己可以形成一个集,当一个集内有多个节点时,当一个节点的服务器出现硬件故障或者软件系统故障时,运行在该节点的应用就会切换到其他节点的服务器中继续运行。
66.所述s200中,通过cscae网元对实时流媒体进行处理的具体处理步骤包括:
67.s201、通过cscae网元对注入系统的流媒体进行分析,提取流媒体的详细信息;
68.s202、对流媒体实时分离音频数据和视频数据,提取视频idr帧实时图像,并将其与原始音频数据分开存储;
69.其中,所述流媒体的详细信息包括:
70.音频个数、音频编码信息、音频dts、音频pts以及语言信息;
71.视频个数、视频编码信息、视频dts、视频pts以及视频idr帧信息;
72.在此,dts表示解码时间戳,pts表示显示时间戳;
73.所述s300中,对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据的具体步骤如下:
74.s301、对原始音频信号进行预处理(包括:预加重、短时分析、分帧、加窗、和端点检测),其中,预加重能够提高高频部分,使得信号的频谱变得平坦,便于频谱分析或者声道参数分析;短时分析能够对短时间范围内的声音频谱进行分析;分帧是将语音信号分为n段,每一段称为一帧,每一段时长范围为1030ms,分帧能够使帧与帧时间平滑过度;加窗可以避免频谱被阶段后,该频谱发生畸变;端点检测能够从一段语音信号中准确地出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离;
75.s302、提取音频特征,对音频中的人物音频、背景声音及噪声进行识别,并将人物音频数据连续分段存储;
76.s303、根据语音数据库进行模式匹配,将人物音频数据转换成文本数据。
77.在此,语音数据库中包含有多种语种数据(例如:中文、英语、法语、德语等语种)
78.进一步的,当人物音频数据是外语语言时,转换后的文本数据能够通过集服务器进行翻译,将文本数据中的内容翻译为与词条转换库相匹配的语言。
79.所述s400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:
80.s401、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条;
81.s402、通过词条转换库,将手语无法表述的词条转换为手语能够表述的词条,并生成优化文本,其转换规则为:根据同义或近义的准则,将检索词转换为转换词。
82.进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条和手语无法表述的词条进行收录,并将词条分类为两类:检索词和转换词,并根据同
义或近义的准则,建立检索词和转换词之间的对应关系,其中,检索词为手语无法直接表述的词条(例如:愉快、气馁、舍弃);转换词为手语能够直接表述的词条(例如:高兴、灰心、放弃
……
);
83.具体的,可按下表的方式建立词条转换库:
[0084][0085]
例如:对文本数据“他每一次遇到解决不了的问题,内心就开始打退堂鼓”进行检索,在手语表述中,“遇到”无法直接表述,“打退堂鼓”分别表述为“打”和“鼓”,其中,“退堂”无法表述,检索到词条:“他”、“每一次”、“遇到”、“解决”、“不”、“了”、“的”、“问题”、“内”、“心”、“就”、“开始”、“打退堂鼓”,根据词条转换库,将手语无法直接表述的“遇到”和“打退堂鼓”分别转换为“相遇”和“放弃”,并生成手语可以直接表述的优化文本“他每一次相遇解决不了的问题,内心就开始放弃”。
[0086]
又例如:对文本数据“拿到录取通知书的那一刻,一家人都欣喜若狂”进行检索,在手语表述中,“那”、“刻”、“欣喜若狂”无法直接表述,检索到词条“拿”、“到”、“录取”、“通知”、“书”、“的”、“那一刻”、“一”、“家”、“人”、“都”、“欣喜若狂”,根据词条转换库,将手语无法表述的“那一刻”和“欣喜若狂”分别转换为“时候”和“高兴”,并生成手语可以直接表述的优化文本“拿到录取通知书的时候,一家人都高兴”。
[0087]
需要说明的是,由于世界各国语种不同,语言种类较为丰富,目前还不存在完全通用的语言,词条转换库需要根据本系统使用的地区分别建立,所述词条转换库中使用的语言优先与本系统的使用地区相匹配,进一步的,不同语言的词条转换库也可以通过网络进行共享或适配,用户可根据自身使用需求对词条转换库的语言进行切换。
[0088]
例如:当用户在中国境内使用本系统时,该系统中词条转换库的默认语言即为中文(用户也可根据自己的使用需求,将中文的词条转换库变换为法语词条转换库或其他语言的词条转换库),当注入的流媒体的人物语言为英语时,通过cscae网元对该流媒体进行处理,提取流媒体的信息,对其中的原始音频信号进行预处理后,获得流媒体中的人物音频文件,根据该人物音频文件生成文本数据,并对该文本数据进行翻译,将其英文内容翻译为中文(也可根据自己的使用需求,将英文内容翻译为法语或其他语言)。
[0089]
所述s500中手语数据矩阵是已经经过机器学习训练好的手语表达词义的最小单位模型数据,所述的文本数据经过csai,从数据矩阵提取对应手语数据,能够把文本数据拆分为手语数据矩阵识别的最小化的词义,通过标签词义识别手语数据,生成连续的手语序
列图像数据。
[0090]
所述s600中,根据vr手势模型库,将手语序列图像转换成手语视频流,所述vr手势模型库是已经通过机器学习训练好的自定义人物基础模型,能够把手语连续的图像动作按照时序序列结合人物基础模型,根据原始音频数据段dts/pts时间戳,实时生成真实的手语视频流。
[0091]
所述700中,根据实时流媒体时间戳信息,对手语视频流和流媒体做混流,生成新的手语解说流媒体,其中,通过读取流的dts/pts信息作为音视频的同步时间轴,能够识别音频数据dts/pts信息,并从手语流获取对应的同一dts/pts信息视频流,将手语视频和视频流叠加然后和音频混流输出带有手语解说的音视频流,其中手语视频叠加显示区域默认在右下角。
[0092]
如图2所示,本发明还提供了一种服务器设备,该服务器设备可以是计算机设备或其他具有数据处理能力的终端。该服务器设备包括通过系统总线连接的处理单元、存储元件和通讯模块。其中,所述处理单元上至少包括有cpu、内存、bios芯片、i/o控制芯片,所述cpu用于处理指令、执行操作、要求进行动作、控制时间、处理数据,所述内存元件用于暂存cpu中的运算数据及与硬盘等外部存储器交换的数据,所述bios芯片是用于计算机开机过程中各种硬件设备的初始化和检测,所述i/o控制芯片用于对系统所有的输入输出设备进行管理。该服务器设备的存储元件包括非易失性存储介质、内存储元件。该非易失性存储介质存储有操作系统、iptv实时流媒体处理系统和主数据库。该内存器为非易失性存储介质中的操作系统和iptv实时流媒体处理系统的运行提供环境。该服务器设备的主数据库用于存储iptv实时流媒体处理系统运行过程中需要的所有数据。该iptv实时流媒体处理系统被cpu执行时可以实现iptv实时流媒体的处理过程,所述通讯模块用于将多个服务器设备组成集。
[0093]
本发明还提供了一种服务器可读写存储介质,其上存储有iptv实时流媒体处理系统和数据库,所述iptv实时流媒体处理系统被执行时能够实现上述任意iptv实时流媒体的处理步骤。
[0094]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过检测程序来指令相关的硬件来完成,所述的流媒体处理系统可存储于一非易失性服务器可读取存储介质中,该流媒体处理系统在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储元件、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储元件。非易失性存储元件可以包括只读存储元件(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储元件可包括随机存取存储元件(ram)或者外部高速缓冲存储元件。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储元件总线(rambus)直接ram(rdram)、直接存储元件总线动态ram(drdram)、以及存储元件总线动态ram(rdram)等。
[0095]
实施例2
[0096]
本实施例是在实施例1的基础上做进一步优化。
[0097]
所述s400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如
下:
[0098]
s40a、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条以及手语表述较为分散的词条;
[0099]
s40b、通过词条转换库,将手语无法表述的词条以及手语表述较为分散的词条进行转换,并生成带有感情彩的优化文本,其转换规则为:将前缀词条和后缀词条作为限定条件,将检索词替换为转换词,并在该转换词之前增加前置补充词,同时在该转换词后面增加后置补充词。
[0100]
进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条、手语无法表述的词条以及手语表述仅为分散的词条进行收录,并将词条分类为两类:前缀词条、检索词、后缀词条、前置补充词、转换词以及后置补充词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,前缀词条为文本数据中,位于检索词前面的词条;检索词为手语无法直接表述的词条(例如:愉快、气馁、舍弃);后缀词条为文本数据中,位于检索词后面的词条;转换词为手语能够直接表述的词条(例如:高兴、灰心、放弃
……
);前置补充词是指在转换词前面补充的词语;后置补充词是指在转换词后面补充的词语。
[0101]
具体的,可按下表的方式建立词条转换库:
[0102][0103]
例如:对文本数据“老板娘,我要买一打铅笔”进行检索,检索到词条:“老板”、“娘”、“我”、“要”、“买”、“一”、“打”、“铅笔”,其中,“老板”、“娘”在手语表述中是两个独立的词条,对于听障用户来说,存在两种歧义:“老板的母亲”以及“女性的老板”,且,在手语表述中,“一”、“打”是两个独立的词条,其含义分别为“一个”和“击打”,听障用户在观看视频时,无法直观的了解到“一打”是一个量词,根据词条转换库,对文本数据进行判断,针对检索词“娘”和“一打”进行判定,检索到前缀词条“老板”、“买”和后缀词条“铅笔”,根据转换规则,
对检索词“老板”、“娘”、“一打”转换成“老板”和“十二”,并根据转换库,在转换词后增加后置补充词,最终生成优化文本“老板,我要买十二支铅笔”,通过优化文本,听障用户能够直观的了解到流媒体中表述的含义。
[0104]
又例如:对文本数据“爷爷家的桌子是一个老古董”进行检索,检索到词条“爷爷”、“家”、“的”、“桌子”、“是”、“一”、“个”、“老”、“古董”,其中,手语表述中不存在词条“古董”的表述方式,根据词条转换库,将分散的词条“老”和“古董”进行转换、将手语无法表述的“老古董”转换为“古代的东西”,最终生成优化文本“爷爷家的桌子是一个古代的东西”。
[0105]
再例如:对文本数据“他的思想是纯粹的老古董”进行检索,检索到词条“他”、“的”、“思想”、“是”、“纯粹”、“的”、“老古董”,其中,手语表述中不存在词条“纯粹”、“老古董”的表述方式,根据词条转换库,将检索词“纯粹”和“老古董”转换为“真正”和“顽固”,最终生成带有感情彩的优化文本“他的思想是真正的顽固”。
[0106]
通过词条转换库,对手语无法直接表述或表述存在歧义的词条进行转换,使得听障用户能够准确的明白流媒体表述的含义。
[0107]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0108]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。

技术特征:


1.一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:包括:多个应用网元组合而成的集服务器,所述集服务器至少包含:cscae网元、csai网元以及camux网元,其中,cscae网元、csai网元以及camux网元可以单独部署,也可以以集方式部署,且cscae网元、csai网元以及camux网元均通过有线通讯或无线通讯的方式接入网络;主数据库,所述主数据库存储于集服务器中,所述主数据库中至少包括:语音数据库、词条转换库、手语数据矩阵、vr手势模型库;通过集服务器,对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看,具体步骤如下:s100、将实时流媒体注入系统中;s200、通过cscae网元对实时流媒体进行处理,获取实时流媒体中的详细信息,并提取其中的原始音频数据;s300、对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据;s400、根据词条转换库,对文本数据进行转换,生成优化文本;s500、通过csai网元和优化文本,从手语数据矩阵中提取与优化文本相对应的手语数据,并生成手语序列图像;s600、根据vr手势模型库,将手语序列图像转换成手语视频流媒体;s700、通过camux网元以及实时流媒体的详细信息,将手语视频流媒体和实时流媒体做混流,生成手语解说流媒体;s800、将手语解说流媒体注入cdn分发网络,供用户观看;其中,将实时流媒体注入系统,可以是通过网络传输、无线传输或其他数据传输方式进行。2.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述s200中,通过cscae网元对实时流媒体进行处理的具体处理步骤包括:s201、通过cscae网元对注入系统的流媒体进行分析,提取流媒体的详细信息;s202、对流媒体实时分离音频数据和视频数据,提取视频idr帧实时图像,并将其与原始音频数据分开存储;其中,所述流媒体的详细信息包括:音频个数、音频编码信息、音频dts、音频pts以及语言信息;视频个数、视频编码信息、视频dts、视频pts以及视频idr帧信息;在此,dts表示解码时间戳,pts表示显示时间戳。3.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述s300中,对原始音频数据进行处理,提取其中的人物音频数据,根据语音数据库,将人物音频数据转换为文本数据的具体步骤如下:s301、对原始音频信号进行预处理;s302、提取音频特征,对音频中的人物音频、背景声音及噪声进行识别,并将人物音频数据连续分段存储;s303、根据语音数据库进行模式匹配,将人物音频数据转换成文本数据。
4.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述s400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:s401、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条;s402、通过词条转换库,将手语无法表述的词条转换为手语能够表述的词条,并生成优化文本,其转换规则为:根据同义或近义的准则,将检索词转换为转换词;进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条和手语无法表述的词条进行收录,并将词条分类为两类:检索词和转换词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,检索词为手语无法直接表述的词条;转换词为手语能够直接表述的词条。5.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述s400中,根据词条转换库,对文本数据进行转换,生成优化文本的具体步骤如下:s40a、对文本数据中的内容进行检索,提取文本数据中手语无法表述的词条以及手语表述较为分散的词条;s40b、通过词条转换库,将手语无法表述的词条以及手语表述较为分散的词条进行转换,并生成带有感情彩的优化文本,其转换规则为:将前缀词条和后缀词条作为限定条件,将检索词替换为转换词,并在该转换词之前增加前置补充词,同时在该转换词后面增加后置补充词;进一步的,词条转换库通过机器人学习训练或人工收录的方式,对手语能够表述的词条、手语无法表述的词条以及手语表述仅为分散的词条进行收录,并将词条分类为两类:前缀词条、检索词、后缀词条、前置补充词、转换词以及后置补充词,并根据同义或近义的准则,建立检索词和转换词之间的对应关系,其中,前缀词条为文本数据中,位于检索词前面的词条;检索词为手语无法直接表述的词条;后缀词条为文本数据中,位于检索词后面的词条;转换词为手语能够直接表述的词条;前置补充词是指在转换词前面补充的词语;后置补充词是指在转换词后面补充的词语。6.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述s500中手语数据矩阵是已经经过机器学习训练好的手语表达词义的最小单位模型数据,所述的文本数据经过csai,从数据矩阵提取对应手语数据,能够把文本数据拆分为手语数据矩阵识别的最小化的词义,通过标签词义识别手语数据,生成连续的手语序列图像数据。7.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述s600中,根据vr手势模型库,将手语序列图像转换成手语视频流,所述vr手势模型库是已经通过机器学习训练好的自定义人物基础模型,能够把手语连续的图像动作按照时序序列结合人物基础模型,根据原始音频数据段dts/pts时间戳,实时生成真实的手语视频流。8.根据权利要求1所述的一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统,其特征在于:所述700中,根据实时流媒体时间戳信息,对手语视频流和流媒体做混流,生成新的手语解说流媒体,其中,通过读取流的dts/pts信息作为音视频的同步时间轴,能
够识别音频数据dts/pts信息,并从手语流获取对应的同一dts/pts信息视频流,将手语视频和视频流叠加然后和音频混流输出带有手语解说的音视频流,其中手语视频叠加显示区域默认在右下角。9.一种服务器设备,其特征在于:包括通过系统总线连接的处理单元、存储元件和通讯模块,所述存储元件内部存储有iptv实时流媒体处理系统和主数据库,所述处理单元运行iptv实时流媒体处理系统时,能够执行权利要求18中任意一项所述的iptv实时流媒体处理步骤。10.一种服务器可读写存储介质,其上存储有iptv实时流媒体处理系统和数据库,其特征在于:所述iptv实时流媒体处理系统被执行时能够实现权利要求18中任意一项所述的iptv实时流媒体处理步骤。

技术总结


本发明属于流媒体处理技术领域,具体涉及一种IPTV音视频实时转虚拟手语视频的实时智能流媒体系统,该IPTV流媒体处理系统,包括由CSCAE网元、CSAI网元以及CAMUX网元组合而成的集服务器,通过IPTV实时流媒体处理系统对注入系统的实时流媒体增加手语解说视频后混流,生成新的手语解说流媒体,供用户实际观看。本发明能够通过IPTV实时流媒体处理系统对注入的IPTV实时流媒体进行处理,并生成带有手语解说的流媒体,便于听障人士观看,还降低了节目制作的成本,同时,通过对手语无法表述的词条进行转换,生成的带有手语解说的流媒体能够向听障用户进行准确的表述,帮助语言认知能力较弱的听障用户准确的了解流媒体中表述的含义。弱的听障用户准确的了解流媒体中表述的含义。弱的听障用户准确的了解流媒体中表述的含义。


技术研发人员:

张道远 李智 胡秀华

受保护的技术使用者:

深圳市小溪流科技有限公司

技术研发日:

2022.09.09

技术公布日:

2022/12/16

本文发布于:2024-09-22 07:12:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/35571.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:手语   词条   流媒体   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议