视频会议传输延时应该如何“低”?

视频会议传输延时应该如何“低”?
关键词:⾳视频通信,视频会议系统,南⽅电讯视频会议
万物互联的时代,⾳视频实时通讯的应⽤场景已随处可见,从“吃鸡”的语⾳对讲、直播连麦,到企业⽇常远程视频会议、与合作伙伴的远程会商,再到医院的远程会诊、智能银⾏VTM的远程视频开户等。对于解决⽅案服务商来讲,除了关注如何能快速实现不同应⽤场景的⾳视频通讯,另⼀个更需要关注的可能就是“低延时”。但是,到底实时⾳视频传输延时应该如何“低”,才能满⾜你的应⽤场景呢?⼩南将看到的专家剖析截取部分分享给⼤家。
在⾳视频传输过程中,在不同阶段都会产⽣延时。总体可以分为三类:
T1:设备端上的延时
消声室制作
⾳视频数据在设备端上产⽣延时还可以细分。设备端上的延时主要与硬件性能、采⽤的编解码算法、⾳视频数据量相关,设备端上的延时可达到 30~200ms,甚⾄更⾼。如上表所⽰,⾳频与视频分别在采集端或播放端产⽣延时的过程基本相同,但产⽣延时的原因不同。
——⾳频在设备端上的延时:
⾳频采集延时:采集后的⾳频⾸先会经过声卡进⾏信号转换,声卡本⾝会产⽣延时,⽐如 M-Audio 声卡设备延迟
1ms,艾肯声卡设备延迟约为 37ms;
编解码延时:随后⾳频进⼊前处理、编码的阶段,如果采⽤ OPUS 标准编码,最低算法延时⼤约需要 2.5~60ms;
⾳频播放延时:这部分延时与播放端硬件性能相关。
⾳频处理延时:前后处理,包括 AEC,ANS,AGC 等前后处理算法都会带来算法延时,通常这⾥的延时就是滤波器阶数。在 10ms 以内。
端⽹络延时:这部分延时主要出现在解码之前的 jitter buffer 内,如果在抗丢包处理中,增加了重传算法和前向纠错算法,这⾥的延时⼀般在 20ms 到 200ms 左右。但是受到 jitter buffer 影响,可能会更⾼。
限电器
——视频在设备端上的延时:
采集延时:采集时会遇到成像延迟,主要由 CCD 相关硬件产⽣,市⾯上较好的 CCD ⼀秒可达 50 帧,成像延时约为20ms,如果是⼀秒 20~25 帧的 CCD,会产⽣ 40~50ms 的延时;
编解码延时:以 H.264 为例,它包含 I、P、B 三种帧(下⽂会详细分析),如果是每秒 30 帧相连帧,且不包括 B 帧(由于 B 帧的解码依赖前后视频帧会增加延迟),采集的⼀帧数据可能直接进⼊编码器,没有 B 帧时,编码的帧延时可以忽略不计,但如果有 B 帧,会带来算法延时。
视频渲染延时:⼀般情况下渲染延时⾮常⼩,但是它也会受到系统性能、⾳画同步的影响⽽增⼤。
端⽹络延时:与⾳频⼀样,视频也会遇到端⽹络延时。
另外,在设备端,CPU、缓存通常会同时处理来⾃多个应⽤、外接设备的请求,如果某个问题设备的请求占⽤了CPU,会导致⾳视频的处理请求出现延时。以⾳频为例,当出现该状况时,CPU 可能⽆法及时填充⾳频缓冲区,⾳频会出现卡顿。所以设备整体的性能,也会影响⾳视频采集、编解码与播放的延时。
T2:端与服务器间的延时
影响采集端与服务器、服务器与播放端的延时的有以下主⼏个因素:客户端同服务间的物理距离、客户端和服务器的⽹络运营商、终端⽹络的⽹速、负载和⽹络类型等。如果服务器就近部署在服务区域、服务器与客户端的⽹络运营商⼀致时,影响上下⾏⽹络延时的主要因素就是终端⽹络的负载和⽹络类型。⼀般来说,⽆线⽹络环境下的传输延时波动较⼤,传输延时通常在 10~100ms 不定。⽽有线宽带⽹络下,同城的传输延时能较稳定的低⾄ 5ms~10ms。但是在国内
⼤,传输延时通常在 10~100ms 不定。⽽有线宽带⽹络下,同城的传输延时能较稳定的低⾄ 5ms~10ms。但是在国内有很多中⼩运营商,以及⼀些交叉的⽹络环境、跨国传输,那么延时会更⾼。
T3:服务器间的延时
在此我们要要考虑两种情况,第⼀种,两端都连接着同⼀个边缘节点,那么作为最优路径,数据直接通过边缘节点进⾏转发⾄播放端;第⼆种,采集端与播放端并不在同⼀个边缘节点覆盖范围内,那么数据会经由“靠近”采集端的边缘节点传输⾄主⼲⽹络,然后再发送⾄“靠近”播放端的边缘节点,但这时服务器之间的传输、排队还会产⽣延时。仅以⾻⼲⽹络来讲,数据传输从⿊龙江到⼴州⼤约需要 30ms,从上海到洛杉矶⼤约需要 110ms~130ms。
在实际情况下,我们为了解决⽹络不佳、⽹络抖动,会在采集设备端、服务器、播放端增设缓冲策略。⼀旦触发缓冲策略就会产⽣延时。如果卡顿情况多,延时会慢慢积累。要解决卡顿、积累延时,就需要优化整个⽹络状况。
综上所述,由于⾳视频在采集与播放端上的延时取决于硬件性能、编解码内核的优化,不同设备,表现不同。所以通常市⾯上常见的“端到端延时”指的是 T2+T3。
延时低≠通话质量可靠
不论是教育、社交、⾦融,还是其它场景下,⼤家在开发产品时可能会认为“低延时”⼀定就是最好的选择。但有时,这种“追求极致”也是陷⼊误区的表现,低延时不⼀定意味着通讯质量可靠。由于⾳频与视频本质上的差异,我们需要分别来讲实时⾳频、视频的通讯质量与延时之间的关系。
——⾳频质量与延时
⾳频采样⽰意图
影响实时⾳频通讯质量的因素包括:⾳频采样率、码率、延时。⾳频信息其实就是⼀段以时间为横轴的正弦波,它是⼀段连续的信号(如上图)。
改性材料
采样率:是每秒从连续信号中提取并组成离散信号的采样个数。采样率越⾼,⾳频听起来越接近真实声⾳。
防护耳罩码率:它描述了单位时间长度的媒体内容需要空间。码率越⾼,意味着每个采样的信息量就越⼤,对这个采样的描述就越精确,⾳质越好。
假设⽹络状态稳定不变,那么采样率越⾼、码率越⾼,⾳质就越好,但是相应单个采样信息量就越⼤,那么传输时间可能会相对更长。
对照我们之前的公式,如果想要达到低延时,那么可以提⾼⽹络传输效率,⽐如提⾼带宽、⽹络速度,这在实验室环境下可以轻易实现。但放到⽣活环境中,弱⽹、中⼩运营商等不可控的问题必定会影响⽹络传输效率,最后结果就是通讯质量没有保障。还有⼀种⽅法,就是降低码率,那么会损失⾳质。
——视频质量与延时
影响实时视频质量的因素包括:码率、帧率、分辨率、延时。其中视频的码率与⾳频码率相似,是指单位时间传输的数据位数。码率越⼤,画⾯细节信息越丰富,视频⽂件体积越⼤。
帧:正如⼤家所知,视频由⼀帧帧图像组成,如上图所⽰为 H.264 标准下的视频帧。它以 I 帧、P 帧、B 帧组成的 GOP 分组来表⽰图像画⾯(如下图):I 帧是关键帧,带有图像全部信息;P 帧是预测编码帧,表⽰与当前与前⼀帧(I 或 P 帧)之间的差别;B 帧是双向预测编码帧,记录本帧与前后帧的差别。
帧率:它是指每秒钟刷新的图像帧数。它直接影响视频的流畅度,帧率越⼤,视频越流畅。由于⼈类眼睛与⼤脑处理图像信息⾮常快,当帧率⾼于 24fps 时,画⾯看起来是连贯的,但这只是⼀个起步值。在游戏场景下,帧率⼩于 30fps 就会让⼈感到画⾯不流畅,当提升到 60fps 时会带来更实时的交互感,但超过 75fps 后⼀般很难让⼈感到有什么区别了。
相册内页分辨率:是指单位英⼨中所包含的像素点数,直接影响图像的清晰度。如果将⼀张 640 x 480 与 1024 x 768 的视频在
分辨率:是指单位英⼨中所包含的像素点数,直接影响图像的清晰度。如果将⼀张 640 x 480 与 1024 x 768 的视频在同⼀设备上全屏播放,你会感到清晰度明显不同。
在分辨率⼀定的情况下,码率与清晰度成正⽐关系,码率越⾼,图像越清晰;码率越低,图像越不清晰。
在实时视频通话情况下,会出现多种质量问题,⽐如:与编解码相关的画⾯糊、不清晰、画⾯跳跃等现象,因⽹络传输问题带来的延时、卡顿等。所以解决了低延时,只是解决了实时⾳频通讯的⼀⼩部分问题⽽已。
综上来看,如果在⽹络传输稳定的情况下,想获得越低的延时,就需要在流畅度、视频清晰度、⾳频质量等⽅⾯进⾏权衡。钢水脱氧
部分内容节选⾃:InfoQ作者⾼泽华

本文发布于:2024-09-22 10:04:26,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/276602.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:延时   视频   传输   采集   码率   设备   播放
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议