AD
首页 > 财经 > 正文

用AI做视频编解码器现在有点野了GAN

[2022-04-13 17:55] 来源:IT之家 编辑:安靖  阅读量:18167   
评论 点击收藏
导读: 用AI做视频编解码器现在有点野了。 插帧,过拟合,语义感知,GAN你有没有想过这些脑洞或者AI算法也可以用在编解码器上 比如原算法压缩到每帧16.4KB后,森林开始变得极度模糊。 但是使用GAN后,不仅画面更清晰,而且每帧图像也更......

用AI做视频编解码器现在有点野了。

用AI做视频编解码器现在有点野了GAN

插帧,过拟合,语义感知,GAN你有没有想过这些脑洞或者AI算法也可以用在编解码器上

比如原算法压缩到每帧16.4KB后,森林开始变得极度模糊。

但是使用GAN后,不仅画面更清晰,而且每帧图像也更小,只需要14.5KB!

例如,将帧插入的思想与神经编解码器相结合,可以使最新的压缩算法更好.

这一系列算法背后的原理是什么,使用AI制作编解码器的潜力有多大。

我们采访了高通工程技术副总裁,AI研究方向负责人侯继磊博士,了解了高通部分AI编解码器的算法细节和原理。

编解码器逐渐被引入。我们采访了高通工程技术副总裁,AI研究方向负责人侯继磊博士,了解了高通部分AI编解码器的算法细节和原理。

当然,在了解AI算法的原理之前,我们需要知道视频是如何压缩的。

没有压缩,每秒30帧,8—8位单通道色深的480p视频每秒会传输80 Mbps的数据,在互联网上实时观看高清视频几乎是不可能的。

目前,压缩方法主要有色度二次采样,帧内预测和帧间预测。

色度子采样主要是基于我们的眼睛对亮度比对颜色更敏感的原理,对图像的颜色数据进行压缩,但在视觉上仍能保持接近原始图像的效果。

帧内预测使用同一帧中的大量相同颜色块来预测图像中相邻像素的值,使得结果比原始数据更容易压缩。

帧间预测是一种用于消除相邻帧之间大量重复数据的方法。使用称为运动补偿的方法,通过使用运动矢量和预测值来计算两个帧之间的像素差:

这些针对视频编解码器的视频压缩方法,有大量的压缩工作要做,包括分区,量化,熵编码等。

但据侯吉磊博士介绍,从H.265到H.266,虽然压缩性能提升了30%左右,但这是在编码复杂度增加30倍,解码复杂度增加2倍的情况下实现的。

这意味着编解码标准逐渐进入内卷化状态,提升的压缩效果本质上是与编解码的复杂度交换的,并不是真正的创新。

因此,高通从现有压缩方法的原理和编解码器的构造出发,开发了几种有趣的AI视频编码和解码方法。

提高3个方向的压缩性能。

具体来说,目前的AI研究包括三个方向:帧间预测方法,降低解码复杂度和提高压缩质量。

预测了乙帧的预测

从帧间预测的角度来看,高通提出了B帧编解码的新思路,论文已在《ICCV 2021》上发表。

I :帧内编码帧,P :前向预测编码帧和B :双向插值预测编码帧。

目前大部分编解码器都侧重于I帧和P帧,而B帧则采用I帧和P帧的双向运动补偿来提高压缩性能,这在H.265中是官方支持的。

虽然使用B帧后视频压缩性能更好,但仍然存在两个问题。

一是视频需要提前加载,另一个是仍然会有冗余如果I帧和P帧高度相关,使用双向运动补偿是很浪费的

例如,如果视频中只有一个球在距离I帧,B帧和P帧一定距离的直线上移动,如果使用双向运动补偿,将会浪费33,360。

在这种情况下,使用帧插入似乎更好,并且可以通过时间戳直接预测对象运动的状态,并且编码计算也更低。

但是,会有新的问题:如果I帧和P帧之间有非常大的突变,比如球在B帧突然弹起,那么插帧的效果就非常差。

因此,高通选择将两者结合起来,基于神经网络的p帧压缩和帧插入补偿,并使用AI来预测帧插入后的运动补偿。

不用说,效果真的很好,比之前谷歌在CVPR 2020上保持的SOTA纪录还要好,也比目前基于H.265标准的开源编解码器的压缩性能要好。

除此之外,高通还尝试了一些其他的AI算法。

通过过拟合降低解码复杂度。

鉴于编解码器的标准内卷化,高通还想到使用人工智能作为自适应算法,根据视频比特流像过拟合一样更新模型的权重增量部分相关论文已在《ICLR 2021》发表

这种方法意味着过度拟合单个模型,对比特流中的权重增量进行编码,然后将其与原始比特流进行比较如果效果更好,使用这种传输模式

实验证明,该方法在不降低压缩性能的情况下,解码复杂度降低了72%,同时仍然保持了之前B帧模型所获得的SOTA结果。

当然,除了视频压缩性能,还需要考虑单帧图像的压缩质量毕竟视觉效果也是视频压缩追求的标准之一

利用语义感知和GAN提高压缩质量。

使用语义感知和GAN更简单。

语义感知就是让AI基于人类视觉进行考虑,选择你在看视频时最关注的地方,关注那部分的比特分配。

比如看网球比赛的时候,往往不关注观众是什么样子的,不关注比赛旁边的风景是什么样子的,更多的是关注球员自己的动作和击球方法。

然后,就训练AI,在目标人物身上多放点位,就像这样:

从结构上讲,也是。

比较简单,也就是我们常见的语义分割 Mask:

这种方法能很好地将受关注的局部区域帧质量提升,让我们有更好的观看效果,而不是在视频被压缩时,看到的整幅图像都是打上马赛克的样子。。

据高通表示,这种语义感知的图像压缩,目前已经在扩展到视频压缩上了,同样是关注局部的方法,效果也非常不错。

而基于 GAN 的方法,则更加致力于用更少的比特数生成视觉效果同样好的图像质量:

期待这些技术能马上应用到手机等设备上,让我们看视频的时候真正变得不卡。

相关论文:

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。