

图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架
source link: https://www.jiqizhixin.com/articles/2018-06-21-4?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。
不久之前,CLIC 挑战赛比赛结果公布:在不同基准下,来自国内创业公司图鸭科技的团队 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上获得第一名,腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,位列第一。xvc,评分较高的团队中,xvc 的解码速度最快。
比赛结果: http://www.compression.cc/results/
在这篇文章中,我们对第一名图鸭科技的解决方案进行了编译介绍,内容采自论文《Variational Autoencoder for Low Bit-rate Image Compression》。
论文:Variational Autoencoder for Low Bit-rate Image Compression
地址: http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#
摘要:我们展示了一种用于低码率图像压缩的端到端可训练图像压缩框架。我们的方法基于变分自编码器,包含一个非线性编码器变换、均匀量化器、非线性解码器变换和后处理模块。压缩表征的先验概率通过使用超先验自编码器的拉普拉斯分布来建模,并与变换自编码器进行联合训练。为了去除低码率图像的压缩失真和模糊,我们提出了一种基于卷积的高效后处理模块。最终,考虑到 CLIC 挑战赛对码率的限制,我们使用一个码率控制算法来对每一个图像自适应性地分配码率。在验证集和测试集上的实验结果证明,使用感知损失训练出的该优化框架能够实现最优的 MS-SSIM 性能。结果还表明该后处理模块可以提高基于深度学习的方法和传统方法的压缩性能,在码率为 0.15 时最高 PSNR 达到 32.09。
1. 引言
近期,机器学习方法被应用于有损图像压缩,并利用自编码器取得了很有潜力的结果。基于典型神经网络的图像压缩框架由多个模块构成,例如自编码器、量化器(quantization)、先验分布模型、码率评估和率失真优化。自编码器用于将图像像素 x 转换为编码空间 y 中的数据,编码空间由编码器 和解码器
构成。图像的像素值
通过编码器
转换到编码空间。之后,利用量化函数
处理表征 y,得到离散值向量
。然后使用诸如算术编码 [8] 这样的熵编码方法来无损压缩
,并生成用于传输的码流。在接收到码流之后,经过熵解码的量化后的表征使用解码器
被转换回图像空间
。
很明显,表征 的先验概率模型
(也称为熵模型)对于算术编码很关键。
的真实边际概率(依赖于图像分布)是未知的。因此我们通过先验分布对它进行估计。先验概率可以通过参数化模型形式化,并通过参数学习来拟合数据。给定熵模型,码率的下界由
的离散先验分布的熵决定。由恰当设计的熵编码得到的真实率仅稍微大于熵:
。
率失真优化的作用是在编码长度 R 和原始图像 x、重构图像 之间的失真 D 进行权衡。D 可以用均方误差(MSE)建模:D=
,或感知失真的度量例如 MS-SSIM [13]。很明显,如果
更加集中,则熵 R 更小,但网络的表征能力将退化,并且 D 可能会增加。因此我们以端到端的方式优化率和失真的加权和 R+λD。我们可以断定先验模型
和量化的联合优化在高效的压缩系统中是最重要的技术。一方面,对量化后的表征
的先验分布的准确估计有利于约束
和 R 的真实边际分布。另一方面,准确的先验模型可以使适应性算术编码在编码和解码过程中更加高效。
本论文提出的图像压缩框架基于之前的方法 。与这些方法不同,我们设计了一个金字塔自编码器和更高效的卷积结构,来提升压缩性能。此外,我们使用参数化零均值拉普拉斯分布对压缩表征的先验概率进行准确建模,该分布的参数通过超先验自编码器学习得到。考虑到如果该网络只通过保持低码率的像素相似度来学习,那么图像重建会遇到模糊的情况,对人眼的吸引力也会下降。因此我们使用一种基于 MS−SSIM 的高效损失函数来衡量感知损失,训练提高感知质量的压缩编码解码器。最后,我们使用基于卷积的后处理模块来提高图像重建质量。考虑到该挑战赛中对压缩测试图像和验证图像的限制是 0.15 bpp,因此我们设计码率控制算法来为每个图像选出最好的压缩参数。
2. 本论文提出的图像压缩框架
图 1:本论文使用的变分自编码器架构图示。卷积参数表示为:滤波器数量 × 卷积核高度 × 卷积核宽度/上(下)采样步幅,其中 ↓ 表示下采样,↑表示上采样。AE、AD 分别表示算术编码器和算术解码器。
图 2:超先验自编码器的架构展示。
图 3:(a)残差块。(b)两个卷积层和 6 个残差块组成了后处理架构。
3. 实验结果
表 1:在 CLIC 2018 验证集上的评估结果。
表 2:在 CLIC 2018 测试集上的评估结果。
Recommend
-
48
机器之心报道 参与:晓坤、路 CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Tw...
-
42
逆势而上的故事不断上演。 近日,视频压缩技术服务商图鸭科技对外宣布,已于2018年12月底完成数千万元人民币A轮融资。本轮融资由金沙江创投领投,新进资本跟投,老股东淡马锡集团祥峰投资、魔量资本、拉尔夫创投、天使湾创投持续...
-
53
我爱计算机视觉 标星,更快获取CVML新技术 导读:图像视频压缩是传统多媒体技术的核心,也是一项牵动整个多媒体信息产业的基础技术。深度学习在该领域的成功运用,已经引起了不少IT巨头的关注。图鸭...
-
36
近日,经过数月的线上开发竞赛后,Lifelong Robotic Vision 挑战赛在澳门 IROS 2019 大会上成功举办,多位机器人领域大咖到场参与特邀报告环节和圆桌讨论。 International Conference on Intelligent Robots and Systems (IROS)...
-
8
单项月均营收超5万元,造梦科技推出无线大空间VR_VR陀螺 单项月均营收超5万元,造梦科技推出无线大空间VR 发布时间:2021-07-15 17:55 | 标签:
-
6
大富科技:荣获国家级制造业单项冠军引领行业创新制造2021-11-23 17:38:10 来源:投资家网 作者: 近日,国家工信部发布《关于制造业单项冠军第六批遴选和第三批通过复核企业名单的公示》,大富科技(证...
-
4
荣获制造业单项冠军,创维数字以实力再获殊荣 2021-12-22 16:14:27...
-
5
“专精特新”小巨人、制造业单项冠军和隐形冠军有什么区别?36氪的朋友们·2022-09-11 11:00专精特新“小巨人”企业、制造业单项冠军、隐形冠军等更是独居优势、...
-
5
全国已培育超1100家制造业单项冠军,各地较量谁将胜出?创头条·2022-11-08 00:40浙江、山东、江苏和广东仍是无法撼动的“四大天王”。
-
9
单项冠军|维谛技术:维系数字世界的真谛-存储在线 当前位置:存储在线 > 新闻 &g...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK