在 CVPR 2019 CLIC 图像压缩挑战赛上,图鸭科技的创新的算法方案以其卓越的性能赢得了MS-SSIM和MOS两个指标的金奖,以及PSNR指标的银奖。我们将深入探讨这项技术背后的核心理念与创新点。
摘要:
随着人工智能技术的飞速发展,基于深度学习的图像压缩技术已取得了显著进展。一个典型基于深度学习图像压缩框架包括自编码网络设计、量化、码率估计及率失真优化等关键模块。本文将详细介绍图鸭科技在CVPR 2019 CLIC图像压缩挑战赛上的策略,并揭示针对低码点和高码点两大赛道,我们采用变分自编代码网络设计了一套端到端优化可行性的新一代图像压缩方案。此方案集成了非线性编码网络、软量化模块、一种非线性解码网络以及熵估计模块。以下是我们独特之处:
提出了全局特征分析基础上的non-lcao注意力机制,将其融合至编解码网络,以实现更精准地自适应选择最佳编码单元。
设计了一种基于自适应聚类算法进行软量化,以降低由于硬量化导致的一系列损失。
引入超先验子网与Pixelcnn++模型相结合的人工智能上下文预测系统,为准确推断每个数据块所需比特数奠定基础。
我们的成功归功于出色的架构设计与精心打磨过的算法,我们提出的TucodecSSIM方案获得了MS-SSIM和MOS两项竞争力的冠军,同时TucodecPSNR40db在高质量图片压缩任务中夺得桂冠。接下来,我们将详细阐述我们的方法论:
方法介绍:
(1) 编解码器
主干结构采用非对称卷积搭配残差Non-local注意力层捕捉全局关联性,提升纹理边缘重建效果。在Kodak标准测试集实验中,该结构带来了0.6dBPSNR提升。
(2) 软量化
通过实验发现直接浮点转整数会严重影响重建质量(至少降低0.5dB PSNR, MS-SSIM降低1.5dB)。为此,我们开发了一种基于自适应聚类理论实现柔软加权量化,从而最大限度减少因硬质转换引起的问题。
(3) 码率估计
使用拉普拉斯分布描述特征分布参数,如均值方差,并且通过三部分子网:超参编解析、上下文识别和熵参数生成构成整个网络。这不仅保证了训练过程中的连续优化,而且能够有效捕捉并利用上下文信息来计算最终分布参数。
(4) 后处理
为了改善在极致条件下的恢复效果,在TucodecPSNR40db中实施改进版266算法后处理流程,使得从伪影到纹理细节都得到显著提升。
(5) 实验验证
从CLIC 2019训练集及flickr.com采集5000张高清图片并训练模型。在损失函数方面,除了常规损失外,还引入了对抗生成模型进行端到端训练。此外,对于满足比赛要求,即保持最高品质(PSNR ≥ 40 dB, MS-SSIM ≥ 0.993),共训练五个不同λ值模式,最终动态规划确定最优比特分配策略。这使得我们的作品获得令人瞩目的成绩表明如下: