在 CVPR 2019 CLIC 图像压缩挑战赛上,图鸭科技的创新的算法方案以出色表现赢得了三项冠军。其中,TucodecSSIM 在 MS-SSIM 和 MOS 评分方面脱颖而出,TucodecPSNR 则在 PSNR 指标上取得了优异成绩,而 TucodecPSNR40dB 在高码率图像压缩 Transparent Track 竞赛中斩获第一名。以下是图鸭科技为我们提供的技术解析。
近年来,深度学习在图像压缩领域的应用日益广泛,其核心包括自编码网络设计、量化、码率估计和率失真优化等关键步骤。本次竞赛中,我们针对低码点和高码点两种不同的压缩需求,开发了一套端到端可优化的图像压缩解决方案。这一方案包含非线性编码网络、软量化模块、非线性解码网络以及熵估计模块。其创新之处主要体现在:
引入全局特征分析基于non-LCA注意力机制,并将其融合至编解码网络,以提高自适应代码分配性能。
采用自适应聚类方法降低量化损失。
设计一种结合超先验子网和Pixel CNN++上下文模型的复杂算法进行有效的数据统计。
通过精心设计的网络结构与算法,我们成功实现了MS-SSIM和MOS两个指标上的领先位置,以及PSNR指标上的顶尖表现。此外,在Transparent Track比赛中,我们还展示了卓越的地位。在接下来的一些部分,将详细介绍我们的工作原理:
首先是编解码网络,它采用非对称结构并引入残差Non-local注意力卷积,从而捕捉更为复杂特征,如纹理边界等。在实验中,该技术提升了PSNR值0.6db以上。
其次,是量化过程。通常取整量化会导致重建质量下降,但我们提出的基于自适aptive聚类软量化策略显著改善了这一问题。
然后,是预测概率及数据统计策略。这涉及拉普拉斯分布表示特征分布,并利用PixelCNN++捕捉上下文信息以增强模型能力。
最后,对于后处理阶段,我们采用改进版266算法作为基础,并加入额外处理步骤以减少伪影并恢复细节。此外,还有五个模型训练用于不同条件下的最佳表现,并使用动态规划确保满足约束要求。
此次胜利不仅凸显了我们的技术优势,也展现出了AI领域对于图像处理任务所带来的革命性变革。