摘要:
近年来,基于深度学习的图像压缩技术在人工智能领域取得了显著进展。一个典型的深度学习图像压缩框架包括自编码网络设计、量化、码率估计和率-失真优化等关键模块。本文将详细介绍图鸭科技在2019年CVPR CLIC图像压缩挑战赛中获胜的技术方案,该方案针对低码点和高码点两种不同的压缩任务,采用变分自编码网络设计了可进行端到端优化的图像压缩方法。
该方案主要特点包括:
提出了全局特征分析非线性注意力模块,并融入编码和解码网络以提高自适应编码性能。
设计了一种基于自适应聚类软量化方法以减少量化损失。
结合超先验子网络和Pixel CNN++上下文模型实现了有效的码率估计。
通过优良结构和算法设计,我们提出的TucodecSSIM算法赢得MS-SSIM和MOS两个指标的冠军;TucodecPSNR算法则夺得PSNR指标冠军;而TucodecPSNR40dB在高代码率透明轨道上获得冠军。接下来,本文将逐步阐述我们的算法解决方案:
方法介绍:
(1)主干自编碼網絡與解碼網絡
我們使用一種非對稱結構,即卷積、非線性單元及残差non-local注意力卷积等模块組成主干壓縮self-scaledcoding network,如圖所示。在這個設計中,通過捕捉並建模特徵之間全局關聯性,使圖像中的纹理、边界等複雜部分得到更好的重建。此外,在Kodak標準數據集上的實驗顯示,由於將non-local注意力模块融入編碼與解碼網絡,可以提升PSNR指標0.6db。
(2)軟量化
我們發現直接將浮點數映射為整數會導致大量精度損失,因此我們提出了一種基於自適應聚類的軟量化策略,以降低量化帶來的一些損失。該策略涉及給定可學習中心點,並使用最近鄰分配方式計算最接近中心點值。
(3)預先知識與碼率估計
為進行優秀的碼率估計,我們使用拉普拉斯分布來表示壓縮後特徵分布,並且設計了一個包含超參數編碼器、中間層解析器及熵參數生成器三個子網路構成之輸出層級結構。我們還採用PixelCNN++架構捕捉並建模特徵之間上下文關係,這有助於確保準確地推斷每個位元是否被設定為零或一,以及哪些位元需要被設置為零或一,以便減少不必要的情況下的資料傳輸,而不是無用的信息存儲。
最後,我們從CLIC 2019訓練集以及Flickr.com收集5000張高清照片并从中采集百万张的小图片作为训练数据,并利用TensorFlow平台對相關神經網絡進行實現。在所有測試結果中,不僅達到了業界領先水平,而且展示了創新的技術手段,這使得我們能夠提供更加高效、高质量的地面车辆检测服務。