ICML 2019 神经网络的可解释性,从经验主义到数学建模,qq最新资讯中探究技术进步。我们将深度神经网络表达能力和训练能力的数学工具模型化,将基于经验主义的调参式深度学习转变为基于评测指标定量指导的深度学习,以期解决人工智能领域面临的问题,并在当前深度学习普遍存在的大背景中寻求新的希望。
这篇文章旨在介绍我们团队最近在 ICML 上发表的一篇名为「Towards a Deep and Unified Understanding of Deep Neural Models in NLP」的工作。这项研究是与微软亚洲研究院合作完成的,其中王希廷研究员和关超宇同学对 NLP 领域有着丰富的贡献,我们对此表示感谢。
人们常说神经网络是「黑箱」,这含义至少有两个方面:一、难以理解其特征或决策逻辑;二、缺乏诊断与评测网络特征表达能力的手段,包括解释不同神经网络模型信息处理特点。
我过去一直专注于第一个方面,但这篇 ICML 论文同时关注了上述两个方面——针对不同的自然语言应用,我们寻找恰当的数学工具来建模不同层次特征所包含的信息量,并可视化这些信息分布,以便解释不同模型性能差异。
我一直希望能够建模神经网络特征表达能力,但迟迟没有下手,因为找不到合适的方法。然而,我不能让这种解释性的工作沦为简单的心理直觉,而必须找到严谨且普适性的方法。
我们的目标是在不依赖于具体任务或结构的情况下,建立一个客观反应神经网络功能并实现广泛比较的手段,这涉及以下几个方面:
诊断同一神经网络中的不同层之间语义信息继承与遗忘。
诊断同一任务下的不同神经网络任意层间语义信息分布。
比较针对不同任务不同的神经网络信息处理特点。
我们提出了一种算法,用以衡量每个中间层特征所包含输入句子的信息量,即 H(XF=f)。当假设各单词独立时,我们可以将句子层面的信息分解为各个单词互相独立后的总和。这使得这个指标既具有普适性,又能提供稳定的跨层比较结果。
为了计算 H(XF=f),我们从两种角度进行分析:
(1)如果只考虑真实自然语言流形,那么 p(X=xF=f) 的计算容易,可以用 decoder 重建输入句子 x。
(2)在本文中,我们选取了第二种角度,不考虑真实语言分布,而是考察整个特征空间分布,即 x 可以取值为噪声。在计算 p(X=x,F=f) = p(X=x) p(F=fX=x) 时,我们需要考虑哪些噪声输入也能生成相同特征 f。这就要求了解哪些单词被忽略了,以及如何替换它们而不会影响中间层输出,没有这些知识,就无法精确地计算 H(XF=f) 所体现的事实——某些单词被逐渐遗忘,同时其他相关内容被保留下来,为分类提供支持。
通过这种方式,我们可以客观反映每个中间层所代表知识量,无论参数大小、中间特色价值还是卷积核顺序如何变化。而且,它们提供了一致稳定的评价标准,使得跨多个项目和多个模型之间进行直接比较成为可能,如图所示,这对于理解每种机器学习技术都至关重要。此外,还展示了基于梯度评估标准不足以给出稳定的评价,如图所示。此外,还展示了各种可视化方法如何显示内置逻辑,如图所示。