在这场盛会上,李明教授首先就基于端到端深度学习的说话人和语种识别进行了精彩的分享。他的团队近期在国际会议上发表了一系列工作,包括字典池化编码层、注意力机制结合CNN-BLSTM网络框架、引入中心损失和角度softmax,以及长度归一化机制等。这一切都体现了声纹识别研究趋势向深度学习和端到端方向发展的转变,其中句子层面的做法尤为显著。
随后,张鹏远研究员探讨了基于深度学习的短时声纹识别技术。他强调,在实际应用中,对于主流统计建模系统来说,短时语音中的说话人信息不足以及注册与测试语音文本不匹配,是一个严峻挑战。因此,他们提出了双路神经网络,从多个时间尺度对说话人信息进行建模,并融合不同尺度特征以实现互补,从而显著提升了短时语音条件下的系统性能。
宋彦副教授最后介绍了一些改进现有深度说话人学习方法的策略,这些包括密集空洞卷积与注意力机制帧级特征提取、跨层双线性池化段级特征映射以及深度判别分析优化目标实现的端到端方法。
接下来,我们进入第二个环节,即关于对抗学习和说话日志相关技术讨论。在这个环节中,谢磊教授分享了深度对抗学习在说话人识别中的应用。他解释道,对抗学习已被广泛用于计算机视觉领域,并且最近也开始在语音领域得到应用,以解决数据生成、降噪等问题,以及提高域自适应能力。
洪青阳副教授则展示了基于对抗多任务学习的抗噪鲁棒性说话人识別经验。他指出虽然声纹识别是相对较小众但重要的一块,但随着技术进步,它正逐渐受到学术界及工业界关注。为了克服噪声干扰下声音辨认困难的问题,他所带领的小组设计了一种新的网络结构,该结构通过三部分:编码器(encoder)、分类器(speaker classifier)和判别器(discriminator)的联合训练,使得获得的声音特征具有更高噪声抵御能力。此外,他们还使用一种特殊算法来确保这些声音特征能有效区分不同的发言者,同时忽略环境噪声影响,最终实验结果显示该新算法可以大幅提高声音辨认准确率,无论是在各种不同的干扰环境中都是如此。