在声纹识别领域,近年来深度学习技术的发展为研究者们提供了新的思路与工具。2019年的声纹识别研究与应用学术讨论会,在昆山杜克大学举办,本次会议旨在汇集国内外顶尖专家共襄盛举,探讨最新的声纹识别技术和应用前景。
会议由中国计算机学会、昆山杜克大学共同主办,并获得昆山市科学技术协会的大力支持。协办方包括清华大学媒体大数据认知计算研究中心和中国计算机学会语音对话与听觉专业工作组。大会主席由李明教授和何亮副研究员担任,他们都是在语音处理领域享有盛誉的专家。
开幕式上,昆山杜克大学学术事物副校长高海燕教授致辞,她强调了本次会议的重要性,并感谢各位嘉宾的参与。此后,俞凯教授代表中国计算机学会致辞,他向所有参会人员表示欢迎,并期待通过这次会议促进语音界内外交流合作。
会议分为四个环节:深度学习、对抗学习及说话人日志、说话人编码以及联合学习。在第一个环节中,李明教授分享了基于端到端深度学习的说话人和语种识别方法。他介绍了团队近期在国际主要学术会议上的几项创新成果,如字典池化编码层、新型CNN-BLSTM网络框架、Center loss 和 Angular Softmax 等技术,以及长度归一化机制等。这些创新成果显著提升了系统性能,为深度学习在声纹识别中的应用奠定基础。
随后,张鹏远研究员就基于深度学习的短时声纹识别技术进行了演讲。他提出了双路神经网络模型,这种模型能够从多个时间尺度上建模说话人的特征,从而提高短时语音条件下的系统性能。此外,他还介绍了一种针对低维向量如i-vector或embedding进行区分性训练的神经网络方法,该方法可以更好地区分不同说话者的特征。
宋彦副教授最后分享了一些改进现有深度说话人识别方法的心得。他提出了三种改进措施:结合密集空洞卷积和注意力机制提取帧级特征、二阶段跨层双线性池化操作映射段级特征、三步优化目标实现端到端的人工智能系统。这些建议旨在提升当前系统性能并解决实际问题。
第二个环节涉及对抗学习及其在声音领域的一些新颖应用。谢磊教授就如何运用生成式对抗网络(GAN)来增强口音自适应能力以及噪声鲁棒性的效果进行了解释。他指出,对抗样本攻击已成为图像处理领域的一个热点,而GAN也被用于语音合成以去除噪声影响,使其更加接近自然声音,同时也被用于提高口腔自适应能力,以适应不同的信道环境。
洪青阳副教授则探讨了基于多任务对抗训练法推动鲁棒性的提高。在实验中,他们设计了一套包含三个部分(编码器、分类器和判决器)的复杂网络结构,其中判决器与编码器之间存在竞争关系,以减少噪声干扰并提升辨认率。此法显示出良好的效果,即使是在极其嘈杂的情况下,也能保持较高准确率,这对于实际使用具有重要意义。
最后,由于篇幅限制,此文仅列出了开幕致辞、中午休息前的演讲内容,我们将继续关注其他演讲嘉宾的情报报道,以满足读者对于最新科技动态的需求。