在声纹识别领域,技术的进步不断推动着这一领域的发展。近日,在昆山杜克大学学术楼一楼报告厅举办的「2019 年声纹识别研究与应用学术讨论会」,吸引了来自国内外的18位特邀嘉宾和60名企业代表齐聚一堂,共同探讨声纹识别技术。
会议由中国计算机学会和昆山杜克大学联合主办,由昆山市科学技术协会提供支持,并有清华大学媒体大数据认知计算研究中心、中国计算机学会语音对话与听觉专业工作组等多家单位作为协办方。这次大会以深度学习为主题,旨在探索最新的理论与实践,为行业内外提供交流平台。
开幕式上,昆山杜克大学学术事物副校长高海燕教授发表了热情洋溢的开场致辞,她强调了会议重要性,并感谢所有参会嘉宾。在此之后,俞凯教授作了简洁明快的致辞,他介绍了本次会议安排,并期待大家在接下来的时间里享受一次充满知识和激情的交流盛宴。
会议分四个环节进行,其中第一个环节是关于深度学习在声纹识别中的应用。首先,上台的是李明教授,他分享了一篇题为「基于端到端深度学习的人工智能说话人验证系统」的论文。他指出,不仅语音包含语言信息,还蕴含说话人的各种属性信息,如语种、性别、年龄、情感等。通过提出的几项创新方法,比如字典池化编码层替代平均池化层,以及结合注意力机制的一种 CNN-BLSTM 网络框架,这些都极大地提高了系统性能。此外,他还提出了一种长度归一化机制,使得后端仅需使用余弦相似度就能实现较好的结果。
随后,是张鹏远博士生导师从短时语音中提取说话人特征向量方面进行分享。他强调,以往基于统计建模的声音信号处理对于短时语音不足以捕捉到足够信息,因此需要一种新的方法来解决这一问题。张鹏远团队提出了一种双路神经网络模型,从多个时间尺度上对说话人的信息建模并融合不同尺度特征,以达到互补效果。此外,他们还利用区分性学习方法最大化类间差异同时最小化类内差异,将低维向量映射至更具区分性的空间,从而提升系统性能。
最后,上台的是宋彦副教授,他谈到了如何改进现有的深度说话人识别方法。他提出三种改进措施:密集空洞卷积帧级特征提取、跨层双线性池段级特征映射以及优化目标实现端到端说话人验证。此这些策略可以显著提升系统性能并减少错误判决率。
第二个环节涉及对抗学习及其在声音信号处理中的应用。西北工业大学谢磊教授分享了他团队使用生成式对抗网络(GAN)来增强口音自适应能力和降噪鲁棒性的经验。他解释说,对抗学习不仅用于图像处理,而且已经被运用于语音领域,如口腔自适应或信道自适应,可以通过多任务训练和梯度反转层来提高效率。此外,对抗样本攻击也被用于测试分类器稳定性,有助于防止错误识别的情况发生。在TTS 语音合成中,该思想也可以用来去除噪声影响,使得生成的声音更加自然无缝连接用户意图。
接着,厦门大学洪青阳副教授展示了他的研究成果,即利用对抗多任务学习设计一种能够抵御噪声干扰且具有高鲁棒性的声音验证模型。他介绍说,在实际环境中,无论是中文还是英文数据,都可能带有不同的噪声干扰,因此必须开发出能够有效抵御这些干扰的声音验证算法。通过设计一个包含三个部分—编码器(encoder)、说话人分类器(speaker classifier)以及判别器(discriminator)的网络结构,他们成功地训练出了具有高度噪声鲁棒性的 speaker embedding,这一点在实验中得到证实,其表现尤其突出是在不同类型混杂环境下的表现力质保好结果质量保持不变甚至有所提升。
最后,是中国科学技术大学杜俊副教授讲述他团队针对未来的方向展望及挑战分析。在未来,我们将面临更多复杂的情景需求,比如如何确保安全?或者如何让我们的AI更懂人类?这些建议都是为了使我们准备好迎接即将到来的新时代,而不是简单地停留于过去的话题。
总之,“2019年VoicePrintRecognitionConference”是一个催生新思维、新科技、新商业模式的大舞台,每个人都能从这里获得启示,同时也是交流意见的一个机会,让我们一起见证这个快速发展前沿科技领域!