在深度学习的浪潮下,语言之间的语音对话不再是遥不可及的梦想。传统方法通常将任务分解为三个步骤:源语言语音识别、文本翻译和目标语言语音合成。这些模型各自已相当成熟,现有软件如谷歌翻译,以及硬件设备如科大讯飞翻译机,都能实现高效多语种互译。但研究从未停歇,谷歌团队提出了一个革命性的尝试——直接将一种语言的语音转换为另一种语言的语音,而无需中间文本表示。
他们在论文“Direct speech-to-speech translation with a sequence-to-sequence model”中提出了一种新的端到端模型,即Translatotron。这是一个集成了三项功能于一体的系统,它可以直接处理来自不同源语言的声音,并生成相应目标语言的声音频谱图。这个过程涉及两个独立训练的小组件:一个声码器将输出转换为时域声音波形;另一个可选组件用于保留说话人的个性化特征。
为了训练此模型,研究人员采用了多任务并行学习技术,其中包括预测源言语转文本、文本翻译以及目标言语频谱图。在训练完成后,这些辅助任务被弃用,只剩下最终结果——直接从一种言语到另一种言语的声音转换。
虽然该模型尚未达到传统三步法之上,但其性能已经令人印象深刻,并证明了端到端直观翻译可能性的可能性。此外,该系统还能够通过额外模块保持原始说话人声音特点,使得输出听起来更加自然而非生硬。
值得注意的是,由于这项技术仍处于初期阶段,其准确率和流畅度可能与传统方法相比存在差距。不过,以往的一系列改进方案,如使用弱监督数据等策略,为未来进一步提升表现奠定了基础。而现在,我们正站在这一重要创新门槛上,看待它如何在实践中展开,将会是科技界持续关注的话题之一。