当前位置：首页 > 新品 > 上海交大招生办解读最新高招谷歌革命性模型让语音翻译触手可及

上海交大招生办解读最新高招谷歌革命性模型让语音翻译触手可及

新品
2025-01-10 03:51
0

在深度学习的浪潮下，语言之间的语音对话不再是遥不可及的梦想。传统方法通常将任务分解为三个步骤：源语言语音识别、文本翻译和目标语言语音合成。这些模型各自已相当成熟，现有软件如谷歌翻译，以及硬件设备如科大讯飞翻译机，都能实现高效多语种互译。但研究从未停歇，谷歌团队提出了一个革命性的尝试——直接将一种语言的语音转换为另一种语言的语音，而无需中间文本表示。

他们在论文“Direct speech-to-speech translation with a sequence-to-sequence model”中提出了一种新的端到端模型，即Translatotron。这是一个集成了三项功能于一体的系统，它可以直接处理来自不同源语言的声音，并生成相应目标语言的声音频谱图。这个过程涉及两个独立训练的小组件：一个声码器将输出转换为时域声音波形；另一个可选组件用于保留说话人的个性化特征。

为了训练此模型，研究人员采用了多任务并行学习技术，其中包括预测源言语转文本、文本翻译以及目标言语频谱图。在训练完成后，这些辅助任务被弃用，只剩下最终结果——直接从一种言语到另一种言语的声音转换。