谷歌旗下的DeepMind公司在人工智能领域再次取得重大突破,于昨日正式发布了两款专为机器人设计的人工智能模型:Gemini Robotics和Gemini Robotic-ER。这两款模型的问世,标志着谷歌DeepMind在推动机器人技术智能化、提升机器人在现实世界任务中的执行能力方面迈出了关键一步。 据DeepMind官方介绍,Gemini Robotics和Gemini Robotic-ER是基于大型语言模型的推理能力而开发的,旨在帮助机器人更好地适应复杂多变的环境,完成各种现实世界中的任务。其中,Gemini Robotics是一款视觉-语言-动作模型,它不仅能够概括新场景,还能更善于与人和环境互动,执行更精确的物理任务,如折叠纸张、拧下瓶盖等。该模型在通用性、交互性和灵活性三大关键领域表现出色,能够理解广泛的自然语言指令,并根据输入调整行为,持续监控周边环境以检测变化,从而调整动作。 而Gemini Robotic-ER(即具身推理)则是一款具备增强空间理解能力的先进视觉-语言模型。它能够使机器人专家利用Gemini的具身推理能力运行自有程序,完成更为复杂的推理过程。例如,在打包午餐盒时,Gemini Robotic-ER能够知道所有东西的位置,以及如何打开午餐盒、抓取食物并将它们放在合适的位置。这一特性使得机器人在处理复杂任务时更加得心应手。 DeepMind表示,要成为对人类有用的机器人AI模型,必须具备三大核心特质:通用性、交互性和灵巧性。新发布的这两款模型正是基于这些特质而设计的,它们能够让多种机器人执行比以往更广泛的现实任务,从而帮助人类在家庭、职场等场景中更好地与机器人协作。 在技术层面,Gemini Robotics的综合泛化性能是现有最先进视觉-语言-动作模型的两倍以上,这得益于DeepMind在算法优化和模型训练方面的深厚积累。而Gemini Robotic-ER则在安全性方面进行了重点考虑,DeepMind正在开发一种“分层方法”,以评估在特定情境下潜在行为的安全性,并训练Gemini Robotic-ER模型进行相应判断。 此外,DeepMind还发布了新的基准和框架,以助力人工智能行业的安全研究。去年,谷歌DeepMind推出了“机器人宪法”,这是一套受艾萨克·阿西莫夫启发的规则,供机器人遵循。此次发布的两款模型也将在这一框架下进行运作,以确保其在执行任务时始终遵循安全、可靠的原则。