谷歌DeepMind发布新型机器人人工智能模型

机器人
2025-03-27 05:53
0

谷歌旗下的DeepMind公司在人工智能领域再次取得重大突破，于昨日正式发布了两款专为机器人设计的人工智能模型：Gemini Robotics和Gemini Robotic-ER。这两款模型的问世，标志着谷歌DeepMind在推动机器人技术智能化、提升机器人在现实世界任务中的执行能力方面迈出了关键一步。据DeepMind官方介绍，Gemini Robotics和Gemini Robotic-ER是基于大型语言模型的推理能力而开发的，旨在帮助机器人更好地适应复杂多变的环境，完成各种现实世界中的任务。其中，Gemini Robotics是一款视觉-语言-动作模型，它不仅能够概括新场景，还能更善于与人和环境互动，执行更精确的物理任务，如折叠纸张、拧下瓶盖等。该模型在通用性、交互性和灵活性三大关键领域表现出色，能够理解广泛的自然语言指令，并根据输入调整行为，持续监控周边环境以检测变化，从而调整动作。而Gemini Robotic-ER（即具身推理）则是一款具备增强空间理解能力的先进视觉-语言模型。它能够使机器人专家利用Gemini的具身推理能力运行自有程序，完成更为复杂的推理过程。例如，在打包午餐盒时，Gemini Robotic-ER能够知道所有东西的位置，以及如何打开午餐盒、抓取食物并将它们放在合适的位置。这一特性使得机器人在处理复杂任务时更加得心应手。 DeepMind表示，要成为对人类有用的机器人AI模型，必须具备三大核心特质：通用性、交互性和灵巧性。新发布的这两款模型正是基于这些特质而设计的，它们能够让多种机器人执行比以往更广泛的现实任务，从而帮助人类在家庭、职场等场景中更好地与机器人协作。在技术层面，Gemini Robotics的综合泛化性能是现有最先进视觉-语言-动作模型的两倍以上，这得益于DeepMind在算法优化和模型训练方面的深厚积累。而Gemini Robotic-ER则在安全性方面进行了重点考虑，DeepMind正在开发一种“分层方法”，以评估在特定情境下潜在行为的安全性，并训练Gemini Robotic-ER模型进行相应判断。此外，DeepMind还发布了新的基准和框架，以助力人工智能行业的安全研究。去年，谷歌DeepMind推出了“机器人宪法”，这是一套受艾萨克·阿西莫夫启发的规则，供机器人遵循。此次发布的两款模型也将在这一框架下进行运作，以确保其在执行任务时始终遵循安全、可靠的原则。