大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来过去一年中,连连取得突破的大模型正在重塑机器人研究领域。在最先进的大模型成为具身机器人感知世界...

贴文 2个月前
420 0

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

过去一年中,连连取得突破的大模型正在重塑机器人研究领域。

在最先进的大模型成为具身机器人感知世界的「大脑」之后,机器人的进化速度取得了远超想象的进步。

7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 – 语言 – 动作(VLA)模型。

只需要向对话一样下达命令,它就能在一堆图片中辨认出霉霉,送给她一罐「快乐水」。

甚至能主动思考,完成了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。

在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,机器人界也有了自己的 Transformer 。Q-Transformer 使得机器人突破了对高质量的演示数据的依赖,更擅长依靠自主「思考」来积累经验。

RT-2 发布仅两个月,又迎来了机器人的 ImageNet 时刻。谷歌 DeepMind 联合其他机构推出了 Open X-Embodiment 数据集,改变了以往需要针对每个任务、机器人具体定制模型的方法,将各种机器人学的知识结合起来,创造出了一种训练通用机器人的新思路。

想象一下,只需向你的机器人小助理发出「为我打扫房子」或「为我们做一顿美味健康的饭菜」等简单的要求,它们就可以完成这些工作。打扫房间或做饭这种任务,对于人类来说很简单,但对于机器人来说,可真不容易,需要它们对世界有深度理解。 网页链接

暂无评论

暂无评论...