大模型这把“火”，烧到了人形机器人

2024-02-02 10:47

读懂财经

关注

如果大模型是雷神之锤，那么适合它的钉子在哪？过去一年里，所有人都在急切地寻找这个问题的答案。人形机器人，可能是所有科技公司为数不多的一个共识。

近日，据外媒报道，微软与OpenAI正洽谈参与人形机器人公司Figure的新一轮融资，本轮融资金额最高可能达5亿美元。

这已经是OpenAI出手投资的第二家人形机器人公司。这并不是孤例。几乎所有布局大模型的人和公司，都在研究人形机器人有着浓厚的热情，并投入了研究资源。从英伟达到谷歌，从亚马逊到Meta，甚至包括马斯克，莫不是如此。

作为一个曾经经历几度起伏的高科技技术，市场对人形机器人的热情被AI 大模型彻底“点燃”。正如很多人预期的那样，在在生成式AI通过AGI（人工通用智能）的道路上，人形机器人是不可或缺的重要硬件载体。

人形机器人，正在重新回到熟悉的聚光灯下。

/ 01 / 机器人热情由来已久

此次投资Figure，并不是OpenAI第一次投资人形机器人公司。去年3月，来自挪威的人形机器人初创企业 1X Technologies（简称：1X），获得了一轮由 OpenAI 创业基金领投的 2350 万美元融资，成为了 OpenAI 投资的第一家硬件公司。

OpenAI的初创企业基金全称是“OpenAI Startup Fund”，投资方向更侧重于率先实现AI技术落地的方向。这也是OpenAI投资1X的重要逻辑。OpenAI一名高管曾公开表示，“投资1X瞄准的时机是其机器人硬件已经成熟，能够在AI的加持下开拓更广泛的劳动力市场。”

如今，再次加注机器人赛道，说明OpenAI对人形机器人赛道的高度看好。作为人形机器人领域领先的创业公司，1X和Figure都已经推出了人形机器人的产品。

其中，1X共有两款机器人产品，工作机器人EVE和正在研发的家用双足机器人NEO。而Figure也在去年发布了第一款通用人形机器人Figure 01，目前Figure已经与宝马达成协议，将在汽车制造领域部署“通用人形机器人”。

机器人NEO

事实上，OpenAI对人形机器人的热情由来已久，比大家想象得更高，甚至OpenAI还一度专门在内部成立了一个机器人部门。

早在2017年，OpenAI的机器人团队，就发布过用于模拟机器人控制的开源软件Roboschool。2018年，团队研发出来的机械臂已经能自如地“盘核桃”，即灵活把玩木块。当然，OpenAI机器人团队最著名的研究，是它研发的机械手，单手就能拧魔方：

当然，对人形机器人情有独钟的大模型企业还不止OpenAI。一个有趣的现象是，几乎每一个在大模型领域有所建树的企业，都或多或少地布局了人形机器人。

就拿谷歌来说，去年10月DeepMind发布RT-X机器人大模型，并开放训练数据集Open X-Embodiment。今年1月，谷歌DeepMind团队和斯坦福大学华人团队合作研发的能炒菜、做家务的通用机器人Mobile ALOHA刷屏全网。

至于马斯克就更不用说，去年7月成立了一家名为X.Al的人工智能公司，今年年底，特斯拉推出了人形机器人擎天柱，并有望在明年实现交付。

AI大模型落地过程中，人形机器人究竟扮演着怎么角色，能够受到这么多的青睐？

/ 02 / 人形机器人，AGI的“答案”？

在说大模型与人形机器人关系之前，我们需要先对什么是人形机器人有一个认知。

必须明确一点的是，机器人并不是一个新兴事物。在人形机器人出来之前，工业机器人已经是一个超过500亿的市场，并广泛应用于汽车、3C、纺织、包装等行业。

但是工业机器人也有很明显的弊端，就是通用性不足。传统的工业机器人并不能直接使用，需要被系统集成商集成后使用。机器人的系统集成不仅需要结合对客户工艺的理解高度定制，同时也是严重依赖工程师的经验。这注定了工业机器人适用于大规模、重复性生产的工作。

与其说，工业机器人是机器人，倒不如说其更像是自动化设备。在这一点上，人形机器人无疑更接近我们对机器人的理解。

人形机器人，顾名思义就是形态更接近人的机器人。但外在的形态不过是表象，其内核的特点是机器人的智能性和通用性。之所以选择“人形”，只是因为我们活动的世界是为人的身体所创造的，人的形态可以操作一切工具，具有最广泛的适应性。

从物理维度上说，人形机器人由三个模块组成，分别是“肢体”“小脑”和“大脑”，其中“肢体”由灵巧手、传感器等一系列硬件组成，“小脑”负责运动控制，“大脑”则主导机器人的环境感知、推理决策和语言交互。

而大模型的出现，将语义理解能力和推理生成能力引入其中，相当于给人形机器人换了个“大脑”。大模型对人形机器人的提升主要体现在两个方面：感知能力和思考决策能力。

先说感知能力，大模型的强拟合能力使得人形机器人在进行目标识别、避障、三维重建、语义分割等任务时有可能实现更高的高精确度。举个例子，现在AI已经可以做到识别障碍物，但是如果路边有个人举个牌子，说前方桥断请绕行。过去的AI很难理解这种情况，但基于大模型的人形机器人却有可能识别、理解这些信息。

思考决策能力的意思是，人形机器人具备较好的知识完备性，能够把一个指令拆解成多个子任务和子指令，在不同场景去完成各种任务。比方说，你和机器人说“把饭热一下”，它知道要去找微波炉。

随着谷歌、英伟达等公司对大模型+机器人探索的深入，上述积极影响也得到了证实。2022 年 12 月，谷歌发布了RT-1模型。这是一个基于机器人数据的端到端模型，输入端是一小段图像序列和用文本描述的任务，输出端是动作指令，包括7个维度的手臂动作指令、3个维度的基础移动指令和1个维度的状态切换指令。

研究人员让机器人执行了超过 700 项任务，结果显示:在之前见过的场景、之前未见过的场景、被干扰场景、背景更换场景，搭载 RT-1 模型的机器人都展现出了更高的成功率。

值得一提的是，这是机器人首次通过庞大的、多样化的、任务无关的数据，展现出泛化性，执行了一些未曾见过的任务。

去年7月，谷歌发布了RT-2，这是一个视觉—语言—动作模型。在这个模型里，谷歌将参数量从35M提高到55B。研究人员对RT-2模型进行了和RT-1一样的测试。结果显示，RT-2的理解能力、推理能力、针对未知场景的泛化能力都显著优于RT-1模型。

可以说，基于大模型的AI技术让人形机器人通用化变成了可能。而人形机器人作为一个硬件载体，也让生成式AI距离AGI的目标越来越近了。

/ 03 / 重新回到聚光灯下

尽管引入大模型后拥有了“常识”，并带来了一定的泛化能力，解决了自然语言理解和任务规划的两大难题，也有越来越多公司发布人形机器人，似乎这一切离我们越来越近了。但我们必须清醒认识到：人形机器人距离真正落地仍然有很长的路要走。

大模型对人形机器人智能化的突破固然可喜，但并不解决机器人硬件层面的难题。人形机器人的操作能力和移动能力需要借助硬件本体的硬件和算法来实现，但在过去50年的人形机器人研究历程中，这个难关一直没有被攻克。

比如，扫地机器人能通过底盘滑动前行，四足机器狗可以靠四肢保持稳定和平衡，但人形机器人只有两条腿，行动时只能依赖一条腿保证整个身体的稳定和平衡。大模型对物理运动能力的帮助是有限的。

对于人形机器人公司来说，另一大挑战是数据。人形机器人的模型训练需要大量决策数据做支撑，如果数据不够，输出的结果会容易漂移，成功率也会受影响。

目前，遥操作数据是各家机器人收集数据的重要方法，操作逻辑是先学习和分解人是怎么做到的，然后对应机器人要怎么做到。由于采用的是真实世界数据，数据质量最高，但采集成本也很高。比如，谷歌用于训练 RT-1 和 RT-2 的机器人数据是历时超过17个月在13个机器人上收集而来。当年，OpenAI解散了旗下的机器人团队，获取收集难度大就是一个重要原因。

这也是大模型企业都在布局人形机器人的原因。借助机器人的硬件本体，AI可以更多的接触外界信息，这些数据也有反哺AI算法的可能性。比如，特斯拉的自动驾驶汽车在高速路上积累的数据，哺育了 FSD 的算法系统，提供了最基本的数据基础。

尽管有着种种问题，但还是无法阻挡越来越多大模型公司冲入人形机器人赛道。很多人把去年称为，人形机器人真正产业化的元年。但已经少有人记得，2016年那波人形机器人热潮，潮水褪去，最后活下来的所谓人形机器人公司寥寥无几。

当一项超出想象的新技术开始真正走向商业化，面世之初的震撼会很快消退。参与公司需要一边接受商业规律的检验、一边推动技术走向成熟。个人电脑、互联网行业都经受住这样的考验，进而重塑了整个世界。人形机器人曾几度突围、几度停滞，现在借着大模型的风口，新一批公司又到了这个阶段。