美国机器人捡快递,给中国机器人上了一课?
2026-05-25 17:24

原创首发 | 金角财经(ID: F-Jinjiao)
作者 | Chester
中美机器人,到底谁更强?
前段时间,硅谷机器人公司Figure AI 搞了一场持续了200小时的慢直播,把三台人形机器人直接扔进真实物流仓库,让它们翻来覆去地做一件极其枯燥的工作:把传送带上的快递包裹翻转过来,使面单朝下,方便扫码识别。
直播后半段,他们甚至安排了一场“人机对决”:让机器人与一名人类实习生连续比拼分拣效率长达十小时。
最终,人类以微弱优势险胜,代价是双手磨出水泡、前臂近乎麻木。机器人则在短暂的系统停顿后,神色如常地继续运转。

与此同时,在太平洋彼岸,中国的人形机器人正在集体“进厂打工”。
优必选开进了比亚迪与吉利的产线,银河通用入驻了宁德时代,智元扎进了3C电子制造基地,小鹏与小米也纷纷将自家机器人送入汽车工厂实训。过去一年,中国机器人行业最核心的叙事极其明确:谁能率先切入真实生产环境,谁就能率先抢占工业落地的制高点。
相比之下,美国机器人公司的的场景选择,看起来甚至有些“低端”。难道说美国机器人真不如中国机器人更“能干活”,还是在刻意制造噱头?
或者换个问法:一件看起来再普通不过的分拣快递工作,为什么值得Figure 花200小时直播、甚至拿来验证人形机器人的能力边界?
分拣快递并不简单
单看动作表面,Figure AI 挑选的场景确实不够“高科技”。
翻包裹、调整面单方向、放上传送带,任何一个熟练的物流临时工,经过短时间培训都可以完成。
但在人形机器人领域,这恰恰是最难的一类任务之一。原因在于:它几乎没有“标准答案”。
汽车工厂提供了一个高度结构化的世界:螺丝坐标固定,工序标准规范,力矩、轨迹与节拍全都可以被数学公式精确建模。相比之下,物流仓库则是一个充满混乱的动态环境。包裹的材质、尺寸、重量完全随机,摆放姿态毫无规律,更致命的是,包裹流高频连续涌入,将机器人的决策时间窗口压缩到了极限。
机器人必须抛弃预设的动作脚本,在毫秒级时间内跑完一整套闭环决策链:依靠视觉锁定目标、推算空间位姿、权衡抓取策略、输出柔性力控,并在感知到失败时瞬间重构路径。
这项任务的核心,在于让机器人在持续变化的环境中维持稳定的泛化决策能力。
从直播表现来看,Helix 系列机器人在面对不同类型包裹时,已经开始呈现一定程度的策略分化:软包倾向轻捏抓取,纸箱或刚性结构则更多采用双手托举,并在部分情况下根据重心变化调整动作路径。
这些细节显示出一个重要转变:机器人正在逐步摆脱死板的预设轨迹,开始走向具备自主性的“动作选择”。
不过,相比那些行云流水的成功分拣,直播中毫无保留、悉数放出的失败瞬间蕴含着更大的行业价值。
在直播中,Helix 02 多次出现抓空、掉落、包裹滑出传送带、面单方向误判等情况;在连续失败之后,系统甚至会出现短暂停滞或重启,而新的包裹仍在不断进入流水线。
这些在传统商业演示中通常会被剪掉的画面,在这次直播中被完整呈现出来。
更具争议的一幕发生在部分操作过程中:Helix 02 曾出现类似“挠头”的动作,引发外界对其是否存在人工遥操作的质疑。对此,Figure AI 创始人 Brett Adcock 的解释是,该动作出现在跨越身体作业时,用于避免手臂与金属结构发生碰撞。

戏剧性的是,这场舆论风暴反而坐实了整场直播最硬核的标签:真实。
人类远程操控的错误通常具有较强“人类行为特征”,而当前机器人暴露出的错误模式,则更机械、更重复,也更缺乏即时修正逻辑。这种“非人类式失误”,在某种程度上反而增强了其未被接管的可信度。
但无论如何解释,这些不完美的片段共同指向同一个事实:人形机器人至今仍未啃下“稳定掌控非标准工作环境”这块硬骨头。
站在工程学视角,这些错误异常宝贵,构成了训练数据的关键来源。模型的进化速度,很大程度上正是由这些失败、偏差和重试轨迹所决定的。
因此,这场直播真正暴露的并不是机器人“能不能做对”,而是在没有标准答案的现实世界中,它能否持续工作,并在失败中不断修正自身行为。
如果说传统工业机器人旨在死磕“确定性的动作复制”,Figure此时展现的,则是一个面向开放世界的“自适应行为系统”。
而这,正是通往真正具身智能的必经之路。
中国机器人集体进厂
与美国选择分拣快递不同,中国人形机器人正在迅速进厂。
今年春晚上的机器人,就像小时候不得不在亲戚聚会时展露才艺的孩子,厂商们作为这群“孩子”的“最严厉的父亲”,似乎很担心别人“光会耍把式,不会干活”的评价。热闹过后,转身就把机器人送进了工厂。
今年登上春晚的银河通用Galbot S1,进的是“大厂”宁德时代,工友里还有刚过完年融资20亿元、估值冲上百亿元的千寻智能“小墨”;优必选的 Walker S 系列,则陆续进入比亚迪、极氪、吉利等车企产线。
有进“大厂”的,也有选择先在“自家体系”解决就业问题的。
拥有两位华为系高管背景的智元,与华为供应商龙旗科技合作,让智元精灵G2 进入全球首个具身智能工业产线进行 3C 电子制造;小米的 CyberOne,则直接走进了雷军曾多次公开展示的小米汽车工厂;去年一度被网友质疑“真人穿皮套”的小鹏 IRON,也在广州的小鹏 P7 产线开始实训。
从产业逻辑看,这并不是偶然选择。
中国坐拥全球最完整的制造业体系,汽车、3C、新能源产业链高度密集,天然为机器人提供了可供规模化验证的试炼场。在这个场域里,机器人得以暂时避开开放世界的极端不确定性,专注于在标准化的稳态流程中疯狂刷取数据、饱和优化动作、迭代基础系统。
此外,汽车制造与机器人底层技术具备高度的同源性:传感器物理体系、高精度运动控制、路径规划算法以及工业视觉能力,均能实现无缝迁移与平滑倒灌。这让“进厂”摆脱了单纯的商业作秀,进化为一种极其务实的工程路径延伸。
美国在尝试让机器人硬抗现实世界的不确定性,中国则倾向于利用庞大的工业体系,为机器人人为构建一个高度可控、可训练的现实世界。
然而,产线是进去了,活到底是不是机器人自己干的?实际综合效率如何?有没有后台人工接管?KPI又该怎么核算?这些尖锐的质询,瞬间演变为海内外机器人厂商共同面对的信任大考。
面对作秀质疑,优必选曾发布Walker S2 的一镜到底交付视频,用长镜头死磕真实性;智元也曾在龙旗科技的具身工厂进行了长达 8 小时的不间断直播,毫无保留地公开了机器人的连续作业路径。
而在大洋彼岸,面对同样的真实性危机,Figure AI 的回应方式则显得侵略性十足。
早在今年3 月,马斯克曾在社交媒体上公开质疑 Figure AI 发布的机器人家务视频真实性,Figure AI 创始人 Brett Adcock 当即强硬回击。

到了5月13日,机器人领域专家Scott Walter又提出:只有当人形机器人能够以接近人类节奏连续自主工作8小时、不依赖人工干预时,才真正具备有限实用价值。
当天,Brett Adcock直接回应称:Figure AI已经每天达到这一标准。
在Scott Walter继续追问证据后,第二天,Helix 02机器人的“监工”直播,正式开启。
谁先跑出来
表面上看,美国主攻仓储分拣,中国死磕工厂落地,两者似乎并不在同一个维度竞争。但真正的技术分界线不在于场景选择,而在于能力目标的底层设定。
人形机器人行业正在达成一项共识:决定未来胜负上限的,不再是关节控制精度或硬件极限性能,而是“泛化能力”:即机器人面对完全陌生的任务与环境时,所表现出的迁移和自适应能力。
技术终点,是让机器人从“学会做某一件特定的事”,质变为“彻底理解如何做事”。
从这个角度看,无论是Figure 的物流仓库,还是中国的汽车产线,本质上都在回答同一个技术命题,只是各自挑选了不同的破局切口。
美国倾向于通过开放环境主动释放复杂性,逼迫机器人在混乱的现实中自行摸索稳定运行的法则;中国则偏向于利用工业场景建立高频、稳定的正向反馈系统,让机器人在高频重复的吞吐中完成原始能力积累。
前者倾向于“野外放养”,后者则更像“魔鬼训练营”。
路径的差异,必然伴随着各自的系统级风险。开放环境伴随着失控的概率,但它无限逼近真实世界的物理本质;工业环境拥有极高的可控性与确定性,却极易给泛化能力的向外延展戴上枷锁。
这也正是当前全球学术界与产业界争论的暴风眼。
但有一点毋庸置疑:机器人正在完成从“执行工具”向“任务主体”的身份蜕变。过去人类对机器人的要求是精准做出动作,现在的要求则是深度理解任务。
这一跨越,意味着整个行业的竞争维度发生了根本性的转变。当机器人开始直面真实世界的复杂巨系统时,决定其能力上限的底层逻辑,正由单点硬件技术的突破,转向系统级的端到端学习能力。
正因如此,全行业的筹码正在重仓押注“具身智能”。
宇树科技在招股书中明确将具身大模型作为核心方向;自变量机器人展示零样本环境下的抓取能力;Figure 强调端到端视觉-动作模型(VLA)的持续训练。
大家表面上在做不同的产品形态,底层的技术准星全部瞄准了同一个终极靶心:让机器人具备在完全未知环境中自主拆解并完成任务的能力。
过去那些带有表演性质的炫技动作,诸如高动态人机协同、复杂地形穿越、高空翻跃等,如今正在被全行业重估。这些极限科目的训练核心,在于拉满机器人系统对物理世界不确定性的“抗噪能力”与技术容忍度。
回到最初的那个问题:美国机器人真的在做更简单、更低端的工作吗?
单看动作本身,确实如此。物流分拣的技术听感远不如汽车精密装配来得高级。但如果从终局来看就会发现,这个100小时的直播可能被低估了。
真正的问题并不是“谁在做更复杂的工作”,而是谁在更早进入一个关键阶段:让机器人在真实世界中,学会如何不确定地工作。
在这个层面上,分拣快递和进厂打工绝无高低贵贱之分,它们只是两种截然相反的练兵策略:一个试图无限逼近现实世界的复杂上限,一个试图通过人为构建可控环境来哺育智能。
至于哪一条路径能率先引爆具身智能的奇点,或许每个人心中都有自己的答案。
参考资料:
AI科技评论《Figure 机器人直播干活一整天,效果越惊艳,质疑越凶猛》
金角财经声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担!
