: 首页; 看点啥; 插画图片

首页电脑数码香港中文大学、上交大联合研究团队让机器人看懂人类双手动作

香港中文大学、上交大联合研究团队让机器人看懂人类双手动作

2026-06-20 0

这项研究由ACE Robotics、香港中文大学多媒体实验室（CUHK MMLab）、深圳香港中文大学、上海交通大学以及清华大学联合完成，论文于2026年6月发表，arXiv编号为2606.17200，感兴趣的读者可以通过这个编号查阅完整论文。

机器人是个很挑剔的学生。它要学会"抓杯子"这个动作，你就得手把手地带着它练习几百次，每一次都要精确记录它的手臂去了哪里、转了多少度、手指捏紧到什么程度。这个过程不仅费时费力，还极其昂贵。相比之下，世界上每天有数以亿计的人在做各种各样的家务、烹饪、整理——这些动作都被摄像头记录下来，形成了庞大的视频资源库。

问题是，人的手和机器人的手臂完全不一样：人有五根手指、手腕能灵活扭转，而机器人通常是金属夹爪；人的视频是从第一人称视角拍摄的，动作坐标系和机器人实验室里的完全不同；人体运动从视频里"估计"出来的轨迹数据本身就带有噪声和误差，把这种"不太准"的数据直接喂给机器人，很可能教出坏习惯。

研究团队把这个挑战拆解成两个核心问题：一是如何让人类视频和机器人数据"说同一种语言"，二是如何在混合训练时不让那些嘈杂的人类动作数据把机器人的好习惯带坏。他们给出的答案叫做ACE-Ego-0，一套把人类双手动作视频和机器人操作数据统一整合进同一套训练体系的框架，最终在多个权威基准测试上刷新了最好成绩，并在真实双臂机器人平台上展示了令人印象深刻的实际操作能力。

一、为什么机器人学动作这么难，人类视频又为什么是"宝藏"

要理解这项研究解决的问题，可以先考虑这样一个场景：你要教一个从来没见过厨房的人学做饭。最直接的方法是站在他旁边，每一个步骤都亲自示范——这对应的就是现在机器人学习最常用的"遥控演示"方式，工程师用操纵杆手动控制机器人完成任务，同时记录每一帧的精确动作数据。这种方法效果不错，但成本很高：你得预定一台机器人、一个实验室、一名熟练的操作员，然后一遍一遍地重复同一个动作。

现在换一种方式：把世界上所有做饭的视频都收集起来，让这个人先通过大量观看视频来建立对"做饭是什么感觉"的基本直觉，再用少量亲身练习来打磨细节。这正是这篇论文所探索的方向。互联网上有海量的第一人称（也就是从拍摄者自己眼睛视角录制的）人类操作视频——无论是Ego4D、EPIC-KITCHENS还是EgoDex这些公开的大规模数据集，记录了数千小时人们在厨房、家庭、工作间里用双手操作物体的真实场景。这些数据的覆盖范围远比任何机器人实验室能收集到的都要广泛，而且收集成本几乎可以忽略不计。

然而，直接使用这些视频训练机器人有三道门槛。第一道是坐标系不同：机器人记录的是自己相对于底座或者世界坐标原点的位置，而人类视频里的手部运动是相对于摄像头或者人体自身的。第二道是"身体结构"不同：人有肩膀、肘部、腕部、五指，机器人可能只有一个简单的夹爪，或者完全不同的关节配置。第三道是数据质量不同：从视频里通过视觉算法"猜"出来的手部三维位置，天然地比真实传感器记录的机器人关节数据噪声更大、误差更多。

在ACE-Ego-0之前，已经有一些研究尝试把人类视频用于机器人训练，但它们要么绕开了直接的动作级别学习（只学"看"而不学"做"），要么简单粗暴地把有噪声的人类动作估计值和精准的机器人传感器数据混在一起同等对待，这就像让一个偶尔会说错话的老师和一个精准无误的课本共同用同样的权重教学，难免造成混淆。

二、统一"语言"：三个维度上的对齐

ACE-Ego-0解决坐标系和身体结构差异的核心思路，可以用一个翻译的比喻来理解。不同国家的人说不同的语言，但如果大家都把各自的意思翻译成英语，就能在同一张桌子上沟通了。这里的"英语"就是头部摄像头坐标系：不管原始数据来自什么机器人平台或者什么人体视频，所有的动作轨迹都被统一转换到"从头部摄像头看出去的视角"下来描述。

对于机器人数据，这个转换相对简单：研究团队利用摄像头标定参数（一种描述摄像头位置和朝向的数学关系），把每一帧机器人手臂末端的位置和朝向，从机器人底座坐标系转到摄像头坐标系。就像你把一张用北京地图标注的位置，转换成用上海地图标注的同一个地方——坐标值变了，但描述的是同一个现实。这样做的好处是，当同一套训练好的模型被部署到一个新机器人上时，只需要提供新机器人摄像头的安装参数，就能直接使用，而不需要重新训练整个模型。

对于人类视频，挑战更大，因为人的手不是机器人的末端执行器（工具手）。研究团队用了一个聪明的替代方案：把手腕关节定义为"虚拟末端执行器"的原点，然后用手掌平面和腕部到手指的方向向量，构建一个稳定的手部坐标系，并把它转换成和机器人动作一样的表示格式。手指的开合程度则用拇指尖到手心的距离来近似模拟机器人夹爪的开合度，再缩放到机器人夹爪实际的物理行程范围内。这样，人类手部的运动就被"翻译"成了和机器人数据格式完全相同的动作向量。

最终，无论来自机器人还是人类视频，每一条数据都被表示为一个22维的双臂动作向量：左手和右手各11维，包含3维位置、6维朝向（使用一种在神经网络训练中更稳定的连续旋转表示方式）、1维夹爪开合度，以及1维"该手臂是否激活"的标志位。这个标志位的存在让模型能够同时处理只用一只手的任务和需要双手协作的任务，而不会产生混淆。

处理完空间维度的统一，还有一个容易被忽视的时间维度问题：不同机器人的控制频率差别很大，有的10赫兹（每秒控制10次），有的20赫兹，有的30赫兹。如果都预测"未来固定N帧"的动作，那么对10赫兹的数据来说N帧只覆盖1秒，对30赫兹的数据N帧却覆盖了3秒——同样的模型预测的物理时间长度完全不同，这就像让一个运动员按照"跑50步"的指令训练，但有人穿着大步鞋、有人穿着小步鞋，结果跑出的距离千差万别。

ACE-Ego-0的解决方案是"按物理时间切块"：设定一个固定的目标时间窗口（比如2秒），然后根据每个数据集的控制频率，计算出这2秒内该有多少帧，以此确定每个数据集的动作预测长度。这样所有数据集预测的都是"未来2秒内的动作"，时间意义上完全可比。

结构差异则通过一个叫"形态条件化"的机制来处理。每个机器人都有自己的URDF文件（一种描述机器人关节结构、运动范围和物理尺寸的标准格式文件，类似机器人的"身份证"），研究团队构建了一个图神经网络编码器，把这个URDF文件解析成一个紧凑的"形态令牌"——你可以把它理解成一张简历，概括了这个机器人的手臂有多长、关节能转多大、哪些关节和操作最相关。对于人类视频，则用一个可训练的替代嵌入向量来扮演这个角色，这个向量在训练过程中自动学习如何描述"人类这种特殊的操作者"。这些形态令牌只注入到动作预测模块，而不影响视觉语言理解的骨干网络，保证了视觉理解能力的通用性。

三、有噪声的老师：可靠性加权的辅助损失函数

解决了表示对齐的问题，还剩下最棘手的一关：如何在训练时不让人类视频数据的噪声污染机器人数据建立起来的精确控制能力。

研究团队把这个问题处理得颇为精细。他们设计了一套叫做"可靠性感知训练目标"的机制，核心思想是：不同来源的数据、不同的动作维度、甚至同一段视频里不同时刻的帧，可靠性是不一样的，训练时的权重也应该不一样。

具体来说，每一个动作维度都有一个静态的"通道级可靠性先验"：位置信息（手在哪里）在三维视觉重建中相对可靠，被赋予满权重1.0；而手腕的旋转方向和手指的开合程度受遮挡影响很大，估计误差更多，被赋予极低的权重0.001。这意味着人类视频数据主要在"手往哪个方向移动"这一层面提供监督信号，而不去干扰机器人精确调校的旋转和抓握控制。

除了静态通道权重，还有一个动态的"逐步平滑度权重"：如果某一帧的手部位置相比前后帧突然跳变（超出该数据集统计分布的3倍标准差范围），就说明这一帧很可能是追踪失败或者估计异常，这一帧的权重会被自动压低。更进一步，每个人类视频数据集作为整体，都有一个"数据集级质量先验"，根据该数据集历史上通过质量过滤的帧比例以及轨迹的平滑程度来确定，质量更高的数据集整体权重更高。

这三层加权（通道级、步骤级、数据集级）相乘，得到最终的可靠性权重矩阵。人类视频数据通过这个加权后的Huber损失函数（一种对极端误差更鲁棒的损失函数，比均方误差更能抵抗偶发的大误差）提供辅助监督，而机器人数据走标准的流匹配损失函数作为主要监督信号。两者的权重比例通过一个超参数λ来平衡，实验中设定为0.1，即人类辅助损失的权重是机器人主损失的十分之一。

这种设计的效果在后面的消融实验中得到了清晰验证：如果把可靠性加权去掉，直接让人类视频数据和机器人数据平等地参与训练，平均成功率从72.8%下降到69.2%，跌幅是所有消融项中最大的，这直接证明了质量感知加权的必要性。

四、把5929小时原始视频变成1478小时"可用训练数据"的流水线

除了方法设计，论文还详细描述了把大规模人类第一人称视频转换成可用训练数据的完整工程流程，这条流水线共分五个阶段，每个阶段都有明确的过滤逻辑。

第一阶段是数据集筛选和标准化。研究团队从六个公开数据集中选取数据：Ego4D（覆盖全球各类日常活动场景，216.6小时）、EgoExo4D（同步第一人称和第三人称视角的活动数据，10.3小时）、EPIC-KITCHENS-100（厨房场景精细标注，32.3小时）、HOI4D（人物与物体交互的4D数据集，7.2小时）、EgoDex（专注于精细手部动作的大规模数据集，776.8小时）以及Xperience-10M（带有结构化三维四维标注的大规模第一人称数据集，435.7小时）。这六个数据集合计约5929小时。所有数据被统一整理成包含视频片段ID、帧索引、摄像头内参、动作描述文字等标准字段的格式，时长过短（不足4秒）或过长（超过30秒）的片段被直接丢弃。

第二阶段是视频筛选，目的是在做计算密集的三维重建之前，先用轻量级的方法去掉那些不含有效操作内容的视频。研究团队用人脸检测置信度作为一个关键过滤指标：如果一段视频里频繁出现清晰的人脸，说明这很可能不是第一人称视角，而是对他人的观察视角，这类视频被剔除。剩下的视频再通过图像字幕模型进行语义过滤，只保留那些描述文字中同时包含"操作动词"（比如抓取、放置、切割）和"可操作物体名词"（比如杯子、刀、盒子）的片段，确保留下来的都是真实的操作行为片段。

第三阶段是三维手部重建，是技术含量最高的一环。首先用SAM3这个追踪模型在整段视频中稳定地追踪左右手的位置，滤掉关键点置信度过低或追踪时长过短的结果。然后把追踪到的手部区域送入HaMeR这个三维手部重建模型，逐帧估计手部的三维形状和姿态参数。由于逐帧重建会受到深度模糊、遮挡和时间抖动的影响，还需要第三步的全局轨迹优化：用一个两阶段的数值优化算法，在最小化二维关键点重投影误差的同时加入时间平滑正则化项，让整段轨迹在时间上更加连续和合理，同时借助VIPE这个视频三维感知引擎估计出的每帧摄像头位姿，将所有局部重建结果整合到一个一致的世界坐标系下，最后再转回到头部摄像头坐标系存储。

第四阶段是动作参数化，把重建出的手部三维轨迹转换成前面提到的22维统一动作格式，包括位置、朝向的转换和夹爪开合度的归一化。有一个细节：如果一段轨迹的拇指到手心距离在整段视频中变化幅度非常小（低于1.5厘米的阈值），说明手基本上一直是握紧或者张开状态，没有抓握动作发生，这类片段的夹爪状态被设为固定的中性值，避免噪声被误当作抓握信号学进去。

第五阶段是质量控制，应用四道后处理过滤器。完整性过滤器检查数据是否有缺失值、帧索引是否连续、四元数旋转表示是否归一化。静态过滤器去掉那些双手几乎没有移动的片段，因为这些片段没有有价值的运动信息。尖峰过滤器去掉帧间位移突然超出正常范围3倍标准差的片段，这类异常通常是追踪失败的信号。双手过滤器检查双臂之间的协调性，去掉那些双手运动没有统计上合理的时序关联或双手距离异常的片段。经过这五个阶段的处理，最终保留了1478小时的有效训练数据，约占原始数据的四分之一。

五、6000小时数据、真实机器人测试：成绩单上写着什么

ACE-Ego-0的完整预训练数据池超过6000小时，包含1478.9小时伪动作标注的人类视频、以及4534.8小时以上真实传感器记录的机器人和仿真数据。机器人数据部分来自AgiBot Alpha/Beta演示数据（1937.8小时）、Galaxea R1Lite数据（488.1小时）、AgiBot数字世界仿真数据（225.3小时）、RoboCasa桌面操作仿真数据（83.6小时）以及研究团队自行采集的Galbot双臂机器人演示数据（超过1800小时）。

模型架构上，ACE-Ego-0使用Qwen3-VL-4B-Instruct作为视觉语言主干（负责理解"看到了什么、要做什么"），搭配一个约6亿参数的流匹配扩散Transformer作为动作专家（负责输出"怎么动"）。预训练在128张A800 GPU上运行20万步，微调则用16张A800 GPU完成。

研究团队在三个层面上评测了这套系统的表现。

在RoboCasa GR1桌面操作基准上，这是一个覆盖24种任务（18种拿放类任务和6种操作铰链物体的任务）的仿真评测平台，使用与人形机器人GR1相同的设置。ACE-Ego-0在24个任务上的平均成功率达到72.8%，超过了此前在该榜单上表现最好的DIAL方法（70.2%），以及JoyAI-RA（63.2%）、ABot-M0（58.3%）和FLARE（55.0%）。在一些具体任务上，差距尤为明显：比如把砧板放进纸板箱这个任务，ACE-Ego-0成功率84%，而FLARE是54%、GR00T-N1.6是46.5%；把盘子放到另一个盘子里，ACE-Ego-0达到了98%的成功率。

在RoboTwin 2.0基准上，这是一个覆盖50种双臂桌面操作任务的评测平台，特点是有很强的场景随机化（Easy是干净场景，Hard是有随机干扰的场景）。ACE-Ego-0在Easy设置下平均成功率91.12%，Hard设置下90.62%，比此前最好的JoyAI-RA分别高出0.64和1.34个百分点，在抓取、放置、工具使用、双臂协调等各类操作上都有分布均匀的提升。

真实机器人测试用了一套ARX双臂平台，头部安装了一个RGB-D摄像头，通过摄像头坐标系下的增量末端执行器命令来控制。测试了六个从简单到复杂的任务：抓取购物篮并把茶叶盒放进去（单臂，Pick Tea）、用一只手固定咖啡罐同时用另一只手舀咖啡粉倒入杯中（双臂紧耦合，Scoop Coffee）、把多种物品按品类分拣到对应收纳箱（语义理解，Category Sorting）、一手持簸箕一手用扫帚把积木扫进去（双臂工具协作，Sweep Cubes）、依次叠放三个碗（顺序规划，Stack Bowls）、把两双鞋放进鞋盒并合上盖子（长流程，Pack Shoes）。每个任务各做30次试验，成功标准是机器人在零人工干预的情况下完成完整流程。

ACE-Ego-0在六个任务上的平均成功率达到78.3%，比同等条件微调的π0.5（71.7%）高出6.6个百分点。与GR00T-N1.7的差距则更为显著：GR00T-N1.7平均成功率只有35.6%，在需要大范围横向运动的扫地积木任务上更是几乎完全失败（6.7%）。在双手协作精度要求最高的舀咖啡任务上，ACE-Ego-0成功率86.7%，而GR00T-N1.7只有36.7%，差距达到50个百分点。所有方法在最长流程的装鞋任务上成功率都有所下滑，这提示如何在长流程操作中避免误差积累仍然是整个领域共同面对的挑战。

消融实验清晰地说明了每个组件的贡献：去掉形态条件化令牌，成功率从72.8%降到70.9%；去掉时间对齐动作切块，降到71.7%；去掉可靠性感知人类辅助损失，降到69.2%。在数据层面，从只有QWen初始化权重出发（无任何具身预训练）成功率是65.4%，加入机器人数据预训练后提升到68.3%，再加入人类视频数据后进一步提升到72.8%——而且人类视频带来的提升（+4.5个百分点）大于机器人数据本身带来的提升（+2.9个百分点），直接证明了大规模人类视频数据的价值。

论文还有一个关于数据稀缺微调的有趣实验：在扫地积木任务上，如果微调时只用34条机器人演示，成功率只有10%（10次试验里只成功1次）。可视化分析揭示了原因：34条机器人演示只覆盖了0.062平方米的末端执行器工作空间，而419段相关的人类视频覆盖了0.296平方米——是前者的4.8倍。把这419段人类视频加进微调数据后，成功率提升到40%（成功4次），提升了4倍。这说明即使在微调阶段，人类视频也能有效弥补机器人演示数据覆盖不足的问题。

说到底，ACE-Ego-0在方法上回答了一个长期悬而未决的工程问题：让人类视频和机器人数据在同一个训练框架里和平共处，既能充分利用人类视频的海量和多样性，又不让它的噪声拖累机器人数据辛苦建立的精确控制能力。三重对齐（坐标系、身体结构、时间节奏）加上三层可靠性加权，这套组合拳在仿真和真实机器人上都给出了可信的答案。

当然，这项研究还有几个方向尚未触及。当前的测试场景集中在桌面操作，移动机器人、全身人形控制或者软性物体操作是否同样适用还需要进一步验证。数据池中还没有包含灵巧手或者力矩传感器的数据，而这些对于需要精细触觉反馈的任务可能很重要。此外，人类视频中的旋转信息和手指精细运动在目前的框架里只被赋予了极低的权重，如果未来能提升视频重建的精度，这部分被"浪费"的信息有可能带来更大的增益。对于机器人学习这个领域，ACE-Ego-0给出的启示是：廉价的人类行为数据并非只能用来打辅助，只要处理好对齐和质量控制，它完全可以成为主力数据来源的有力补充。有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.17200查阅完整论文及附录中的详细推导。

Q&A

Q1：ACE-Ego-0是什么类型的机器人学习框架，它和以前的方法有什么主要区别？

A：ACE-Ego-0是一套把人类第一人称视频和多平台机器人操作数据统一整合进同一套训练体系的视觉-语言-动作模型预训练框架。和以前方法的主要区别在于，它同时解决了三个维度的数据异构问题（坐标系、身体结构、控制频率），而不是只处理其中一两个；同时还针对人类视频数据质量较低的现实，设计了分通道、分步骤、分数据集的三层可靠性加权机制，而不是简单地把有噪声的人类数据和高精度机器人数据等权重混训。

Q2：从人类视频里提取的手部动作轨迹可靠性有多高，为什么还要把它和机器人数据混合训练？

A：从视频里用视觉算法估计出的手部三维轨迹确实存在深度模糊、遮挡抖动和估计偏差等问题，可靠性低于传感器直接记录的机器人数据。但人类视频的核心价值不在于精度，而在于覆盖范围——几千小时的人类操作视频涵盖了机器人演示数据远无法触及的长尾场景和动作多样性。ACE-Ego-0通过把位置信息（相对可靠）和旋转/抓握信息（容易有误差）区别对待，并动态下调异常帧的权重，让人类视频只在可信的维度上提供监督，从而在不污染机器人精确控制能力的前提下获得覆盖范围上的增益。实验表明，加入人类视频后在RoboCasa基准上成功率提升了4.5个百分点，是所有数据扩充措施中提升最大的。

Q3：时间对齐动作切块解决的具体是什么问题，如果不做这个对齐会怎样？

A：不同机器人数据集的控制频率差别很大（10到30赫兹不等），如果模型统一预测"未来固定N帧"的动作，那么N帧在低频数据集里只对应0.3秒，在高频数据集里却对应3秒，同一个模型预测的物理时间窗口完全不一致。时间对齐动作切块把预测目标改为"未来固定T秒（默认2秒）的动作"，根据各数据集的帧率计算出对应的帧数，确保所有数据监督的是相同长度的物理运动。消融实验显示去掉这一机制成功率下降1.1个百分点，说明时间不对齐会引入系统性的训练偏差。

喜欢(0)

南洋理工大学训练AI图像生成只看有用的部分

河南淇县：电商生态链绘就县域消费新图景