首页
看点啥
插画图片
首页 热点时事 千寻智能高阳团队研发Legato技术成果获选RSS 2026

千寻智能高阳团队研发Legato技术成果获选RSS 2026

2026-05-29 0

在音乐演奏中,Legato(连音)代表着音符间的无缝衔接,这种流畅技巧正是机器人动作研究追求的理想状态。本文将深入解析如何让机械运动如音乐般自然连贯。

钢琴演奏者通过手指滑动实现音符的完美过渡,而机器人领域也在追求类似的运动连续性。近期一项突破性研究《Learning Native Continuation for Action Chunking Flow Policies》被RSS 2026收录,该成果通过创新训练机制,使机器人动作天然具备"连音"般的流畅特性。

1. 机器人动作的连续性挑战

当机器人执行倒水或叠碗等任务时,常会出现令人困扰的停顿现象。这种犹豫不决的表现源于当前主流VLA模型采用的动作分块技术,虽然提高了规划效率,却导致动作序列衔接处出现明显断点。

1.1 动作分块技术的局限性

动作分块技术让机器人可以规划未来1秒的动作序列,这种批量处理方式虽然提升了推理效率,却带来了连续性难题。两段独立生成的动作序列在交接处常出现方向突变,就像两段录音生硬拼接产生的杂音。

问题的本质在于VLA模型的多模态特性:前段动作可能选择方案A,而后段却切换为方案B。这种模态切换在精细操作中尤为危险,比如机器人伸手到一半突然改变抓取方案。

1.2 现有解决方案的不足

Real-Time Chunking方法通过借用上段未执行部分来引导新序列生成,虽然改善了连续性,但存在根本缺陷:

  1. 推理阶段RTC只在执行时临时修补,模型训练时未接触这种情况
  2. 训练阶段RTC将前缀片段固定处理,导致前后动作缺乏有机联系

这两种方式都未能让模型真正掌握连续性技巧,就像演奏者依赖后期剪辑而非真实演奏技巧。

2. Legato的创新解决方案

2.1 噪声-真实值混合机制

Legato引入引导向量ω∈[0,1]^H,将训练起点从纯噪声改为噪声与真实动作的混合:

这种设计让模型在训练时就学会利用已知前缀信息,而非从零开始规划。通过持续练习"从部分已知状态出发"的任务,模型内化了连续性能力。

2.2 逐步引导的去噪动力学

研究发现单次引导会随去噪步骤推进而失效。Legato改进为每一步都进行混合:

这种"记忆锚"机制确保前缀信息始终影响后续规划,使各区域形成统一连贯的系统。

2.3 训练-推理一致性保障

Legato重新推导训练目标,使其与逐步引导的推理动力学精确对齐:

这个创新公式保留了标准流匹配的方向性,同时根据引导强度调整速度大小,完美校准了训练与推理的关系。

2.4 参数随机化适配

针对不同硬件和任务需求,Legato在训练时随机化混合参数(d,r):

  1. d控制前缀长度,适配不同计算延迟
  2. r控制过渡qu长度,满足各类流畅度需求

这种设计使单一模型就能适应多样化部署场景,大幅降低实际应用门槛。

3. 实验验证与结果

研究团队在双臂机器人上测试了五个代表性操作任务,涵盖多模态选择场景:

3.1 核心性能表现

实验结果证实Legato显著优于RTC方法:

  1. 动作犹豫现象减少80%以上
  2. 任务平均完成时间缩短10%
  3. 轨迹平滑性指标提升40%

3.2 部署建议

研究发现当d=delay, s=0.5H, r=H-d-s时模型表现最佳。建议在标准flow matching模型基础上进行Legato微调,可获得更优性能。

这项研究开创性地解决了机器人动作连续性问题,通过内化训练让机械运动如音乐连音般自然流畅。Legato不仅提升了操作效率,更为具身智能发展提供了新思路,标志着机器人动作生成技术迈入新阶段。

喜欢(0)

上一篇

朵莉亚杨戬搭档制霸峡谷指南

朵莉亚杨戬搭档制霸峡谷指南

下一篇

磐岩镇宝箱魔术师零风险选择 双倍奖励与趣味道具全获取攻略

磐岩镇宝箱魔术师零风险选择 双倍奖励与趣味道具全获取攻略
猜你喜欢