精简架构聚焦AI:网络安全公司SentinelOne宣布裁员8%
2026-05-29
2026-05-29 0
在音乐演奏中,Legato(连音)代表着音符间的无缝衔接,这种流畅技巧正是机器人动作研究追求的理想状态。本文将深入解析如何让机械运动如音乐般自然连贯。

钢琴演奏者通过手指滑动实现音符的完美过渡,而机器人领域也在追求类似的运动连续性。近期一项突破性研究《Learning Native Continuation for Action Chunking Flow Policies》被RSS 2026收录,该成果通过创新训练机制,使机器人动作天然具备"连音"般的流畅特性。

当机器人执行倒水或叠碗等任务时,常会出现令人困扰的停顿现象。这种犹豫不决的表现源于当前主流VLA模型采用的动作分块技术,虽然提高了规划效率,却导致动作序列衔接处出现明显断点。
动作分块技术让机器人可以规划未来1秒的动作序列,这种批量处理方式虽然提升了推理效率,却带来了连续性难题。两段独立生成的动作序列在交接处常出现方向突变,就像两段录音生硬拼接产生的杂音。
问题的本质在于VLA模型的多模态特性:前段动作可能选择方案A,而后段却切换为方案B。这种模态切换在精细操作中尤为危险,比如机器人伸手到一半突然改变抓取方案。
Real-Time Chunking方法通过借用上段未执行部分来引导新序列生成,虽然改善了连续性,但存在根本缺陷:
这两种方式都未能让模型真正掌握连续性技巧,就像演奏者依赖后期剪辑而非真实演奏技巧。

Legato引入引导向量ω∈[0,1]^H,将训练起点从纯噪声改为噪声与真实动作的混合:

这种设计让模型在训练时就学会利用已知前缀信息,而非从零开始规划。通过持续练习"从部分已知状态出发"的任务,模型内化了连续性能力。
研究发现单次引导会随去噪步骤推进而失效。Legato改进为每一步都进行混合:

这种"记忆锚"机制确保前缀信息始终影响后续规划,使各区域形成统一连贯的系统。
Legato重新推导训练目标,使其与逐步引导的推理动力学精确对齐:

这个创新公式保留了标准流匹配的方向性,同时根据引导强度调整速度大小,完美校准了训练与推理的关系。

针对不同硬件和任务需求,Legato在训练时随机化混合参数(d,r):
这种设计使单一模型就能适应多样化部署场景,大幅降低实际应用门槛。
研究团队在双臂机器人上测试了五个代表性操作任务,涵盖多模态选择场景:

实验结果证实Legato显著优于RTC方法:


研究发现当d=delay, s=0.5H, r=H-d-s时模型表现最佳。建议在标准flow matching模型基础上进行Legato微调,可获得更优性能。
这项研究开创性地解决了机器人动作连续性问题,通过内化训练让机械运动如音乐连音般自然流畅。Legato不仅提升了操作效率,更为具身智能发展提供了新思路,标志着机器人动作生成技术迈入新阶段。