基于改进3D扩散策略的通用人形机器人泛化操作
2025年03月15日
导读
人形机器人在非结构化环境中完成多任务的能力一直是机器人领域的重要目标。最新的3D视觉运动策略可以将通过视觉模仿学习到的技能推广到更复杂的场景,展现出泛化能力和适用性。
3D扩散策略(DP3)通常依赖于精确的相机校准和细粒度的点云分割,无法直接部署到人形机器人等移动平台。
来自斯坦福、SFU、卡耐基梅隆的联合研究团队提出了一种改进的3D扩散策略(iDP3),通过基于机器人自我中心的相机坐标系构建3D视觉表征来消除这些依赖,将策略应用扩展到更广泛的场景。
视频为4倍速,所有技能均为人形机器人自主操作
改进的3D扩散策略(iDP3)
针对3D扩散策略(DP3)的局限性,iDP3运用自我中心的3D视觉表征,即以相机的自我视角为中心构建目标物体的3D视觉表征来帮助机器人学习。将外部或第三人称视角转换为第一人称视角,避免了对相机校准和点云分割的依赖,实现视角不变性,更适用于移动场景中的机器人操作。
iDP3使用自我中心的3D视觉表征
在此基础上,研发团队还进一步从三个方面对该视觉运动学习策略进行了有优化。首先,通过扩展视觉输入,增加采样点的数量,捕捉更多场景细节,iDP3可以帮助机器人提升在复杂场景下的表现。其次,研发团队改进了视觉编码器,采用金字塔卷积编码器以提升数据学习的平滑性与准确性。最后,通过延长预测时长,机器人可以应对人类演示过程中产生的抖动和噪声。iDP3使用了更高效的采样和优化方法,进一步加快了训练和推理过程。
基于iDP3的人形机器人操作系统
视觉模仿学习系统包括四部分:人形机器人平台、数据收集系统、视觉运动策略学习和现实场景部署
在上机测试环节,研究团队选用了傅利叶GR-1全尺寸人形机器人,并配备两只灵巧手。实验运用到了GR-1上半身所具备的25个自由度,并对下半身进行固定以保持稳定。研发人员在机器人头部安装了RealSense L515 LiDAR 相机,以捕捉高质量3D点云,提供自我中心的视觉表征。为适应不同桌面高度,他们使用了高度可调的手推车代替复杂的全身控制。
研究人员使用Apple Vision Pro遥控机器人的上半身动作,精确跟踪手部和头部姿态,并加入腰部控制,进一步扩展机器人的操作空间。在遥操作过程中,研究团队收集了观测-动作对的轨迹数据,观测数据包括视觉数据(如点云、图像)和本体感知数据(如机器人的关节位置),动作数据由目标关节位置表示。
收集到的真人示范数据用于训练iDP3。由于iDP3不依赖相机校准或手动点云分割,该策略可以无缝切换到新场景中。
实验与效果展示
为了验证系统的有效性,研究人员进行“拾取与放置”任务的实验,机器人抓取轻质杯子并将其移开,以测试精度和策略稳定性。实验采用不同视角和演示次数的组合,将iDP3与多种基线方法进行比较。
结果显示,iDP3在大多数情况下表现优于其他方法,但DP (✶R3M)(微调R3M扩散策略)在一些设置中表现更好,推测是因为微调预训练模型通常比从头开始训练更为有效。同时,iDP3的消融实验表明,改进视觉编码器、扩展视觉输入和延长预测视野对改善策略性能至关重要,去除这些改进会显著降低精度和学习效果。此外,iDP3使用3D视觉表征,相比DP扩散策略显著节省了训练时间,并显示出更好的泛化能力。
日常生活中常见的任务:拾取与放置、倒水和擦拭
研究人员进一步对比了iDP3与DP (✶R3M)(简称DP)在现实场景中的表现。实验表明,在拾取与放置、倒水和擦拭三个日常生活任务中,iDP3的泛化能力明显优于DP,尤其是在处理不同视角、物体和场景时表现突出。
视角不变性:iDP3的自我中心3D表征在视角变化时依然稳定抓取物体,而DP则在视角变化较小时偶尔成功。
物体泛化能力:iDP3基于3D表征能够自然地处理未见过的不同种类水瓶,而DP仅在使用颜色扰动增强时偶尔成功。
场景泛化能力:iDP3在各种嘈杂、复杂的现实场景中表现出色,而DP在这种环境中表现不佳。
总结
本研究提出了一种视觉模仿学习系统,基于改进的3D扩散策略(iDP3),且仅使用实验室场景的训练数据,人形机器人能够将操作技能泛化至多样化的现实场景中。大量实验证明,iDP3在应对复杂的现实场景时具备显著的泛化能力和稳健性。
与此同时,研究仍存在局限性。例如,高质量数据的规模难以扩展,维持机器人的平衡仍是挑战,收集精细操作的耗时较长,深度传感器的点云噪声限制了iDP3的性能表现。未来,研究人员将通过引入更多高质量数据,扩展3D视觉运动策略的训练,以进一步提升泛化能力。
论文链接:https://arxiv.org/pdf/2410.10803
项目主页:https://humanoid-manipulation.github.io/
代码链接:
Learning:https://github.com/YanjieZe/Improved-3D-Diffusion-Policy
Teleop:https://github.com/YanjieZe/Humanoid-Teleoperation
傅利叶期待与全球科研院校开展学术交流与合作,汇集多方智慧,共同探索人形机器人领域的前沿研发,加速技术创新与应用,构建具身智能的顶尖合作生态。
Contact Us
生态合作:generalrobot@fftai.com
人才招聘:job@fftai.com