从“看见”到“理解”，人形机器人端到端环境感知技术进展

2024年06月17日

环境感知是人形机器人与真实世界互动的起点。在感知、决策和执行的循环过程中，机器人将外部世界的信息转化为可以理解和利用的内部表示形式，通过分析和推理确定行动策略，实现与环境的自然互动和任务执行。

例如，全自动驾驶系统FSD采用纯视觉方案，能够高效地识别和分类道路环境中的对象，理解复杂的交通场景，最终实现高精度的环境感知和决策。

傅利叶智能首次将纯视觉感知方案应用到人形机器人上，使GR-1成为首台具备端到端环境感知能力的人形机器人。

傅利叶端到端环境感知技术采用纯视觉方案，在GR-1周身配置6个RGB摄像头，覆盖机器人周围360度视角，提供前视、侧视和后视图，可全面感知周围环境，并精确识别和追踪。

傅利叶端到端环境感知技术采用纯视觉方案

该技术融合BEV鸟瞰视图、Transformer深度学习模型、OCC占用网格和人形机器人，为复杂环境中的导航和路径规划提供支持。

BEV整合多个摄像头数据，简化复杂的三维空间信息，生成全局的环境视图，帮助机器人理解其所处的环境布局。Transformer处理时间序列的BEV数据，对环境进行理解和预测，例如预测行人的移动轨迹，生成安全的导航路径。OCC将环境划分为多个网格单元，帮助机器人识别可通行和不可通行的区域，确保导航的安全性和效率。机器人因此获得对环境的全面认知，具备灵活应对局部变化的能力，实现端到端的环境感知。

BEV+Transformer+OCC+人形机器人

GR-1在行进过程中识别和标注道路两旁的车辆和行走的人，识别精度与响应速度均表现优异，为实现自主避障与路径规划提供全面和准确的环境理解。特别是在动态环境中，端到端环境感知技术显示了卓越的环境建模能力与实时物体跟踪性能。

GR-1在行进过程中动态识别路边车辆与行人

纯视觉方案依赖摄像头作为主要传感器，显著减少硬件成本。摄像头能够捕捉到丰富的视觉信息，提供高分辨率的图像，通过深度学习算法，实现更精准的环境感知和场景理解。随着技术的不断成熟，纯视觉方案正变得越来越可靠，对于机器人导航、自动驾驶等智能系统来说将是非常有前景的选择。

拥有端到端环境感知能力的人形机器人，能够在复杂多变的环境中实现自主导航，高效、安全地执行各种任务，未来将在医疗康复、家庭服务、接待引导、安防巡检、紧急救援、工业制造等应用场景中发挥重要作用，开启具身智能的崭新阶段。

环境感知能力作为人形机器人的技术新亮点，傅利叶期望能与全球科研伙伴共同开展研发及学术交流，为应用场景落地及成果转化奠定基础，创造更多创新解决方案。

感知世界，定义存在。