PIE¶

核心挑战（研究目标）¶

PIE 旨在解决低成本四足机器人（如 Deep Robotics Lite3）在仅配备不可靠深度相机的情况下，如何实现高难度的跑酷运动（如跳跃 3倍身长的沟壑、攀爬 3倍身高的台阶）的问题。

现有的机器人跑酷方法存在以下痛点：

感知不可靠： 跑酷需要极其精准的地形感知（特别是在边缘起跳时）。低成本深度相机存在延迟、噪声和视场限制，直接用它来显式重建地形往往不够可靠。
训练复杂： 许多现有方法（如 RMA 的某些变体）采用“两阶段”训练（先练老师再练学生），流程繁琐且存在信息损失。
性能受限： 为了防止因感知误差导致的摔倒，很多算法会限制机器人的运动能力，导致无法发挥其物理极限（比如不敢跳得太远）。

创新点¶

双层隐式-显式估计器 (Dual-Level Implicit-Explicit Estimator)¶

面临问题
单一感知不可靠： 深度相机有延迟、噪声和盲区（如脚下），直接画地图（显式）容易出错。
盲走上限低： 仅靠本体感知（隐式）无法预判远处障碍（如深沟），无法提前蓄力。
目标
双重理解： 同时获取环境的“显式几何形状”（地图）和“隐式物理特性”（未来预测）。
鲁棒融合： 通过时序记忆和多模态融合，在视觉失效时能退回本体感知。
输入
时序深度图像 (\(d_t^{H_2}\))：最近 2 帧的深度图堆叠。
时序本体感知 (\(o_t^{H_1}\))：最近 10 帧的关节/IMU数据。
过程与方程
特征融合： 使用 Transformer 融合视觉与触觉特征，再送入 GRU 生成包含记忆的状态编码。
双层估计机制：
- 理解层： 同时重构 地形高度图 \(\hat{m}_t\)（显式看见）和 下一时刻本体状态 \(\hat{o}_{t+1}\)（隐式预测未来）。
- 表达层： 同时输出 显式物理量（速度 \(\hat{v}_t\)、足间隙 \(\hat{h}_t^f\)）和 隐式潜变量（\(z_t, z_t^m\)）。
损失方程：
- \[\mathcal{L} = \underbrace{D_{KL}(q||p)}_{\text{VAE正则}} + \underbrace{MSE(\hat{o}_{t+1}, o_{t+1})}_{\text{隐式预测}} + \underbrace{MSE(\hat{m}_t, m_t)}_{\text{显式地图}} + \underbrace{MSE(\hat{v}_t, v_t) + MSE(\hat{h}_t^f, h_t^f)}_{\text{显式物理量}}\]
输出 (给 Actor)
\(\hat{v}_t\) (线速度)、\(\hat{h}_t^f\) (足间隙)、\(z_t^m\) (地形编码)、\(z_t\) (环境潜变量) 。

单阶段非对称训练框架 (One-Stage Asymmetric Framework)¶

为将两阶段训练范式简化为单阶段,采用了非对称的 actor-critic 架构:

面临问题
两阶段低效： “先练老师、后练学生”的流程复杂，且学生模仿老师时存在信息损失，性能被老师锁死。
多技能整合难： 很难设计一个奖励函数能同时兼顾跑、跳、爬等多种动作。
目标