具身世界模型与结构化 Action 表示
研究兴趣集中在 action-conditioned world models:如何把机器人动作、深度、末端轨迹或骨架结构以视觉域信号注入视频生成模型, 并用 RoboTwin、WorldArena 与真机部署验证模型的状态转化推理能力。
- 参与 PhysBrain 的研发与系统评测,覆盖 VLA、world models、SimplerEnv 与 StarVLA 等技术线。
- 在 Motus / Wan 2.2 baseline 上进行超参 sweep 与训练调优,参与 RoboTwin 2.0 50 个双臂任务 benchmark。
- 探索 depth map、end-effector trajectory overlay 与 UV map 作为结构化 action 中间表示;相关模型在 WorldArena Overall 维度达到 SOTA,公开榜单第 2。
- 进行中工作:图像域 action 表示与 WAM / AC-WM 统一架构,目标是减少动作条件与视频生成骨干之间的表征断裂。