EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields
Zhaoyang Yang, Yurun Jin, Lizhe Qi, Cong Huang, Kai Chen
以视频扩散模型为基座的机器人世界模型,将动作建模为结构化的运动学到视觉动作场,直接投影到相机视角,连接运动控制与视觉感知。
Embodied AI · Robotics Vision · Agent Tools & Benchmarks
中国科学技术大学计算机科学与技术本科生。研究与工程实践集中在具身世界模型、机器人视觉控制,以及面向交互式智能体的 Computer / Mobile Using Tools 与 Benchmark 构建。
Publications
Zhaoyang Yang, Yurun Jin, Lizhe Qi, Cong Huang, Kai Chen
以视频扩散模型为基座的机器人世界模型,将动作建模为结构化的运动学到视觉动作场,直接投影到相机视角,连接运动控制与视觉感知。
Yuxuan Tian, Yurun Jin, Bin Yu, Yukun Shi, Hao Wu, Chi Harold Liu, Kai Chen, Cong Huang
面向机器人操作的时空动作中心世界模型,通过扩散过程联合去噪时空预测与动作,提升操作任务的表现。
Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen
面向存在歧义的机器人操作的 VLA 框架,利用视觉语言历史推断一致的短程意图,提升多个基准上的执行稳定性。
Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Jiyan He, Cong Huang, Bojun Cheng, Kai Chen
提出将人类第一人称视频转化为机器人可用训练数据的流程,构建 E2E-3M 数据集并训练具备第一人称感知的 PhysBrain 模型,通过增强的物理推理提升机器人控制能力。
Projects
研究兴趣集中在 action-conditioned world models:如何把机器人动作、深度、末端轨迹或骨架结构以视觉域信号注入视频生成模型, 并用 RoboTwin、WorldArena 与真机部署验证模型的状态转化推理能力。
RoboMaster 工作主要面向赛场约束下的实时视觉与机械臂作业。系统需要在速度、光照、遮挡、机械误差和通信延迟下保持稳定, 因而更接近完整机器人系统,而不是单一检测模型。
我在 PineAI 的工作分为工具执行与评测基建两部分:一方面构建 Computer Using / Mobile Using 工具链,让模型在桌面与 Android UI 上形成稳定动作策略; 另一方面设计可复现 Benchmark 与交互式评测环境,使 Agent 的上下文保持、工具调用和错误恢复能力可以被系统测量。
Awards
联盟赛冠军 / 区域赛冠军 / 全国赛亚军。
校一等奖。
Technical Skills
Contact