Embodied AI · Robotics Vision · Agent Tools & Benchmarks

金雨润 Yurun Jin

中国科学技术大学计算机科学与技术本科生。研究与工程实践集中在具身世界模型、机器人视觉控制,以及面向交互式智能体的 Computer / Mobile Using Tools 与 Benchmark 构建。

Publications

论文

Second Author · 2026.05

EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields

Zhaoyang Yang, Yurun Jin, Lizhe Qi, Cong Huang, Kai Chen

以视频扩散模型为基座的机器人世界模型,将动作建模为结构化的运动学到视觉动作场,直接投影到相机视角,连接运动控制与视觉感知。

  • NeurIPS 2026 投稿中
  • cs.CV
Second Author · 2026.04

STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

Yuxuan Tian, Yurun Jin, Bin Yu, Yukun Shi, Hao Wu, Chi Harold Liu, Kai Chen, Cong Huang

面向机器人操作的时空动作中心世界模型,通过扩散过程联合去噪时空预测与动作,提升操作任务的表现。

  • NeurIPS 2026 投稿中
  • cs.RO
Co-author · 2026.05

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen

面向存在歧义的机器人操作的 VLA 框架,利用视觉语言历史推断一致的短程意图,提升多个基准上的执行稳定性。

  • cs.RO
Co-author · 2025.12

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Jiyan He, Cong Huang, Bojun Cheng, Kai Chen

提出将人类第一人称视频转化为机器人可用训练数据的流程,构建 E2E-3M 数据集并训练具备第一人称感知的 PhysBrain 模型,通过增强的物理推理提升机器人控制能力。

  • cs.RO

Projects

项目经历

2025.09 - Present / Zhongguancun Academy

具身世界模型与结构化 Action 表示

研究兴趣集中在 action-conditioned world models:如何把机器人动作、深度、末端轨迹或骨架结构以视觉域信号注入视频生成模型, 并用 RoboTwin、WorldArena 与真机部署验证模型的状态转化推理能力。

  • 参与 PhysBrain 的研发与系统评测,覆盖 VLA、world models、SimplerEnv 与 StarVLA 等技术线。
  • 在 Motus / Wan 2.2 baseline 上进行超参 sweep 与训练调优,参与 RoboTwin 2.0 50 个双臂任务 benchmark。
  • 探索 depth map、end-effector trajectory overlay 与 UV map 作为结构化 action 中间表示;相关模型在 WorldArena Overall 维度达到 SOTA,公开榜单第 2。
  • 进行中工作:图像域 action 表示与 WAM / AC-WM 统一架构,目标是减少动作条件与视频生成骨干之间的表征断裂。
  • PyTorch
  • Wan 2.2
  • Motus
  • RoboTwin
  • WorldArena
2024.11 - 2025.08 / RoboMaster

机器人视觉、跟踪与操作系统

RoboMaster 工作主要面向赛场约束下的实时视觉与机械臂作业。系统需要在速度、光照、遮挡、机械误差和通信延迟下保持稳定, 因而更接近完整机器人系统,而不是单一检测模型。

  • 自瞄系统:灯条几何先验 + CNN 数字识别,PnP + Kalman 估计目标 3D 姿态,MPC 完成预测跟踪与弹道补偿。
  • 系统性能:可稳定识别 5m 外、10rad/s 旋转目标,实体弹丸命中率超过 50%。
  • 自动兑矿系统:七自由度机械臂逆运动学、空间轨迹规划、双目 / RGB-D 目标检测与 6D 位姿估计。
  • 任务结果:在赛事最高难度矿石兑换任务中成功率超过 80%;RoboMaster 2025 联盟赛冠军、区域赛冠军、全国赛亚军。
  • C++
  • Python
  • ROS2
  • OpenCV
  • MPC
2025.05 - 2025.09 / PineAI

Computer / Mobile Using Tools 与 Agent Benchmark 构建

我在 PineAI 的工作分为工具执行与评测基建两部分:一方面构建 Computer Using / Mobile Using 工具链,让模型在桌面与 Android UI 上形成稳定动作策略; 另一方面设计可复现 Benchmark 与交互式评测环境,使 Agent 的上下文保持、工具调用和错误恢复能力可以被系统测量。

  • Computer / Mobile Using Tools:围绕桌面与移动端 UI 状态,将屏幕信息、accessibility tree 与任务上下文转化为确定性交互指令。
  • Mobile Using Agent:基于 ReAct 与 Android World 输出点击、滑动、输入等动作,并在长步数 Android 任务中形成更稳定的执行闭环。
  • 经验复用:从成功轨迹中抽取结构化 SOP,存入技能库,并通过语义相似度检索召回,减少相似任务的从零推理。
  • Agent Ability Benchmark:基于 Kafka 异步会话管理与分布式 Docker 容器,构造可并行运行的交互式 Benchmark 环境。
  • 评测协议:通过 Mock Agent 模拟复杂用户意图、对抗性边界条件与工具链异常,观察被测 Agent 的上下文理解、工具调用和纠错鲁棒性。
  • Python
  • Golang
  • ReAct
  • Android World
  • Docker
  • Kafka

Awards

获奖经历

RoboMaster 2025

联盟赛冠军 / 区域赛冠军 / 全国赛亚军。

Robogame 2024

校一等奖。

Technical Skills

技术栈

Python / PyTorch C / C++ / ROS2 Golang / Java LLM / VLA / Agent Tools

Contact

欢迎联系