Publications

Conference Papers

Interleave-VLA

Published in ICRA (International Conference on Robotics and Automation) 2025 Safe-VLM Workshop Spotlight, 2025

This paper introduces Interleave-VLA, a novel robot learning paradigm that leverages interleaved image-text instructions to enhance robot manipulation capabilities in unseen scenarios.

Recommended citation: @misc{fan2025interleavevlaenhancingrobotmanipulation, title={Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions}, author={Cunxin Fan and Xiaosong Jia and Yihang Sun and Yixiao Wang and Jianglan Wei and Ziyang Gong and Xiangyu Zhao and Masayoshi Tomizuka and Xue Yang and Junchi Yan and Mingyu Ding}, year={2025}, eprint={2505.02152}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2505.02152}, }
Download Paper

WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving

Published in ICML (International Conference on Machine Learning) 2025, 2025

This paper introduces WOMD-Reasoning, a comprehensive large-scale Q&A dataset built on the Waymo Open Motion Dataset (WOMD) that focuses on describing and reasoning about traffic rule-induced interactions in driving scenarios.

Recommended citation: @misc{li2025womdreasoninglargescaledatasetinteraction, title={WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving}, author={Yiheng Li and Cunxin Fan and Chongjian Ge and Zhihao Zhao and Chenran Li and Chenfeng Xu and Huaxiu Yao and Masayoshi Tomizuka and Bolei Zhou and Chen Tang and Mingyu Ding and Wei Zhan}, year={2025}, eprint={2407.04281}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2407.04281}, }
Download Paper