CVPR 2025PastLarge language modelsRoboticsComputer vision

The first CVPR workshop on 3D Vision Language Models (VLMs) for Robotics Manipulation: Opportunities and Challenges

Robo-3Dvlm

Submission deadline: May 16, 2025, 23:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (6)

Fetched from OpenReview (v2) on 2026-06-10.

Agentic Language-Grounded Adaptive Robotic Assembly
Nicholas Cote, Jaimyn Drake, Sachin Chitta · PDF
Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
Chenrui Tie, Shengxiang Sun, Jinxuan Zhu, Yiwei Liu, Jingxiang Guo, Yue Hu, Haonan Chen, Junting Chen, Ruihai Wu, Lin Shao · PDF
Mono3D-VLDL: Perception-Aware Vision-Language Dictionary Learning for Multimodal Fusion in Monocular 3D Grounding
Tiantian Wang, Haixiang Hu, Haoxiang Liang, zhaoyang zhang, Tinglei Jia, Shuwen Huang, Yongfeng Bu, Xiaowei Qian, Rong Wang, Kaifei Li, Hanke Luo, Hua Cui · PDF
Online Language Splatting
Saimouli Katragadda, Cho-Ying Wu, Yuliang Guo, Xinyu Huang, Guoquan Huang, Liu Ren · PDF
The One RING: a Robotic Indoor Navigation Generalist
Ainaz Eftekhar, Luca Weihs, Rose Hendrix, Ege Caglar, Jordi Salvador, Alvaro Herrasti, Winson Han, Eli VanderBilt, Aniruddha Kembhavi, Ali Farhadi, Ranjay Krishna, Kiana Ehsani, Kuo-Hao Zeng · PDF
ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos
Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Yecheng Jason Ma, Dinesh Jayaraman · PDF