CVPR 2026PastMultimodal

CVPR 2026: 2nd Workshop on Multimodal Spatial Intelligence

MUSI

Official website ↗OpenReview venue ↗See all CVPR workshops →✎ Edit this entry

Submission deadline: Mar 14, 2026, 11:59 UTC
OpenReview-synced 2026-03-14 11:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (18)

Fetched from OpenReview (v2) on 2026-06-10.

A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models
Yanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng · PDF
ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search
Myungchul Kim, Kwanyong Park, Junmo Kim, In So Kweon · PDF
Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning
Chun-Hsiao Yeh, Shengyi Qian, Manchen Wang, Yi Ma, Joseph Tighe, Fanyi Xiao · PDF
Bridging the Granularity Gap: Object-Centric Masking for Contextual Visual Learning
Jike Zhong · PDF
Can VLMs Handle Multi-hop Compositional Spatial Reasoning?
Youngwan Lee, Soojin Jang, Yoorhim Cho, Seunghwan Lee, Yong-Ju Lee, Sung Ju Hwang · PDF
CoT-PL: Chain-of-Thought Pseudo-Labeling for Open-Vocabulary Object Detection
Hojun Choi, Youngsun Lim, Jaeyo Shin, Hyunjung Shim · PDF
Hear you are: Teaching LLMs Spatial Reasoning with Vision and Spatial Sound
Hyeonggon Ryu, Joon Son Chung, David Harwath · PDF
Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models
Mahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dongjoo Kim, Zelun Luo, Ranjay Krishna, Linda Shapiro · PDF
Improving Scene Text Recognition in Multimodal Large Language Models using Visual Text Grounding
Shashank Krishna Vempati, Chetan Arora · PDF
MindBlock: Probing Spatial Assembly and Structure in Unified Multimodal Models
Baiqiao Yin, Junhao Liu, Han Yin, Heyang Yu, Tingxuan Zhang, Zhiheng Li, Chengzu Li, Jihan Yang, Manling Li, Chen Feng, Yiming Li · PDF
Multi-Modal Manipulation via Multi-Modal Policy Consensus
Haonan Chen, Jiaming Xu, Hongyu Chen, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du, Katherine Rose Driggs-Campbell · PDF
Name That Part: 3D Part Segmentation and Naming
Soumava Paul, Prakhar Kaushik, Ankit Vaidya, Anand Bhattad, Alan Yuille · PDF
SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation
Vaibhav Agrawal, Rishubh Parihar, Pradhaan S Bhat, Ravi Kiran Sarvadevabhatla, Venkatesh Babu Radhakrishnan · PDF
SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay · PDF
SPOT: Structured Prompting with Object-centric Tokens for open-world scene graphs
Mengqi Zhang, Sahil Khose, Fiona Ryan, Judy Hoffman · PDF
Synthesis of Interactive and Expansive Apartment Environments
ChunTeng Chen · PDF
Synthetic Counterfactual World Models for Multimodal Spatial Reasoning in Low-Resource 3D Domains
Mahule Roy, Subhas Roy · PDF
Theory of Space: Evaluating Multimodal Spatial Belief through Active Exploration
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li · PDF

Accepted papers (18)

☆A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

☆ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search

☆Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

☆Bridging the Granularity Gap: Object-Centric Masking for Contextual Visual Learning

☆Can VLMs Handle Multi-hop Compositional Spatial Reasoning?

☆CoT-PL: Chain-of-Thought Pseudo-Labeling for Open-Vocabulary Object Detection

☆Hear you are: Teaching LLMs Spatial Reasoning with Vision and Spatial Sound

☆Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

☆Improving Scene Text Recognition in Multimodal Large Language Models using Visual Text Grounding

☆MindBlock: Probing Spatial Assembly and Structure in Unified Multimodal Models

☆Multi-Modal Manipulation via Multi-Modal Policy Consensus

☆Name That Part: 3D Part Segmentation and Naming

☆SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

☆SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

☆SPOT: Structured Prompting with Object-centric Tokens for open-world scene graphs

☆Synthesis of Interactive and Expansive Apartment Environments

☆Synthetic Counterfactual World Models for Multimodal Spatial Reasoning in Low-Resource 3D Domains

☆Theory of Space: Evaluating Multimodal Spatial Belief through Active Exploration

A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search

Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

Bridging the Granularity Gap: Object-Centric Masking for Contextual Visual Learning

Can VLMs Handle Multi-hop Compositional Spatial Reasoning?

CoT-PL: Chain-of-Thought Pseudo-Labeling for Open-Vocabulary Object Detection

Hear you are: Teaching LLMs Spatial Reasoning with Vision and Spatial Sound

Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

Improving Scene Text Recognition in Multimodal Large Language Models using Visual Text Grounding

MindBlock: Probing Spatial Assembly and Structure in Unified Multimodal Models

Multi-Modal Manipulation via Multi-Modal Policy Consensus

Name That Part: 3D Part Segmentation and Naming

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

SPOT: Structured Prompting with Object-centric Tokens for open-world scene graphs

Synthesis of Interactive and Expansive Apartment Environments

Synthetic Counterfactual World Models for Multimodal Spatial Reasoning in Low-Resource 3D Domains

Theory of Space: Evaluating Multimodal Spatial Belief through Active Exploration