NeurIPS 2025PastRoboticsComputer vision

NeurIPS 2025 Workshop on Space in Vision, Language, and Embodied AI

SpaVLE

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 3, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (56)

Fetched from OpenReview (v2) on 2026-06-10.

An Emergent Symbolic Representation of Space as a Bridge Between Language and Reinforcement Learning in Continuous Environments
Ziqi Ma, Sao Mai Nguyen, Philippe Xu · PDF
Avi: A 3D Vision-Language Action Model Architecture generating Action from Volumetric Inference
Harris Song, Long Le · PDF
BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning
Hongyi Zhou, Weiran Liao, Xi Huang, Yucheng Tang, Fabian Otto, Xiaogang Jia, Xinkai Jiang, Simon Hilber, Ge Li, Qian Wang, Ömer Erdinç Yağmurlu, Nils Blank, Moritz Reuss, Rudolf Lioutikov · PDF
Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents
Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi · PDF
Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots
Haochen Su, Cristian Meo, Francesco Stella, Andrea Peirone, Kai Junge, Josie Hughes · PDF
COREVQA: Spatial Reasoning and Multi-Step Visual Entailment in Crowded Environments
Kazuma Choji, Ishant Yunay Chintapatla, Naaisha Agarwal, Andrew Lwin, Charles Duong · PDF
DenseScan: Advancing 3D Scene Understanding with 2D Dense Annotation
Zirui Wang, Tao Zhang · PDF
Evaluation of Vision-LLMs in Surveillance Video
Pascal Benschop, Cristian Meo, Justin Dauwels · PDF
Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation
Yi-Ruei Liu, You-Zhe Xie, Yu-Hsiang Hsu, I-Sheng Fang, Yu-Lun Liu, Jun-Cheng Chen · PDF
FINDINGDORY: A Benchmark to Evaluate Memory in Embodied Agents
Karmesh Yadav, Yusuf Ali, Gunshi Gupta, Yarin Gal, Zsolt Kira · PDF
Flow Equivariant World Models: Structured Dynamics Outside the Field of View
Hansen Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, T. Anderson Keller · PDF
FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing
Tanawan Premsri, Parisa Kordjamshidi · PDF
From Static Domain Adaptation to State-Adaptive Perception in Embodied Agents
Yu Zhang · PDF
GeoGrid-Bench: Can Foundation Models Understand Multimodal Gridded Geo-Spatial Data?
Bowen Jiang, Yangxinyu Xie, Xiaomeng Wang, Jiashu He, John K Hutchison, Camillo Jose Taylor, Tanwi Mallick · PDF
Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition
Nicholas Babey, Tiffany Gu, Yiheng Li, Cristian Meo, Kevin Zhu · PDF
Hierarchical Equivariant Policy via Frame Transfer
Haibo Zhao, Dian Wang, Yizhe Zhu, Xupeng Zhu, Owen Lewis Howell, Linfeng Zhao, Yaoyao Qian, Robin Walters, Robert Platt · PDF
Hierarchical Object-Oriented POMDP Planning for Object Rearrangement
Rajesh Devaraddi Mangannavar, Alan Fern, Prasad Tadepalli · PDF
I Know Kung Fu: Synthetic Dexterous Hand Demonstration Collection via VR Teleoperation
Kara Lu, Yanzi He, Cohen Lu, Peihao Li · PDF
Improving Vision-and-Language Navigation with Explicit Sub-Instruction Alignment
Mulang Shi · PDF
LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
Yusuf Dalva, Yijun Li, Qing Liu, Nanxuan Zhao, Jianming Zhang, Zhe Lin, Pinar Yanardag · PDF
LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning
Zezhong Fan, Xiaohan Li, Luyi Ma, Kai Zhao, Liang Peng, Topojoy Biswas, Evren Korpeoglu, Kaushiki Nag, Kannan Achan · PDF
Learning Dynamics of Multitask Training Data in Vision Language Models
Tyler Zhu, Nathan Koome Murungi, Polina Kirichenko, Olga Russakovsky · PDF
Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views
Anna Deichler, Jonas Beskow · PDF
Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots
Junyao Shi, Rujia Yang, Kaitian Chao, Bingqing Selina Wan, Yifei Simon Shao, Jiahui Lei, Jianing Qian, Long Le, Pratik Chaudhari, Kostas Daniilidis, Chuan Wen, Dinesh Jayaraman · PDF
Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark
Xinjie Shen, Mufei Li, Pan Li · PDF
MetaVLA: Unified Meta Co-Training for Efficient Embodied Adaptation
Chen Li, Han Zhang, Zhantao Yang, Fangyi Chen, Anudeepsekhar Bolimera, Marios Savvides · PDF
Motion as Language: Towards a Situation–Motion Language for Spatio-Temporal Learning
Alejandro Sanchez Guinea, Achref Doula, Thomas Kreutz · PDF
NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language
Danial Kamali, Parisa Kordjamshidi · PDF
NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Lyubaykin Nikita, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov · PDF
Object-Centric Agentic Robot Policies
Sacha Morin, Kumaraditya Gupta, Mahtab Sandhu, Charlie Gauthier, Francesco Argenziano, Kirsty Ellis, Liam Paull · PDF
Probing the Limits of Embodied Spatial Planning in LLMs
Xiangjue Dong, Manling Li, James Caverlee · PDF
Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling
Dezhi Luo, Qingying Gao, Hokin Deng · PDF
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting
Duochao Shi, Weijie Wang, Donny Y. Chen, Zeyu Zhang, Jia-Wang Bian, Bohan Zhuang · PDF
RIV-CoT: Retrieval-Based Interleaved Visual Chain-of-Thought for Multimodal Reasoning
Charles Corbière, Simon Roburin, Syrielle Montariol, Antoine Bosselut, Alexandre Alahi · PDF
RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems
Mingcong Lei, Honghao Cai, Zezhou Cui, Liangchen Tan, Junkun Hong, Gehan Hu, Shuangyu Zhu, Yimou Wu, Shaohan Jiang, Ge Wang, Zhen Li, Shuguang Cui, Yiming Zhao, Yatong Han · PDF
ROSE: Reconstructing Objects, Scenes, and Trajectories from Casual Videos for Robotic Manipulation
Peihao Li, Haoran Geng, Jameson Crate, Yanbing Han, Junyi Zhang, Feishi Wang, Charlie Tianyue Cheng, Runpei Dong, Yen-Jen Wang, Haozhe Lou, Trevor Darrell, Pieter Abbeel, Jitendra Malik · PDF
See it. Say it. Sorted: Agentic System for Compositional Diagram Generation
Hantao Zhang, Jingyang Liu, Ed Li · PDF
Seeing Beyond the Scene: Analyzing and Mitigating Background Bias in Action Recognition
Ellie Zhou, Jihoon Chung, Olga Russakovsky · PDF
Self-Augmented Learning of Differentiable Object Models for Compositional Interpretation of Complex Scenes
Antoni Nowinowski, Krzysztof Krawiec · PDF
SITCOM: Scaling Inference-Time COMpute for VLAs
Ayudh Saxena, Harsh Shah, Sandeep Routray, Rishi Rajesh Shah, Esha Pahwa · PDF
Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding
Vahid Mirjalili, Ramin Giahi, Sriram Kollipara, Akshay Kekuda, Kehui Yao, Kai Zhao, Jianpeng Xu, Kaushiki Nag, Sinduja Subramaniam, Topojoy Biswas, Evren Korpeoglu, Kannan Achan · PDF
SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning
Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, Insoo Kim, Jinwoo Shin · PDF
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark · PDF
Spatio-Temporal Grounding of Large Language Models from Perception Streams
Jacob Anderson, Bardh Hoxha, Georgios Fainekos, HIDEKI OKAMOTO, Danil V. Prokhorov · PDF
SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs
Yuyou Zhang, Radu Corcodel, Chiori Hori, Anoop Cherian, Ding Zhao · PDF
TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control
Minkyoung Cho, Ruben Ohana, Christian Jacobsen, Adityan Jothi, Zhuoqing Mao, Min-Hung Chen, Ethem F. Can · PDF
Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning
mobin habibpour, Fatemeh Afghah · PDF
TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
Yuyang Liu, Chuan Wen, Yihang Hu, Dinesh Jayaraman, Yang Gao · PDF
Towards Understanding Multimodal Fine-Tuning: A Case Study into Spatial Features
Lachin Naghashyar, Hunar Batra, Ashkan Khakzar, Philip Torr, Ronald Clark, Christian Schroeder de Witt, Constantin Venhoff · PDF
TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing
Susmit Neogi · PDF
VFSI: Validity First Spatial Intelligence for Constraint-Guided Traffic Diffusion
Kargi Chauhan, Leilani H. Gilpin · PDF
Viewpoint-Invariant Latent Action Learning from Human Video Demonstrations
Jung Min Lee, Dohyeok Lee, Jungwoo Lee · PDF
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, LEI BAI, Zhenfei Yin · PDF
ViPRA: Video Prediction for Robot Actions
Sandeep Routray, Hengkai Pan, Unnat Jain, Shikhar Bahl, Deepak Pathak · PDF
Weakly-supervised Latent Models for Task-specific Visual-Language Control
Xian Yeow Lee, Lasitha Vidyaratne, Gregory Sin, Ahmed K. Farahat, Chetan Gupta · PDF
Wholly Unsupervised! Segmenting Objects by Contrast and Context
Fei Pan, Yixing Wang, Sangryul Jeon, Stella X. Yu · PDF

Accepted papers (56)

☆An Emergent Symbolic Representation of Space as a Bridge Between Language and Reinforcement Learning in Continuous Environments

☆Avi: A 3D Vision-Language Action Model Architecture generating Action from Volumetric Inference

☆BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

☆Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

☆Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

☆COREVQA: Spatial Reasoning and Multi-Step Visual Entailment in Crowded Environments

☆DenseScan: Advancing 3D Scene Understanding with 2D Dense Annotation

☆Evaluation of Vision-LLMs in Surveillance Video

☆Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation

☆FINDINGDORY: A Benchmark to Evaluate Memory in Embodied Agents

☆Flow Equivariant World Models: Structured Dynamics Outside the Field of View

☆FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing

☆From Static Domain Adaptation to State-Adaptive Perception in Embodied Agents

☆GeoGrid-Bench: Can Foundation Models Understand Multimodal Gridded Geo-Spatial Data?

☆Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition

☆Hierarchical Equivariant Policy via Frame Transfer

☆Hierarchical Object-Oriented POMDP Planning for Object Rearrangement

☆I Know Kung Fu: Synthetic Dexterous Hand Demonstration Collection via VR Teleoperation

☆Improving Vision-and-Language Navigation with Explicit Sub-Instruction Alignment

☆LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

☆LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning

☆Learning Dynamics of Multitask Training Data in Vision Language Models

☆Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views

☆Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots

☆Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark

☆MetaVLA: Unified Meta Co-Training for Efficient Embodied Adaptation

☆Motion as Language: Towards a Situation–Motion Language for Spatio-Temporal Learning

☆NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language

☆NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

☆Object-Centric Agentic Robot Policies

☆Probing the Limits of Embodied Spatial Planning in LLMs

☆Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling

☆Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

☆RIV-CoT: Retrieval-Based Interleaved Visual Chain-of-Thought for Multimodal Reasoning

☆RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems

☆ROSE: Reconstructing Objects, Scenes, and Trajectories from Casual Videos for Robotic Manipulation

☆See it. Say it. Sorted: Agentic System for Compositional Diagram Generation

☆Seeing Beyond the Scene: Analyzing and Mitigating Background Bias in Action Recognition

☆Self-Augmented Learning of Differentiable Object Models for Compositional Interpretation of Complex Scenes

☆SITCOM: Scaling Inference-Time COMpute for VLAs

☆Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding

☆SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

☆SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

☆Spatio-Temporal Grounding of Large Language Models from Perception Streams

☆SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs

☆TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

☆Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning

☆TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance

☆Towards Understanding Multimodal Fine-Tuning: A Case Study into Spatial Features

☆TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing

☆VFSI: Validity First Spatial Intelligence for Constraint-Guided Traffic Diffusion

☆Viewpoint-Invariant Latent Action Learning from Human Video Demonstrations

☆VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

☆ViPRA: Video Prediction for Robot Actions

☆Weakly-supervised Latent Models for Task-specific Visual-Language Control

☆Wholly Unsupervised! Segmenting Objects by Contrast and Context

An Emergent Symbolic Representation of Space as a Bridge Between Language and Reinforcement Learning in Continuous Environments

Avi: A 3D Vision-Language Action Model Architecture generating Action from Volumetric Inference

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

COREVQA: Spatial Reasoning and Multi-Step Visual Entailment in Crowded Environments

DenseScan: Advancing 3D Scene Understanding with 2D Dense Annotation

Evaluation of Vision-LLMs in Surveillance Video

Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation

FINDINGDORY: A Benchmark to Evaluate Memory in Embodied Agents

Flow Equivariant World Models: Structured Dynamics Outside the Field of View

FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing

From Static Domain Adaptation to State-Adaptive Perception in Embodied Agents

GeoGrid-Bench: Can Foundation Models Understand Multimodal Gridded Geo-Spatial Data?

Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition

Hierarchical Equivariant Policy via Frame Transfer

Hierarchical Object-Oriented POMDP Planning for Object Rearrangement

I Know Kung Fu: Synthetic Dexterous Hand Demonstration Collection via VR Teleoperation

Improving Vision-and-Language Navigation with Explicit Sub-Instruction Alignment

LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning

Learning Dynamics of Multitask Training Data in Vision Language Models

Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views

Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots

Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark

MetaVLA: Unified Meta Co-Training for Efficient Embodied Adaptation

Motion as Language: Towards a Situation–Motion Language for Spatio-Temporal Learning

NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Object-Centric Agentic Robot Policies

Probing the Limits of Embodied Spatial Planning in LLMs

Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling

Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

RIV-CoT: Retrieval-Based Interleaved Visual Chain-of-Thought for Multimodal Reasoning

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems

ROSE: Reconstructing Objects, Scenes, and Trajectories from Casual Videos for Robotic Manipulation

See it. Say it. Sorted: Agentic System for Compositional Diagram Generation

Seeing Beyond the Scene: Analyzing and Mitigating Background Bias in Action Recognition

Self-Augmented Learning of Differentiable Object Models for Compositional Interpretation of Complex Scenes

SITCOM: Scaling Inference-Time COMpute for VLAs

Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

Spatio-Temporal Grounding of Large Language Models from Perception Streams

SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs

TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

Think, Remember, Navigate: Zero-Shot Object-Goal Navigation with VLM-Powered Reasoning

TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance

Towards Understanding Multimodal Fine-Tuning: A Case Study into Spatial Features

TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing

VFSI: Validity First Spatial Intelligence for Constraint-Guided Traffic Diffusion

Viewpoint-Invariant Latent Action Learning from Human Video Demonstrations

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

ViPRA: Video Prediction for Robot Actions

Weakly-supervised Latent Models for Task-specific Visual-Language Control

Wholly Unsupervised! Segmenting Objects by Contrast and Context