ICLR 2026PastMath & reasoningEfficiency

The First Workshop on Efficient Spatial Reasoning

ES-Reasoning @ ICLR 2026

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 13, 2026, 11:59 UTC
OpenReview-synced 2026-02-13 11:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (48)

Fetched from OpenReview (v2) on 2026-06-10.

An Analysis of Reasoning Length Scaling and Positional Effects in Vision Language Models for Spatial Reasoning
Hakan Muluk · PDF
Anytime Safe PAC Efficient Reasoning
Chengyao Yu, Hao Zeng, Youxin Zhu, Jianguo Huang, Huajun Zeng, Bingyi Jing · PDF
Bio-Inspired Spatial Reasoning Transformer: Grid Cells, Place Cells, and Attractor Dynamics for Text-Based Spatial Understanding
Hyunjun Kim · PDF
CivicEmbed: Feature-specific embeddings for efficient geographic reasoning and retrieval
Josephine Wang, Julien Coquet, Jeffrey Huang · PDF
Demystifying Action Space Design for Robotic Manipulation Policies
Yuchun Feng, Jinliang Zheng, Zhihao Wang, Dongxiu Liu, Jianxiong Li, Jiangmiao Pang, Tai Wang, Xianyuan Zhan · PDF
DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution
Yunhai Hu, Zining Liu, Xiangyang Yin, Tianhua Xia, BO BAO, Eric Sather, Vithursan Thangarasa, Sai Qian Zhang · PDF
EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
Zelin Xu, Yupu Zhang, Saugat Adhikari, Saiful Islam, Tingsong Xiao, Zibo Liu, Shigang Chen, Da Yan, Zhe Jiang · PDF
Efficient Dense Features With BRIXEL
Alexander Lappe, Martin A. Giese · PDF
Embedding Morphology into Transformers for Cross-Robot Policy Learning
Kei Suzuki, Jing Liu, Ye Wang, Chiori Hori, Matthew Brand, Diego Romeres, Toshiaki Koike-Akino · PDF
ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li · PDF
Enhancing Aerial Vision-Language Navigation with Map Grounding and History Awareness
Hakob Tamazyan, Narek Nurijanyan, Boris Martirosyan, Hrant Khachatrian · PDF
Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences
Wenxi Wu, Jingjing Zhang, Martim Brandao · PDF
Explicit 3D Spatial Reasoning via Program Generation
Zhanpeng Luo, Ce Zhang, Silong Yong, Cunxi Dai, Qianwei Wang, Haoxi Ran, Guanya Shi, Katia P. Sycara, Yaqi Xie · PDF
FlashDrive: Flash Vision-Language-Action Inference for Autonomous Driving
Zekai Li, Yihao Liang, Hongfei Zhang, Jian Chen, Zhijian Liu · PDF
FROM STEERING TO PEDALLING: DO AUTONOMOUS DRIVING VLMS GENERALIZE TO CYCLIST-ASSISTIVE SPATIAL PERCEPTION AND PLANNING?
Krishna Kanth Nakka, Vedasri Nakka · PDF
FROST: Filtering Reasoning Outliers with Attention for Efficient Reasoning
Haozheng Luo, Zhuolin Jiang, Md Zahid Hasan, Yan Chen, Soumalya Sarkar · PDF
Geometry-aware 4D Video Generation for Robot Manipulation
Zeyi Liu, Shuang Li, Eric Cousineau, Siyuan Feng, Benjamin Burchfiel, Shuran Song · PDF
GRAID: Enhancing Spatial Reasoning of VLMs through High-Fidelity Data Generation
Karim Elmaaroufi, Liheng Lai, Justin Svegliato, Yutong Bai, Sanjit A. Seshia, Matei Zaharia · PDF
HiResNets: Native Full-HD Video Recognition with Foveal Residual Streams
Shivani Mall, Swarnim Jain, Joao F. Henriques · PDF
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian · PDF
LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning
Jiangyong Huang, Xiaojian Ma, Xiongkun Linghu, Junchao He, Qing Li, Song-Chun Zhu, Yixin Chen, Baoxiong Jia, Siyuan Huang · PDF
LocationReasoner: Evaluating LLMs on Real-World Site Selection Reasoning
Miho Koda, Yu Zheng, Ruixian Ma, Mingyang Sun, Devesh Pansare, Fabio Duarte, Paolo Santi · PDF
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
Zhenyu Pan, Han Liu · PDF
Multimodal Language Models Cannot Spot Spatial Inconsistencies
Om Khangaonkar, Hadi J. Rad, Hamed Pirsiavash · PDF
Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images
JiaKui Hu, Shanshan Zhao, Qing-Guo Chen, Xuerui Qiu, Jialun Liu, Zhao Xu, Weihua Luo, Kaifu Zhang, Yanye Lu · PDF
On the Provable Performance Guarantee of Efficient Reasoning Models
Hao Zeng, Jianguo Huang, Bingyi Jing, Hongxin Wei, Bo An · PDF
Orion: A Fully Deterministic and Interpretable Pipeline for Video Scene Graph Generation with Explicit Causal Influence Scoring
Riddhiman Rana, Aryav Semwal, Yogesh Atluru, Shivank Garg, Cristian Meo, Kevin Zhu · PDF
PhyRPR: Training-Free Physics-Constrained Video Generation
Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu · PDF
PhysNote: Self-Knowledge Notes for Evolvable Physical Reasoning in Vision-Language Model
Sinin Zhang, Yunfei Xie, Yuxuan Cheng, Haoyu Zhang, Tong Zhang · PDF
PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu, Dieter Fox, Kaichun Mo, Li Fei-Fei · PDF
Probing Perceptual Constancy in Large Vision-Language Models
Haoran Sun, Bingyang Wang, Suyang Yu, Yijiang Li, Qingying Gao, Haiyun Lyu, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Maijunxian Wang, Dezhi Luo, Hokin Deng · PDF
Probing Visual Planning in Image Editing Models
Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma · PDF
Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision–Language–Action Models via Latent Iterative Reasoning
Yalcin Tur, Jalal Naghiyev, Haoquan Fang, Wei-Chuan Tsai, Jiafei Duan, Dieter Fox, Ranjay Krishna · PDF
REMAP: Evaluating Geometric Dual Representations in Multi-view Spatial Reasoning
Selina Cheng, Anne Wu, Eunice Yiu, Yoav Artzi · PDF
ReSpace: Text-Driven Autoregressive 3D Indoor Scene Synthesis and Editing
Martin JJ. Bucher, Iro Armeni · PDF
RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic
Le Wang, Zonghao Ying, Xiao yang, Quanchen Zou, Zhenfei Yin, Tianlin Li, Jian Yang, Yaodong Yang, Lu Sheng, Aishan Liu, Xianglong Liu · PDF
SCOPE: Spatially-Constrained Parametric Editing for Text-Guided CAD Models
Md Zahid Hasan, Soumalya Sarkar · PDF
Seeing Once is Enough? Online Geometry-Aware Token Pruning for 3D Question Answering
Ruei-Chi Lai, Bolivar Enrique Solarte, Chin-Hsuan Wu, Yi-Hsuan Tsai, Min Sun · PDF
Solving Spatial Supersensing Without Spatial Supersensing
Vishaal Udandarao, Shyamgopal Karthik, Surabhi S Nath, Andreas Hochlehnert, Matthias Bethge, Ameya Prabhu · PDF
Spatial Competence Benchmark
Jash Vira, Ashley Harris · PDF
SpatialTree : How Spatial Abilities Branch Out in MLLMs
Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang · PDF
Structural Graph Probing of Vision–Language Models
Haoyu He, Yue Zhuo, Yu Zheng, Qi R. Wang · PDF
SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization
Peiyao Wang, Haibin Ling · PDF
The Dual Mechanisms of Spatial Reasoning in Vision–Language Models
Kelly Cui, Nikhil Prakash, Ayush Raina, David Bau, Antonio Torralba, Tamar Rott Shaham · PDF
TIDES: Test-time Inference Drift Exploitation via Scaling
Haoran Dai, Haozheng Luo, Haotian Zhang, Meng lin, Yan Chen, Binghui Wang · PDF
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez · PDF
VisualThinker: First ever R1-Zero's Aha Moment on just a 2B non-SFT Model
Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh · PDF
ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution
Yahia Alqurnawi, Preetom Biswas, Anmol Rao, Tejas Anvekar, Chitta Baral, Vivek Gupta · PDF

Accepted papers (48)

☆An Analysis of Reasoning Length Scaling and Positional Effects in Vision Language Models for Spatial Reasoning

☆Anytime Safe PAC Efficient Reasoning

☆Bio-Inspired Spatial Reasoning Transformer: Grid Cells, Place Cells, and Attractor Dynamics for Text-Based Spatial Understanding

☆CivicEmbed: Feature-specific embeddings for efficient geographic reasoning and retrieval

☆Demystifying Action Space Design for Robotic Manipulation Policies

☆DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution

☆EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery

☆Efficient Dense Features With BRIXEL

☆Embedding Morphology into Transformers for Cross-Robot Policy Learning

☆ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

☆Enhancing Aerial Vision-Language Navigation with Map Grounding and History Awareness

☆Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

☆Explicit 3D Spatial Reasoning via Program Generation

☆FlashDrive: Flash Vision-Language-Action Inference for Autonomous Driving

☆FROM STEERING TO PEDALLING: DO AUTONOMOUS DRIVING VLMS GENERALIZE TO CYCLIST-ASSISTIVE SPATIAL PERCEPTION AND PLANNING?

☆FROST: Filtering Reasoning Outliers with Attention for Efficient Reasoning

☆Geometry-aware 4D Video Generation for Robot Manipulation

☆GRAID: Enhancing Spatial Reasoning of VLMs through High-Fidelity Data Generation

☆HiResNets: Native Full-HD Video Recognition with Foveal Residual Streams

☆Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

☆LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning

☆LocationReasoner: Evaluating LLMs on Real-World Site Selection Reasoning

☆MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

☆Multimodal Language Models Cannot Spot Spatial Inconsistencies

☆Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

☆On the Provable Performance Guarantee of Efficient Reasoning Models

☆Orion: A Fully Deterministic and Interpretable Pipeline for Video Scene Graph Generation with Explicit Causal Influence Scoring

☆PhyRPR: Training-Free Physics-Constrained Video Generation

☆PhysNote: Self-Knowledge Notes for Evolvable Physical Reasoning in Vision-Language Model

☆PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

☆Probing Perceptual Constancy in Large Vision-Language Models

☆Probing Visual Planning in Image Editing Models

☆Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision–Language–Action Models via Latent Iterative Reasoning

☆REMAP: Evaluating Geometric Dual Representations in Multi-view Spatial Reasoning

☆ReSpace: Text-Driven Autoregressive 3D Indoor Scene Synthesis and Editing

☆RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

☆SCOPE: Spatially-Constrained Parametric Editing for Text-Guided CAD Models

☆Seeing Once is Enough? Online Geometry-Aware Token Pruning for 3D Question Answering

☆Solving Spatial Supersensing Without Spatial Supersensing

☆Spatial Competence Benchmark

☆SpatialTree : How Spatial Abilities Branch Out in MLLMs

☆Structural Graph Probing of Vision–Language Models

☆SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization

☆The Dual Mechanisms of Spatial Reasoning in Vision–Language Models

☆TIDES: Test-time Inference Drift Exploitation via Scaling

☆VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

☆VisualThinker: First ever R1-Zero's Aha Moment on just a 2B non-SFT Model

☆ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution

An Analysis of Reasoning Length Scaling and Positional Effects in Vision Language Models for Spatial Reasoning

Anytime Safe PAC Efficient Reasoning

Bio-Inspired Spatial Reasoning Transformer: Grid Cells, Place Cells, and Attractor Dynamics for Text-Based Spatial Understanding

CivicEmbed: Feature-specific embeddings for efficient geographic reasoning and retrieval

Demystifying Action Space Design for Robotic Manipulation Policies

DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution

EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery

Efficient Dense Features With BRIXEL

Embedding Morphology into Transformers for Cross-Robot Policy Learning

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Enhancing Aerial Vision-Language Navigation with Map Grounding and History Awareness

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

Explicit 3D Spatial Reasoning via Program Generation

FlashDrive: Flash Vision-Language-Action Inference for Autonomous Driving

FROM STEERING TO PEDALLING: DO AUTONOMOUS DRIVING VLMS GENERALIZE TO CYCLIST-ASSISTIVE SPATIAL PERCEPTION AND PLANNING?

FROST: Filtering Reasoning Outliers with Attention for Efficient Reasoning

Geometry-aware 4D Video Generation for Robot Manipulation

GRAID: Enhancing Spatial Reasoning of VLMs through High-Fidelity Data Generation

HiResNets: Native Full-HD Video Recognition with Foveal Residual Streams

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning

LocationReasoner: Evaluating LLMs on Real-World Site Selection Reasoning

MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

Multimodal Language Models Cannot Spot Spatial Inconsistencies

Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

On the Provable Performance Guarantee of Efficient Reasoning Models

Orion: A Fully Deterministic and Interpretable Pipeline for Video Scene Graph Generation with Explicit Causal Influence Scoring

PhyRPR: Training-Free Physics-Constrained Video Generation

PhysNote: Self-Knowledge Notes for Evolvable Physical Reasoning in Vision-Language Model

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

Probing Perceptual Constancy in Large Vision-Language Models

Probing Visual Planning in Image Editing Models

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision–Language–Action Models via Latent Iterative Reasoning

REMAP: Evaluating Geometric Dual Representations in Multi-view Spatial Reasoning

ReSpace: Text-Driven Autoregressive 3D Indoor Scene Synthesis and Editing

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

SCOPE: Spatially-Constrained Parametric Editing for Text-Guided CAD Models

Seeing Once is Enough? Online Geometry-Aware Token Pruning for 3D Question Answering

Solving Spatial Supersensing Without Spatial Supersensing

Spatial Competence Benchmark

SpatialTree : How Spatial Abilities Branch Out in MLLMs

Structural Graph Probing of Vision–Language Models

SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization

The Dual Mechanisms of Spatial Reasoning in Vision–Language Models

TIDES: Test-time Inference Drift Exploitation via Scaling

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

VisualThinker: First ever R1-Zero's Aha Moment on just a 2B non-SFT Model

ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution