NeurIPS 2025PastRobotics

NeurIPS 2025 Workshop on Embodied World Models for Decision Making

NeurIPS 2025 Workshop EWM

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 3, 2025, 23:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (51)

Fetched from OpenReview (v2) on 2026-06-10.

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search
Arnav Kumar Jain, Vibhakar Mohta, Subin Kim, Atiksh Bhardwaj, Juntao Ren, Yunhai Feng, Sanjiban Choudhury, Gokul Swamy · PDF
Abstract Sim2Real through Approximate Information States
Yunfu Deng, Josiah P. Hanna · PDF
Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making
Fan Feng, Selena Ge, Minghao Fu, Zijian Li, Yujia Zheng, Zeyu Tang, Yingyao Hu, Biwei Huang, Kun Zhang · PDF
Adversarial Diffusion for Robust Reinforcement Learning
Daniele Foffano, Alessio Russo, Alexandre Proutiere · PDF
Avi: A 3D Vision-Language Action Model Architecture generating Action from Volumetric Inference
Harris Song, Long Le · PDF
Beyond Experience: Fictive Learning as an Inherent Advantage of World Models
Jianning Chen, Masakazu Taira, Kenji Doya · PDF
Bridging the Sim-to-Real Gap in Humanoid Dynamics via Learned Nonlinear Operators
Jieming Cui, Zhenghao Qi, Yutang Lin, Yifei Zhao, Yuntian Hu, Lei Kuang, Shuang Qiu, Ruihua Zhang, Bin He, Yixin Zhu · PDF
Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models
Brennen Hill, Mant Koh En Wei, Jishnuanandh Thangavel · PDF
Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
Shangzhe Li, Zhiao Huang, Hao Su · PDF
CRISP: Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives
Zihan Wang, Jiashun Wang, Jeff Tan, Yiwen Zhao, Jessica K. Hodgins, Shubham Tulsiani, Deva Ramanan · PDF
Decoupled Planning and Execution with LLM-Driven World Models for Efficient Reinforcement learning
Guoqing Ma · PDF
Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving
Yinzhe Shen, Omer Sahin Tas, Kaiwen Wang, Royden Wagner, Christoph Stiller · PDF
EnerVerse-AC: Envisioning Embodied Environments with Action Condition
Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren · PDF
Exploring exploration with foundation agents in interactive environments
Daniel P. Sawyer, Nan Rosemary Ke, Hubert Soyer, Martin Engelcke, John Reid, David P Reichert, Drew A. Hudson, Alexander Lerchner, Danilo Jimenez Rezende, Timothy P Lillicrap, Michael Curtis Mozer, Jane X Wang · PDF
FalconWing: An Ultra-Light Fixed-Wing Platform for Indoor Aerial Applications
Yan Miao, Will Shen, Hang Cui, Sayan Mitra · PDF
FLAM: Scaling Latent Action World Models with Factorization
Zizhao Wang, Chang Shi, Jiaheng Hu, Roberto Martín-Martín, Peter Stone · PDF
Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds
Remo Sasso, Michelangelo Conserva, Dominik Jeurissen, Paulo Rauber · PDF
Generative World Models of Tasks: LLM-Driven Hierarchical Scaffolding for Embodied Agents
Brennen Hill · PDF
Geosteering Through the Lens of Decision Transformers: Toward Embodied Sequence Decision-Making
Hibat Errahmen DJECTA · PDF
HDFlow: Hierarchical Diffusion-Flow Planning for Long-horizon Robotic Assembly
Gireesh Nandiraju, Yuanliang Ju, Chaoyi Xu, He Wang · PDF
How Foundational Skills Influence VLM-based Embodied Agents: A Native Perspective
Bo Peng, Pi Bu, Keyu Pan, Xinrun Xu, Miao Chen, Yang Du, Lin Li, Jun Song, Tong Xu, Bo Zheng · PDF
Improvisational Reasoning with Vision-Language Models for Grounded Procedural Planning
Md Masudur Rahman, Yupeng Zhuo, Juan Wachs · PDF
In-Context Policy Iteration for Dynamic Manipulation
Mark Van der Merwe, Devesh K. Jha · PDF
Latent Weight Diffusion: Generating reactive policies instead of trajectories
Shashank Hegde, Satyajeet Das, Gautam Salhotra, Gaurav S. Sukhatme · PDF
Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning
Daniel De Dios Allegue, Jinke He, Frans A Oliehoek · PDF
LLM-Guided Probabilistic Program Induction for POMDP Model Estimation
Aidan Curtis, Hao Tang, Thiago Veloso, Kevin Ellis, Joshua B. Tenenbaum, Tomás Lozano-Pérez, Leslie Pack Kaelbling · PDF
Mobile Manipulation with Active Inference for Long-Horizon Rearrangement Tasks
Corrado Pezzato, Ozan Catal, Toon Van de Maele, Riddhi J. Pitliya, Tim Verbelen · PDF
NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Lyubaykin Nikita, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov · PDF
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas · PDF
Opinion: A Unified World Model is the cornerstone for integrating perception, reasoning, and decision-making in embodied AI
Yipeng Xu · PDF
Opinion: How Can Causal AI Benefit World Models?
Qiuling Pan, Hong Zhou, Zhouchen Lin · PDF
Opinion: Learning Intuitive Physics May Require More Than Visual Data
Ellen Su, Solim LeGris, Todd M. Gureckis, Mengye Ren · PDF
Opinion: Small VLAs Self-Learn Consistency
Francesco Capuano, Adil Zouitine, Michel Aractingi · PDF
Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning
Haidong Huang, Haiyue Zhu, Jiayu Song, Xixin Zhao, Yaohua Zhou, Jiayi Zhang, Yuze Zhai, Xiaocong Li · PDF
Plan Verification for LLM-Based Embodied Task Completion Agents
Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-Tür, Gokhan Tur · PDF
PolicyGRID: Acting to Understand, Understanding to Act
Taqiya Ehsan, Shuren Xia, Jorge Ortiz · PDF
RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving
Carlo Bosio, Greg Woelki, Noureldin Hendy, Nicholas Roy, Byungsoo Kim · PDF
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics
Chenhao Li, Andreas Krause, Marco Hutter · PDF
ROPES: Robotic Pose Estimation via Score-based Causal Representation Learning
Pranamya Prashant Kulkarni, Puranjay Datta, Emre Acartürk, Burak Varıcı, Karthikeyan Shanmugam, Ali Tajer · PDF
ScenePhys — Controllable Physics Videos for World-Model Evaluation
Arshia Hemmat, Emad Aghahosseini, Alireza Nasri, Mohammad Hossein Shaker Ardakani, Amirmasoud Rismanchian, Ali Mamanpoosh, Afsaneh Fatemi · PDF
Sim-to-Real Contact-Rich Pivoting via Optimization-Guided RL with Vision and Touch
Yuki Shirai, Kei Ota, Devesh K. Jha, Diego Romeres · PDF
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark · PDF
SPUR: Scaling Reward Learning from Human Demonstrations
Anthony Liang, Yigit Korkmaz, Jiahui Zhang, Jesse Zhang, Abrar Anwar, Sidhant Kaushik, Yufei Wang, Yu Xiang, David Held, Dieter Fox, Abhishek Gupta, Stephen Tu, Erdem Biyik · PDF
Stable Planning through Aligned Representations in Model-Based Reinforcement Learning
Misagh Soltani, Forest Agostinelli · PDF
Steering Diffusion Policies with Value-Guided Denoising
Hanming Ye · PDF
The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum
Brennen Hill · PDF
Towards Fine-tuning a Small Vision-Language Model for Aerial Navigation
Hakob Tamazyan, Narek Nurijanyan, Boris Martirosyan, Hrant Khachatrian · PDF
ViPRA: Video Prediction for Robot Actions
Sandeep Routray, Hengkai Pan, Unnat Jain, Shikhar Bahl, Deepak Pathak · PDF
Vision-Language Reasoning for Burn Depth Assessment with Structured Diagnostic Hypotheses
Md Masudur Rahman, Mohamed El Masry, Kristo Nuutila, Gayle Gordillo, Juan Wachs · PDF
VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models
Chongkai Gao, Zixuan Liu, Zhenghao Chi, Junshan Huang, Xin Fei, Yiwen Hou, Yuxuan Zhang, Yudi Lin, Zhirui Fang, Zeyu Jiang, Lin Shao · PDF
WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making
Zhilong Zhang, Ruifeng Chen, Junyin Ye, Yihao Sun, Haoxiang Ren, Xinghao Du, Pengyuan Wang, Jing-Cheng Pang, Kaiyuan Li, Tian-Shuo Liu, Haoxin Lin, Yang Yu, Zhi-Hua Zhou · PDF

Accepted papers (51)

☆A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search

☆Abstract Sim2Real through Approximate Information States

☆Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making

☆Adversarial Diffusion for Robust Reinforcement Learning

☆Avi: A 3D Vision-Language Action Model Architecture generating Action from Volumetric Inference

☆Beyond Experience: Fictive Learning as an Inherent Advantage of World Models

☆Bridging the Sim-to-Real Gap in Humanoid Dynamics via Learned Nonlinear Operators

☆Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

☆Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning

☆CRISP: Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives

☆Decoupled Planning and Execution with LLM-Driven World Models for Efficient Reinforcement learning

☆Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

☆EnerVerse-AC: Envisioning Embodied Environments with Action Condition

☆Exploring exploration with foundation agents in interactive environments

☆FalconWing: An Ultra-Light Fixed-Wing Platform for Indoor Aerial Applications

☆FLAM: Scaling Latent Action World Models with Factorization

☆Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds

☆Generative World Models of Tasks: LLM-Driven Hierarchical Scaffolding for Embodied Agents

☆Geosteering Through the Lens of Decision Transformers: Toward Embodied Sequence Decision-Making

☆HDFlow: Hierarchical Diffusion-Flow Planning for Long-horizon Robotic Assembly

☆How Foundational Skills Influence VLM-based Embodied Agents: A Native Perspective

☆Improvisational Reasoning with Vision-Language Models for Grounded Procedural Planning

☆In-Context Policy Iteration for Dynamic Manipulation

☆Latent Weight Diffusion: Generating reactive policies instead of trajectories

☆Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning

☆LLM-Guided Probabilistic Program Induction for POMDP Model Estimation

☆Mobile Manipulation with Active Inference for Long-Horizon Rearrangement Tasks

☆NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

☆OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

☆Opinion: A Unified World Model is the cornerstone for integrating perception, reasoning, and decision-making in embodied AI

☆Opinion: How Can Causal AI Benefit World Models?

☆Opinion: Learning Intuitive Physics May Require More Than Visual Data

☆Opinion: Small VLAs Self-Learn Consistency

☆Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning

☆Plan Verification for LLM-Based Embodied Task Completion Agents

☆PolicyGRID: Acting to Understand, Understanding to Act

☆RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving

☆Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics

☆ROPES: Robotic Pose Estimation via Score-based Causal Representation Learning

☆ScenePhys — Controllable Physics Videos for World-Model Evaluation

☆Sim-to-Real Contact-Rich Pivoting via Optimization-Guided RL with Vision and Touch

☆SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

☆SPUR: Scaling Reward Learning from Human Demonstrations

☆Stable Planning through Aligned Representations in Model-Based Reinforcement Learning

☆Steering Diffusion Policies with Value-Guided Denoising

☆The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum

☆Towards Fine-tuning a Small Vision-Language Model for Aerial Navigation

☆ViPRA: Video Prediction for Robot Actions

☆Vision-Language Reasoning for Burn Depth Assessment with Structured Diagnostic Hypotheses

☆VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

☆WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search

Abstract Sim2Real through Approximate Information States

Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making

Adversarial Diffusion for Robust Reinforcement Learning

Avi: A 3D Vision-Language Action Model Architecture generating Action from Volumetric Inference

Beyond Experience: Fictive Learning as an Inherent Advantage of World Models

Bridging the Sim-to-Real Gap in Humanoid Dynamics via Learned Nonlinear Operators

Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning

CRISP: Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives

Decoupled Planning and Execution with LLM-Driven World Models for Efficient Reinforcement learning

Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

EnerVerse-AC: Envisioning Embodied Environments with Action Condition

Exploring exploration with foundation agents in interactive environments

FalconWing: An Ultra-Light Fixed-Wing Platform for Indoor Aerial Applications

FLAM: Scaling Latent Action World Models with Factorization

Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds

Generative World Models of Tasks: LLM-Driven Hierarchical Scaffolding for Embodied Agents

Geosteering Through the Lens of Decision Transformers: Toward Embodied Sequence Decision-Making

HDFlow: Hierarchical Diffusion-Flow Planning for Long-horizon Robotic Assembly

How Foundational Skills Influence VLM-based Embodied Agents: A Native Perspective

Improvisational Reasoning with Vision-Language Models for Grounded Procedural Planning

In-Context Policy Iteration for Dynamic Manipulation

Latent Weight Diffusion: Generating reactive policies instead of trajectories

Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning

LLM-Guided Probabilistic Program Induction for POMDP Model Estimation

Mobile Manipulation with Active Inference for Long-Horizon Rearrangement Tasks

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

Opinion: A Unified World Model is the cornerstone for integrating perception, reasoning, and decision-making in embodied AI

Opinion: How Can Causal AI Benefit World Models?

Opinion: Learning Intuitive Physics May Require More Than Visual Data

Opinion: Small VLAs Self-Learn Consistency

Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning

Plan Verification for LLM-Based Embodied Task Completion Agents

PolicyGRID: Acting to Understand, Understanding to Act

RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving

Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics

ROPES: Robotic Pose Estimation via Score-based Causal Representation Learning

ScenePhys — Controllable Physics Videos for World-Model Evaluation

Sim-to-Real Contact-Rich Pivoting via Optimization-Guided RL with Vision and Touch

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

SPUR: Scaling Reward Learning from Human Demonstrations

Stable Planning through Aligned Representations in Model-Based Reinforcement Learning

Steering Diffusion Policies with Value-Guided Denoising

The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum

Towards Fine-tuning a Small Vision-Language Model for Aerial Navigation

ViPRA: Video Prediction for Robot Actions

Vision-Language Reasoning for Burn Depth Assessment with Structured Diagnostic Hypotheses

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making