CVPR 2026PastLarge language modelsAgentsRobotics

The 2nd Workshop on Foundation Models Meet Embodied Agents at CVPR 2026

FMEA @ CVPR 2026

Official website ↗OpenReview venue ↗See all CVPR workshops →✎ Edit this entry

Submission deadline: May 11, 2026, 23:59 UTC
OpenReview-synced 2026-05-11 23:59 UTC (as of 2026-06-30) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (34)

Fetched from OpenReview (v2) on 2026-06-10.

$Re^2$: Reflective Rule Induction and Rule-Guided Refinement for Embodied Planning
Yang Chen, Hong-Jie You, Jie-Jing Shao, Xiao-Wen Yang, Ming Yang, Yu-Feng Li, Lan-Zhe Guo · PDF
A Physics-Grounded Benchmark for Multi-Agent Dynamics in World Models
Nuo Chen, Lulin Liu, Zihao Li, Ziyao Zeng, Zihao Zhu, Wenyan Cong, Junyuan Hong, Yunhao Yang, Zhengzhong Tu, Yan Wang, Boris Ivanovic, Marco Pavone, Zhangyang Wang, Yang Zhou, Zhiwen Fan · PDF
ADeltaM: An Exploratory Counterfactual Delta-Memory Interface for Egocentric Agents
liyang ruan, Jiahao Cao · PDF
Automated Skill Optimization via Formal Verification for Embodied Agents
Yunhao Yang, Neel P. Bhatt, Kevin Wang, Zhangyang Wang, ufuk topcu · PDF
EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training
Yiyang Du, Zhanqiu Guo, Xin Ye, Liu Ren, Chenyan Xiong · PDF
EvoWorld: A World-Model-Centric Framework for Continuous Self-Evolution of Modular Embodied Skills
Boshi Zhang, Sen Cui, BaoHuaYin, Youyi Kou, Junyu Wu, Zuo Pu, TAO XUE, Zhikang Chen, Shanshan Wei, Min Zhang, Miao Liu, Changshui Zhang, Zhang Tao · PDF
FunFact: Building Probabilistic Functional 3D Scene Graphs via Factor-Graph Reasoning
Zhengyu Fu, René Zurbrügg, Kaixian Qu, Marc Pollefeys, Marco Hutter, Hermann Blum, Zuria Bauer · PDF
GeoWorld-VLM: Sequential 3D Generation via Evidential Memory
Renjie Gu, Kaichen Zhou, Yan Luo, Mengyu Wang · PDF
HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations
Xiaomeng Xu, Jisang Park, Han Zhang, Eric Cousineau, Aditya Bhat, Jose Barreiros, Dian Wang, Jeannette Bohg, Shuran Song · PDF
Inference-Time Planning with Action-Conditioned Video Models for Generalizable Robot Manipulation
Zhiting Mei, Yanbo Xu, Tenny Yin, Ola Sho, Anirudha Majumdar · PDF
InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions
Sirui Xu, Samuel Schulter, Morteza Ziyadi, Xialin He, Xiaohan Fei, Yu-Xiong Wang, Liangyan Gui · PDF
LARE: Low-Attention Region Encoding for Text--Image Retrieval
Muhammad Kamran J Khan, Abdulmalik Alquwayfili, Faisal AlMeshal, Jumanah Almajnouni, Leena Alotaibi, Huda Abdulhadi Alamri, Raied Aljadaany, Faisal alhajari, Mohammed Alkhrashi, Alreem Almuhrij, Abdullah Aldwyish · PDF
Learning Situated Awareness in the Real World
Chuhan Li, Rilyn R. Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang · PDF
Making Your Action Policies Interpretable: Mixture of Action Queries
Suhyung Choi, Youngseok Joo, Hyundo Lee, Kisung Shin, Kyuhwan Shim, Chungwoo Lee, Minjeong Gu, Jun Ki Lee, Byoung-Tak Zhang · PDF
MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence
Hilton Raj, Vishnuram AV · PDF
MOSAIC: The Right Modules for Each Task in Embodied Agents
Kevin Wang, Dweep Trivedi, Vincent Ha, Albert Jiang, Christian Ellis, ufuk topcu, Swarat Chaudhuri, Zhangyang Wang · PDF
Multimodal Causal Subtask Modeling for Scalable VLA Pipelines in Long-Horizon Manipulation
Yina Jian · PDF
PEFT Methods for Embodied VLM Agents: A Systematic Study and MoE-DoRA
Vishnuram AV, Hilton Raj · PDF
PhysMem: Scaling Test-Time Memory for Embodied Physical Reasoning
Haoyang Li, Yang You, Hao Su, Leonidas Guibas · PDF
PInVerify: An Offline Embodied Benchmark for Active Instance Verification
Yuhang Jiang · PDF
PLanAR: Planning-Language-Grounded Agentic Reasoning for Robot Manipulation
Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Quan Khanh Luu, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She · PDF
RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks
Mingxuan Yan, Yuping Wang, Zechun Liu, Jiachen Li · PDF
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies
Yinpei Dai, Hongze Fu, Jayjun Lee, Yuejiang Liu, Haoran Zhang, Jianing Yang, Chelsea Finn, Nima Fazeli, Joyce Chai · PDF
RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains
Yi Ru Wang, Carter Ung, Evan Gubarev, Christopher Tan, Siddhartha Srinivasa, Dieter Fox · PDF
Scene2Demo: Self-Evolving Embodied Data Generation via Object-Action Graph
Xiang Liu, Sen Cui, Guocai Yao, Zhong Cao, Jingheng Ma, Min Zhang, Miao Liu, Changshui Zhang · PDF
Self-Improving Loops for Visual Robotic Planning
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun · PDF
Semantic Horizons: Information-Theoretic Limits of Foundation Model-Guided Embodied Planning
Siddharth Karuturi, Kaustubh S. Bukkapatnam · PDF
Task-Relevant Depth Quality Metrics for Suction Grasping
Shivansh Inamdar · PDF
Theory of Space: Benchmarking Active Spatial Belief Construction and Revision in Foundation Models for Embodied Agents
Pingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li · PDF
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma · PDF
VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation
Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Qiwei Du, Zhuoqun Chen, Bowen Li, Chen Wang · PDF
VLS: Steering Pretrained Robot Policies via Vision–Language Models
Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna · PDF
WFM-Eval: Interpretable Error Diagnostics for Video World Models in Robotics
Sahil Khose, Mengqi Zhang, Prithvijit Chattopadhyay, Judy Hoffman · PDF
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal · PDF

Accepted papers (34)

☆$Re^2$: Reflective Rule Induction and Rule-Guided Refinement for Embodied Planning

☆A Physics-Grounded Benchmark for Multi-Agent Dynamics in World Models

☆ADeltaM: An Exploratory Counterfactual Delta-Memory Interface for Egocentric Agents

☆Automated Skill Optimization via Formal Verification for Embodied Agents

☆EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

☆EvoWorld: A World-Model-Centric Framework for Continuous Self-Evolution of Modular Embodied Skills

☆FunFact: Building Probabilistic Functional 3D Scene Graphs via Factor-Graph Reasoning

☆GeoWorld-VLM: Sequential 3D Generation via Evidential Memory

☆HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

☆Inference-Time Planning with Action-Conditioned Video Models for Generalizable Robot Manipulation

☆InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

☆LARE: Low-Attention Region Encoding for Text--Image Retrieval

☆Learning Situated Awareness in the Real World

☆Making Your Action Policies Interpretable: Mixture of Action Queries

☆MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence

☆MOSAIC: The Right Modules for Each Task in Embodied Agents

☆Multimodal Causal Subtask Modeling for Scalable VLA Pipelines in Long-Horizon Manipulation

☆PEFT Methods for Embodied VLM Agents: A Systematic Study and MoE-DoRA

☆PhysMem: Scaling Test-Time Memory for Embodied Physical Reasoning

☆PInVerify: An Offline Embodied Benchmark for Active Instance Verification

☆PLanAR: Planning-Language-Grounded Agentic Reasoning for Robot Manipulation

☆RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

☆RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

☆RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains

☆Scene2Demo: Self-Evolving Embodied Data Generation via Object-Action Graph

☆Self-Improving Loops for Visual Robotic Planning

☆Semantic Horizons: Information-Theoretic Limits of Foundation Model-Guided Embodied Planning

☆Task-Relevant Depth Quality Metrics for Suction Grasping

☆Theory of Space: Benchmarking Active Spatial Belief Construction and Revision in Foundation Models for Embodied Agents

☆TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

☆VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

☆VLS: Steering Pretrained Robot Policies via Vision–Language Models

☆WFM-Eval: Interpretable Error Diagnostics for Video World Models in Robotics

☆When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

$Re^2$: Reflective Rule Induction and Rule-Guided Refinement for Embodied Planning

A Physics-Grounded Benchmark for Multi-Agent Dynamics in World Models

ADeltaM: An Exploratory Counterfactual Delta-Memory Interface for Egocentric Agents

Automated Skill Optimization via Formal Verification for Embodied Agents

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

EvoWorld: A World-Model-Centric Framework for Continuous Self-Evolution of Modular Embodied Skills

FunFact: Building Probabilistic Functional 3D Scene Graphs via Factor-Graph Reasoning

GeoWorld-VLM: Sequential 3D Generation via Evidential Memory

HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

Inference-Time Planning with Action-Conditioned Video Models for Generalizable Robot Manipulation

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

LARE: Low-Attention Region Encoding for Text--Image Retrieval

Learning Situated Awareness in the Real World

Making Your Action Policies Interpretable: Mixture of Action Queries

MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence

MOSAIC: The Right Modules for Each Task in Embodied Agents

Multimodal Causal Subtask Modeling for Scalable VLA Pipelines in Long-Horizon Manipulation

PEFT Methods for Embodied VLM Agents: A Systematic Study and MoE-DoRA

PhysMem: Scaling Test-Time Memory for Embodied Physical Reasoning

PInVerify: An Offline Embodied Benchmark for Active Instance Verification

PLanAR: Planning-Language-Grounded Agentic Reasoning for Robot Manipulation

RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains

Scene2Demo: Self-Evolving Embodied Data Generation via Object-Action Graph

Self-Improving Loops for Visual Robotic Planning

Semantic Horizons: Information-Theoretic Limits of Foundation Model-Guided Embodied Planning

Task-Relevant Depth Quality Metrics for Suction Grasping

Theory of Space: Benchmarking Active Spatial Belief Construction and Revision in Foundation Models for Embodied Agents

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

VLS: Steering Pretrained Robot Policies via Vision–Language Models

WFM-Eval: Interpretable Error Diagnostics for Video World Models in Robotics

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning