CVPR 2025PastLarge language modelsAgentsRobotics

Workshop on Foundation Models Meet Embodied Agents at CVPR 2025

FMEA @ CVPR 2025

Official website ↗OpenReview venue ↗See all CVPR workshops →✎ Edit this entry

Submission deadline: May 26, 2025, 19:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (19)

Fetched from OpenReview (v2) on 2026-06-10.

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model
Wenbo Hu, Yining Hong, Yanjun Wang, Leison Gao, Zibu Wei, Xingcheng Yao, Nanyun Peng, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang · PDF
AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives
Aniruddh Sikdar, Aditya Gandhamal, Suresh Sundaram · PDF
Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning
Bosung Kim, Prithviraj Ammanabrolu · PDF
Embodied AI with Knowledge Graphs: Material-Aware Obstacle Handling for Autonomous Agents
Ayush Bheemaiah, Seungyong Yang · PDF
Episodic Memory Banks for Lifelong Robot Learning: A Case Study Focusing on Household Navigation and Manipulation
Zichao Li · PDF
Human-like Navigation in a World Built for Humans
Bhargav Chandaka, Gloria X. Wang, Haozhe Chen, Henry Che, Albert J. Zhai, Shenlong Wang · PDF
Interactive Post-Training for Vision-Language-Action Models
Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Kraehenbuehl · PDF
Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation
Lingfeng Zhang, Yuecheng Liu, Zhanguang Zhang, Matin Aghaei, Yaochen Hu, Hongjian Gu, Mohammad Ali Alomrani, David Gamaliel Arcos Bravo, Raika Karimi, Atia Hamidizadeh, Haoping Xu, Guowei Huang, zhanpeng zhang, Tongtong Cao, Weichao Qiu, Xingyue Quan, Jianye HAO, Yuzheng Zhuang, Yingxue Zhang · PDF
Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving
Haohong Lin, Yunzhi Zhang, Wenhao Ding, Jiajun Wu, Ding Zhao · PDF
One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration
Jinbang Huang, Yixin Xiao, Zhanguang Zhang, Mark Coates, Jianye HAO, Yingxue Zhang · PDF
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie · PDF
Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li · PDF
SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
Haoquan Fang, Markus Grotz, Wilbert Pumacay, Yi Ru Wang, Dieter Fox, Ranjay Krishna, Jiafei Duan · PDF
Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction
Baiting Luo, Abhishek Dubey, Ayan Mukhopadhyay · PDF
SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models
Arnab Debnath, Gregory J. Stein, Jana Kosecka · PDF
Slot-Level Robotic Placement via Visual Imitation from Single Human Video
Dandan Shan, Kaichun Mo, Wei Yang, Yu-Wei Chao, David Fouhey, Dieter Fox, Arsalan Mousavian · PDF
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation
Navid Rajabi, Jana Kosecka · PDF
Visual Planning: Let's Think Only with Images
Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić · PDF
ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos
Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Yecheng Jason Ma, Dinesh Jayaraman · PDF

Accepted papers (19)

☆3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

☆AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives

☆Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning

☆Embodied AI with Knowledge Graphs: Material-Aware Obstacle Handling for Autonomous Agents

☆Episodic Memory Banks for Lifelong Robot Learning: A Case Study Focusing on Household Navigation and Manipulation

☆Human-like Navigation in a World Built for Humans

☆Interactive Post-Training for Vision-Language-Action Models

☆Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation

☆Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving

☆One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration

☆Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

☆Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

☆SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

☆Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

☆SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models

☆Slot-Level Robotic Placement via Visual Imitation from Single Human Video

☆TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

☆Visual Planning: Let's Think Only with Images

☆ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives

Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning

Embodied AI with Knowledge Graphs: Material-Aware Obstacle Handling for Autonomous Agents

Episodic Memory Banks for Lifelong Robot Learning: A Case Study Focusing on Household Navigation and Manipulation

Human-like Navigation in a World Built for Humans

Interactive Post-Training for Vision-Language-Action Models

Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation

Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving

One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models

Slot-Level Robotic Placement via Visual Imitation from Single Human Video

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

Visual Planning: Let's Think Only with Images

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos