NeurIPS 2025PastOther

1st Workshop on VLM4RWD @ NeurIPS 2025

VLM4RWD2025

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Nov 5, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (17)

Fetched from OpenReview (v2) on 2026-06-10.

A Comprehensive Survey of Multimodal LLMs for Scientific Discovery
Liang Yan, Xu Jiang, Jian Ma, Yuhang Liu, Tian Bian, Qichao Wang, Abhishek Basu, Yu Rong, Tingyang Xu, Pengcheng Wu, Le Song, Imran Razzak, Junchi Yan, Zengfeng Huang, Yutong Xie · PDF
Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning
Qingyuan Wu, Jianheng Liu, Jianye HAO, Jun Wang, Kun Shao · PDF
AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs
Aahana Basappa, Pranay Goel, Anusri Karra, Anish Karra, Asa Gilmore, Kevin Zhu · PDF
Closed-Task Validation: A More Robust and Efficient Proxy for Guiding VLM Training
Enci Zhang, Z.Q. ZHANG, Jiahao Xie, Ruiqi Lu, Boyan Zhou, Cheng Yang · PDF
Do Vision–Language Models Understand Visual Persuasiveness?
Gyuwon Park · PDF
Don’t Lag, RAG: Training-Free Adversarial Detection Using RAG
Roie Kazoom, Raz Lapid, Moshe Sipper, Ofer Hadar · PDF
Efficient Inference Scaling for Safety Assurance
Ruizhong Qiu, Gaotang Li, Ting-Wei Li, Tianxin Wei, Jingrui He, Hanghang Tong · PDF
Efficient Vision-Language Reasoning via Adaptive Token Pruning
Xue li, Xiaonan Song · PDF
Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction
Hangxuan Li, Renjun Jia, Xuezhang Wu, zeqi zheng, Yunjie Qian, Xianling Zhang · PDF
From Scenes to Semantics: PersianCLEVR for Bilingual 3D Visual Reasoning
Kianoosh Vadaei, Melika Shirian, Arshia Hemmat, Mohammad Hassan Heydari, Ali Mamanpoosh, Afsaneh Fatemi · PDF
From Vision to Action: Enabling Real-World Agentic VLMs
Aravilli Atchuta Ram · PDF
MedVCTP: Improving Accuracy and Explainability in Medical Visual Reasoning
Aman Syed, Siwon Ryu, Nayan Saxena, Kevin Zhu · PDF
MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models
Yuqing Lei, Yingjun Du, Yawen Huang, Xiantong Zhen, Ling Shao · PDF
Scene Understanding via Scene Representation Generation with Vision-Language Models
Yuan Chen, Peng Shi · PDF
Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning
Zuyao You · PDF
UpstreamQA: A Modular Framework for Explicit Reasoning on Video Question Answering Tasks
Jason Nguyen, Ameet Rao, Alexander Chang, Ishaan Kumar, Erin Tan · PDF
VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning
Jingkun Ma, Runzhe Zhan, Yang Li, Di Sun, Hou Pong Chan, Lidia S. Chao, Derek F. Wong · PDF

Accepted papers (17)

☆A Comprehensive Survey of Multimodal LLMs for Scientific Discovery

☆Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning

☆AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs

☆Closed-Task Validation: A More Robust and Efficient Proxy for Guiding VLM Training

☆Do Vision–Language Models Understand Visual Persuasiveness?

☆Don’t Lag, RAG: Training-Free Adversarial Detection Using RAG

☆Efficient Inference Scaling for Safety Assurance

☆Efficient Vision-Language Reasoning via Adaptive Token Pruning

☆Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction

☆From Scenes to Semantics: PersianCLEVR for Bilingual 3D Visual Reasoning

☆From Vision to Action: Enabling Real-World Agentic VLMs

☆MedVCTP: Improving Accuracy and Explainability in Medical Visual Reasoning

☆MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models

☆Scene Understanding via Scene Representation Generation with Vision-Language Models

☆Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning

☆UpstreamQA: A Modular Framework for Explicit Reasoning on Video Question Answering Tasks

☆VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning

A Comprehensive Survey of Multimodal LLMs for Scientific Discovery

Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning

AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs

Closed-Task Validation: A More Robust and Efficient Proxy for Guiding VLM Training

Do Vision–Language Models Understand Visual Persuasiveness?

Don’t Lag, RAG: Training-Free Adversarial Detection Using RAG

Efficient Inference Scaling for Safety Assurance

Efficient Vision-Language Reasoning via Adaptive Token Pruning

Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction

From Scenes to Semantics: PersianCLEVR for Bilingual 3D Visual Reasoning

From Vision to Action: Enabling Real-World Agentic VLMs

MedVCTP: Improving Accuracy and Explainability in Medical Visual Reasoning

MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models

Scene Understanding via Scene Representation Generation with Vision-Language Models

Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning

UpstreamQA: A Modular Framework for Explicit Reasoning on Video Question Answering Tasks

VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning