CVPR 2026PastLarge language modelsComputer vision

CVPR 2026 Video LLMs Workshop

VidLLMs 2026

Official website ↗OpenReview venue ↗See all CVPR workshops →✎ Edit this entry

Submission deadline: Apr 24, 2026, 08:00 UTC
OpenReview-synced 2026-04-24 08:00 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (18)

Fetched from OpenReview (v2) on 2026-06-10.

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen · PDF
CausalScene: Typed Causal Scene Graphs for Counterfactual Physical Reasoning with a Path to Video LLMs
Noor Islam S. Mohammad, Ulug Bayazit · PDF
CoSeLECT: Adaptive Frame Selection for Video-Language Understanding
Bhavika Suresh Devnani, Jitesh Jain, Humphrey Shi, Judy Hoffman · PDF
Evaluating Video Question Answering Multimodal Large Language Models
George Awad, Sanjay Purushotham · PDF
FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding
Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Hung-Ting Su, Winston H. Hsu · PDF
Grounding Video Reasoning in Physical Signals
Alibay Osmanli, Zixu Cheng, Shaogang Gong · PDF
Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles
Zacharie Bugaud · PDF
MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
Han Zhang, Wanting Jiang, Tomasz Kornuta, Tian Zheng, Vidya Nariyambut Murali · PDF
Mind the Gap: Dataset and Fine-grained Evaluation for Inline Audio Descriptions
Subhashini Venugopalan, Yingwen Tan, Taylor Roper, Jimmy Tobin, Anton Kast, Alicia Martin, Sam Sepah, Amy Pavel · PDF
One Identity, Many Roles: Multimodal Entity Coreference for Enhanced Video Situation Recognition
Balaji Darur, Amanmeet Garg, Makarand Tapaswi · PDF
StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding
Yanlai Yang, Zhuokai Zhao, Satya Narayan Shukla, Aashu Singh, Shlok Kumar Mishra, Lizhu Zhang, Mengye Ren · PDF
StreamReady: Learning *What* to Answer and *When* in Long Streaming Videos
Shehreen Azad, Vibhav Vineet, Yogesh S Rawat · PDF
Test-Time Horizon Scaling in Video LLMs via Adaptive Temporal Memory Compression
Mahule Roy, Subhas Roy · PDF
TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs
Baiqi Li, Kangyi Zhao, Ce Zhang, Chancharik Mitra, Jean de Dieu Nyandwi, Gedas Bertasius · PDF
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
Pritam Sarkar, Ali Etemad · PDF
VideoCritic: Diagnosing and Localizing Reasoning Errors in Video-Language Models
Chenwei Xu, Jianshu Zhang, Shang Wu, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Han Liu · PDF
VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition
Tanush Yadav, Mohammadreza Salehi, Jae Sung Park, Vivek Ramanujan, Hannaneh Hajishirzi, Yejin Choi, Ali Farhadi, Rohun Tripathi, Ranjay Krishna · PDF
VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models
Dominick Reilly, Manish Kumar Govind, Le Xue, Srijan Das · PDF

Accepted papers (18)

☆4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

☆CausalScene: Typed Causal Scene Graphs for Counterfactual Physical Reasoning with a Path to Video LLMs

☆CoSeLECT: Adaptive Frame Selection for Video-Language Understanding

☆Evaluating Video Question Answering Multimodal Large Language Models

☆FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding

☆Grounding Video Reasoning in Physical Signals

☆Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles

☆MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks

☆Mind the Gap: Dataset and Fine-grained Evaluation for Inline Audio Descriptions

☆One Identity, Many Roles: Multimodal Entity Coreference for Enhanced Video Situation Recognition

☆StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding

☆StreamReady: Learning *What* to Answer and *When* in Long Streaming Videos

☆Test-Time Horizon Scaling in Video LLMs via Adaptive Temporal Memory Compression

☆TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

☆VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

☆VideoCritic: Diagnosing and Localizing Reasoning Errors in Video-Language Models

☆VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

☆VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

CausalScene: Typed Causal Scene Graphs for Counterfactual Physical Reasoning with a Path to Video LLMs

CoSeLECT: Adaptive Frame Selection for Video-Language Understanding

Evaluating Video Question Answering Multimodal Large Language Models

FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding

Grounding Video Reasoning in Physical Signals

Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles

MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks

Mind the Gap: Dataset and Fine-grained Evaluation for Inline Audio Descriptions

One Identity, Many Roles: Multimodal Entity Coreference for Enhanced Video Situation Recognition

StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding

StreamReady: Learning What to Answer and When in Long Streaming Videos

Test-Time Horizon Scaling in Video LLMs via Adaptive Temporal Memory Compression

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

VideoCritic: Diagnosing and Localizing Reasoning Errors in Video-Language Models

VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models