CVPR 2026PastComputer vision

The 2nd Workshop on Test-time Scaling for Computer Vision

2nd ViSCALE @ CVPR 2026

Official website ↗OpenReview venue ↗See all CVPR workshops →✎ Edit this entry

Submission deadline: Mar 13, 2026, 11:59 UTC
OpenReview-synced 2026-03-13 11:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (18)

Fetched from OpenReview (v2) on 2026-06-10.

[EXTENDED ABSTRACT] Vero: An Open RL Recipe for General Visual Reasoning
Gabriel Herbert Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu · PDF
ATHENA: Adaptive Test-Time Steering for Improving Count Fidelity in Diffusion Models
Mohammad Shahab Sepehri, Asal Mehradfar, Berk Tinaz, Salman Avestimehr, Mahdi Soltanolkotabi · PDF
Attention Budget Scheduling: Token-Level Test-Time Scaling for Vision Transformers
Mahule Roy, Subhas Roy · PDF
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
Zhili Cheng, Ran Li, Jinyi Hu, Yuge Tu, Shiqi Dai, Shengding Hu, Yang Shi, Lei Shi, Maosong Sun · PDF
EXTENDED ABSTRACT -- World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models
Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang · PDF
EXTENDED ABSTRACT: Learning to Think Fast and Slow for Visual Language Models
Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou · PDF
EXTENDED ABSTRACT: Scaling Test-Time Compute via Semantic Critique and Spectral Alignment for Visual Media Generation
Jia Xian Huang · PDF
IMA & TMA: Efficient Test-Time Adaptation for VLMs via Linear Transformation in Embedding Space
Rishik Vamshi Rohith Vempati, Eswar Venkata Sai Kadava, Konda Reddy Mopuri · PDF
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi · PDF
MetaWorld: Skill Transfer and Composition in a Hierarchical World Model for Grounding High-Level Instructions
Yutong Shen, Hangxu Liu, Kailin Pei, Yinqi Liu, Ruizhe Xia, Tongtong Feng · PDF
Mind over Space: Can Multimodal Large Language Models Mentally Navigate?
Qihui Zhu, Shouwei Ruan, Xiao Yang, Hao Jiang, Yao Huang, Shiji Zhao, Hanwei Fan, Hang Su, Xingxing Wei · PDF
Predictive Spectral Calibration for Source-Free Test-Time Regression
Tuan Kiet Nguyen Viet, Thanh Trung Huynh, Hieu Pham · PDF
ProFuse: Efficient Open-Vocabulary 3D Gaussian Splatting with Early-Saturating Semantic Uplifting
Yen-Jen Chiou · PDF
Rethinking Dense Optical Flow without Test-Time Scaling
Praroop Chanda, Suryansh Kumar · PDF
SA-TTS: Stress-Aware Test-Time Scaling for Vision Models
youla yang · PDF
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng · PDF
TreeReasoner: Reinforcing Tool-Augmented Tree-of-Videos Reasoning
Hongcheng Gao, Jingyi Tang, Zihao Huang, Liang Li, Li Su, Qingming Huang · PDF
Understanding the Limits of Vision Test-Time Scaling: Path Redundancy, Instance Difficulty, and Adaptive Compute
youla yang · PDF

Accepted papers (18)

☆[EXTENDED ABSTRACT] Vero: An Open RL Recipe for General Visual Reasoning

☆ATHENA: Adaptive Test-Time Steering for Improving Count Fidelity in Diffusion Models

☆Attention Budget Scheduling: Token-Level Test-Time Scaling for Vision Transformers

☆EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

☆EXTENDED ABSTRACT -- World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

☆EXTENDED ABSTRACT: Learning to Think Fast and Slow for Visual Language Models

☆EXTENDED ABSTRACT: Scaling Test-Time Compute via Semantic Critique and Spectral Alignment for Visual Media Generation

☆IMA & TMA: Efficient Test-Time Adaptation for VLMs via Linear Transformation in Embedding Space

☆Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

☆MetaWorld: Skill Transfer and Composition in a Hierarchical World Model for Grounding High-Level Instructions

☆Mind over Space: Can Multimodal Large Language Models Mentally Navigate?

☆Predictive Spectral Calibration for Source-Free Test-Time Regression

☆ProFuse: Efficient Open-Vocabulary 3D Gaussian Splatting with Early-Saturating Semantic Uplifting

☆Rethinking Dense Optical Flow without Test-Time Scaling

☆SA-TTS: Stress-Aware Test-Time Scaling for Vision Models

☆ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

☆TreeReasoner: Reinforcing Tool-Augmented Tree-of-Videos Reasoning

☆Understanding the Limits of Vision Test-Time Scaling: Path Redundancy, Instance Difficulty, and Adaptive Compute

[EXTENDED ABSTRACT] Vero: An Open RL Recipe for General Visual Reasoning

ATHENA: Adaptive Test-Time Steering for Improving Count Fidelity in Diffusion Models

Attention Budget Scheduling: Token-Level Test-Time Scaling for Vision Transformers

EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

EXTENDED ABSTRACT -- World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

EXTENDED ABSTRACT: Learning to Think Fast and Slow for Visual Language Models

EXTENDED ABSTRACT: Scaling Test-Time Compute via Semantic Critique and Spectral Alignment for Visual Media Generation

IMA & TMA: Efficient Test-Time Adaptation for VLMs via Linear Transformation in Embedding Space

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

MetaWorld: Skill Transfer and Composition in a Hierarchical World Model for Grounding High-Level Instructions

Mind over Space: Can Multimodal Large Language Models Mentally Navigate?

Predictive Spectral Calibration for Source-Free Test-Time Regression

ProFuse: Efficient Open-Vocabulary 3D Gaussian Splatting with Early-Saturating Semantic Uplifting

Rethinking Dense Optical Flow without Test-Time Scaling

SA-TTS: Stress-Aware Test-Time Scaling for Vision Models

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

TreeReasoner: Reinforcing Tool-Augmented Tree-of-Videos Reasoning

Understanding the Limits of Vision Test-Time Scaling: Path Redundancy, Instance Difficulty, and Adaptive Compute