CVPR 2026PastComputer visionMultimodalEducation

Computer Vision × Education: Building a Cross-Community Agenda for Multimodal Vision in Classrooms

CV4Edu

Official website ↗OpenReview venue ↗See all CVPR workshops →✎ Edit this entry

Submission deadline: Mar 16, 2026, 12:59 UTC
OpenReview-synced 2026-03-16 12:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (18)

Fetched from OpenReview (v2) on 2026-06-10.

[UNI]101: An Educational Dataset for Introductory Computer Vision
Ethan Seefried, Changsoo Jung, Videep Venkatesha, Trevor Chartier, Caleb Christian, Jack Fitzgerald, Mariah Bradford, Sifatul Anindho, Matthew Sturgeon, Nathaniel Blanchard · PDF
AI-Assisted Competency Assessment from Egocentric Video in Simulation-Based Nursing Education
Hanchen David Wang, Yilin Liu, Madison Mason, Surya Rayala, Gautam Biswas, Daniel Levin, Meiyi Ma · PDF
ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos
Lu Dong, Xiao Wang, Mark Frank, Srirangaraj Setlur, Venu Govindaraju, Ifeoma Nwogu · PDF
Context Matters: Peer-Aware Student Behavioral Engagement Measurement via VLM Action Parsing and LLM Sequence Classification
Ahmed Abdelkawy, Ahmed Elsayed, Asem Ali, Aly Farag, Thomas Tretter, Michael McIntyre · PDF
Cross-modal Affinity-aligned Multimodal Learning Analytics for Predicting Student Collaboration Satisfaction in Game-Based Learning
Wen-Hsin Tsai, Chia-Ming Lee, Yuk-Ying Tung · PDF
Delta-Gated Incremental Multi-Forward-Pass Modeling for Robust Multimodal Classroom Video Understanding
Chongyu He, Peter Youngs, Scott Acton · PDF
Diagnosis of Human–Object Interaction Detectors for Real-World Educational Applications
Divya Mereddy, Ashwin T S, Marcos Quinones Grueiro, Gautam Biswas · PDF
Do Emotion Recognition Models Generalize to Classrooms? Robustness and Fairness Analysis
Ashwin T S, Srigowri Mayasandra Prasanna, Joyce Horn Fonteles, Gautam Biswas · PDF
Evaluating Web-trained Facial Expression Recognition in Naturalistic Collaborative Learning
Sifatul Anindho, Videep Venkatesha, Nathaniel Blanchard · PDF
From Emotion Recognition to Mind-Wandering Detection: A Comparative Analysis of Video-Based Emotion Foundation Models
Ekta Sood, Sebastian Ricke, Trisha Mittal, Sidney K. DMello · PDF
InterventionLens: A Multi-Agent Framework for Detecting ASD Intervention Strategies in Parent-Child Shared Reading
Xiao Wang, Lu Dong, Ifeoma Nwogu, Srirangaraj Setlur, Venu Govindaraju · PDF
MES-Bench: A Benchmark for Multimodal Elaborative Simplification and Comprehensibility Evaluation in Language Learning
Martyna Gruszka, Risa Shinoda, Taiki Miyanishi, Takumi Hirose, Nakamasa Inoue · PDF
Negative Evidence in the Classroom: Learning From What Vision Cannot Reliably See
Mahule Roy, Subhas Roy · PDF
ReSoFed: Reliability-Guided Model Souping for Robust Federated Learning in Heterogeneous Classroom Environments
Muhammad Rafsan Kabir, Md Shopon, Marina Gavrilova · PDF
Scaffolding Human Learning by Shaping Visual Environment
Yuji Zhang, Duo Zhou, Bo Chen, Adi Chalasani, Noah Schroeder, H Chad Lane, ChengXiang Zhai · PDF
Sequence-Based Identification of First-Person Camera Wearers in Third-Person Views
Ziwei Zhao, Xizi Wang, Yuchen Wang, Feng Cheng, David J. Crandall · PDF
Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations
Suraj Prasad, Pinak Mahapatra · PDF
VLMath: A Multimodal Vision-Language System for Pedagogically Aligned Math Tutoring
Mahsa Ardakani, Arshia Eslami, Ramtin Zand · PDF

Accepted papers (18)

☆[UNI]101: An Educational Dataset for Introductory Computer Vision

☆AI-Assisted Competency Assessment from Egocentric Video in Simulation-Based Nursing Education

☆ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

☆Context Matters: Peer-Aware Student Behavioral Engagement Measurement via VLM Action Parsing and LLM Sequence Classification

☆Cross-modal Affinity-aligned Multimodal Learning Analytics for Predicting Student Collaboration Satisfaction in Game-Based Learning

☆Delta-Gated Incremental Multi-Forward-Pass Modeling for Robust Multimodal Classroom Video Understanding

☆Diagnosis of Human–Object Interaction Detectors for Real-World Educational Applications

☆Do Emotion Recognition Models Generalize to Classrooms? Robustness and Fairness Analysis

☆Evaluating Web-trained Facial Expression Recognition in Naturalistic Collaborative Learning

☆From Emotion Recognition to Mind-Wandering Detection: A Comparative Analysis of Video-Based Emotion Foundation Models

☆InterventionLens: A Multi-Agent Framework for Detecting ASD Intervention Strategies in Parent-Child Shared Reading

☆MES-Bench: A Benchmark for Multimodal Elaborative Simplification and Comprehensibility Evaluation in Language Learning

☆Negative Evidence in the Classroom: Learning From What Vision Cannot Reliably See

☆ReSoFed: Reliability-Guided Model Souping for Robust Federated Learning in Heterogeneous Classroom Environments

☆Scaffolding Human Learning by Shaping Visual Environment

☆Sequence-Based Identification of First-Person Camera Wearers in Third-Person Views

☆Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations

☆VLMath: A Multimodal Vision-Language System for Pedagogically Aligned Math Tutoring

[UNI]101: An Educational Dataset for Introductory Computer Vision

AI-Assisted Competency Assessment from Egocentric Video in Simulation-Based Nursing Education

ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos

Context Matters: Peer-Aware Student Behavioral Engagement Measurement via VLM Action Parsing and LLM Sequence Classification

Cross-modal Affinity-aligned Multimodal Learning Analytics for Predicting Student Collaboration Satisfaction in Game-Based Learning

Delta-Gated Incremental Multi-Forward-Pass Modeling for Robust Multimodal Classroom Video Understanding

Diagnosis of Human–Object Interaction Detectors for Real-World Educational Applications

Do Emotion Recognition Models Generalize to Classrooms? Robustness and Fairness Analysis

Evaluating Web-trained Facial Expression Recognition in Naturalistic Collaborative Learning

From Emotion Recognition to Mind-Wandering Detection: A Comparative Analysis of Video-Based Emotion Foundation Models

InterventionLens: A Multi-Agent Framework for Detecting ASD Intervention Strategies in Parent-Child Shared Reading

MES-Bench: A Benchmark for Multimodal Elaborative Simplification and Comprehensibility Evaluation in Language Learning

Negative Evidence in the Classroom: Learning From What Vision Cannot Reliably See

ReSoFed: Reliability-Guided Model Souping for Robust Federated Learning in Heterogeneous Classroom Environments

Scaffolding Human Learning by Shaping Visual Environment

Sequence-Based Identification of First-Person Camera Wearers in Third-Person Views

Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations

VLMath: A Multimodal Vision-Language System for Pedagogically Aligned Math Tutoring