ICLR 2026PastOther

Catch, Adapt, and Operate: Monitoring ML Models Under Drift Workshop

CAO

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 11, 2026, 13:01 UTC
OpenReview-synced 2026-02-11 13:01 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (74)

Fetched from OpenReview (v2) on 2026-06-10.

A Credal-Set Perspective on Task-Induced Distributional Drift in Text Generation
Esteban Garces Arias · PDF
A Geometry-Based View of Mahalanobis OOD Detection
Denis Janiak, Jakub Binkowski, Tomasz Jan Kajdanowicz · PDF
Adaptive Quasimetric Mapping : Principled Topological Abstraction for Robust Offline Goal-Conditioned Navigation
Anthony Kobanda, Waris Radji, Odalric-Ambrym Maillard, Rémy Portelas · PDF
Approximating Function Space Distance for Continual Learning in Transformers
Nikita Dhawan, Felix Dangel, Roger Baker Grosse · PDF
Beyond Accuracy: Evaluating Visual Grounding in Multimodal Medical Reasoning
Anas Zafar, Leema Krishna Murali, Ashish Vashist · PDF
CAdam: Confidence-Based Optimization for Online Learning
Shaowen Wang, ANAN LIU, Jian Xiao, Yuekui Yang, Huan Liu, Suncong Zheng, Wei Zhang, Cong Xu, Di Wang, Huan Yu, Jie Jiang, Jian Li · PDF
Can Linear Probes Effectively Measure LLM Uncertainty ?
Ramzi Dakhmouche, Adrien Letellier, Hossein Gorji · PDF
CAO-LLM: Catching, Adapting and Operating Under Distribution Drift for Large Language Models
Nitin Vetcha · PDF
Capacity and Redundancy Trade-offs in Multi-Task Learning
Asif Khan · PDF
CATS: Conformalized Adaptive Test-Time Scaling
Mohammad Sadegh Akhondzadeh, Soroush H. Zargarbashi, Simone Antonelli, Aleksandar Bojchevski · PDF
Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples
Shiva Sreeram, Alaa Maalouf, Pratyusha Sharma, Daniela Rus · PDF
CROSS-LINGUAL FAIRNESS DRIFT IN LLM MORAL REASONING
Ethan Xie, Aidan Chang-Lee, Avyukth Harish, Archana Vaidheeswaran · PDF
Detecting Distributional Drift in Transformers Through Representation Dynamics
Aakash Patil, Mrunmayee Shende · PDF
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh · PDF
Drift ≠ Error: Reliability Analysis of Agricultural Foundation Models Under Distribution Shift
Shayan Nejadshamsi, Vahab Khoshdel, Brock Porth, Shadi Zaki, Yuanyuan Zhang, Lysa Porth · PDF
Drift-Aware Uncertainty Quantification via a Functional Spectral-Newton Method
Thiago Ramos, Alek Fröhlich, Daniel Perazzo, Massimiliano Pontil · PDF
Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates
Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh · PDF
Duration Aware Scheduling for ASR Serving Under Workload Drift
Darshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba · PDF
Efficient Dataset Selection for Continual Adaptation of Generative Recommenders
Cathy Jiao, Juan Elenter, Praveen Chandar, Bernd Huber, Joseph Cauteruccio, Todd Wasson, Timothy Christopher Heath, Chenyan Xiong, Mounia Lalmas, Paul N. Bennett · PDF
Emergent Misalignment: Tracking the Emergence and Evolution of Misaligned traits throughout Model Training
Geunwoo Park, Pranay Chauhan, Haihao Liu · PDF
Evaluating Domain-Shift Generalization of Liquid Neural Networks in Autonomous Driving
Mihaela-Larisa Clement, Mónika Farsang, Mihai-Teodor Stanusoiu, Ramin Hasani, Daniela Rus, Radu Grosu, Ezio Bartocci · PDF
Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems
Raad Khraishi, Iman Zafar, Katie Myles, Greig A Cowan · PDF
Evi-BALD: Bayesian Active Learning by Disagreement via Evidential Deep Learning
Minghao Li, Weishi Shi · PDF
Explainability of predictive uncertainty models under drift in the telecom domain
Nagesh Walchatwar, Alberto Hata, Ajay Kattepur · PDF
FedAgree: Leveraging Federated Checkpoints for Label-Free OOD Evaluation via Agreement
Giuseppe Serra, Ben Werner, Florian Buettner · PDF
Hidden-Layer Self-Distillation Yields Drift-Resilient Visual Representations
Scott C. Lowe, Anthony Fuller, Sageev Oore, Graham W. Taylor, Evan Shelhamer · PDF
Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings
Yuning Wu, Ke Wang, Devin Chen, Kai Wei · PDF
Hyperspherical Filtering for Online Classification under Drift
David Boekestijn, Mona Schirmer · PDF
In-Context Adaptation
Yongqiang Chen, Chenxi Liu, Qingyi Guo, Bo Han, Kun Zhang · PDF
Layer by layer, module by module: Choose both for optimal OOD probing of ViT
Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko · PDF
Lifting the Veil of Non-Stationarity in Financial Market
Vincent Fu, Xinxin Xu, Weichen Xu, Ruilong Ren, Bowen Deng, Xinyu Zhao, Jian Cao, Xixin Cao · PDF
Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning
Zhangjie Xia, Yu Yang, Pan Xu · PDF
Locally Adaptive Multi-Objective Learning
Jivat Neet Kaur, Isaac Gibbs, Michael I. Jordan · PDF
LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics
Farhan Ahmed, Yuya Jeremy Ong, Chad DeLuca · PDF
LookSharp: Attention Entropy Minimization for Test-Time Adaptation
Yash Mali, Evan Shelhamer · PDF
Loss Smoothing for Continual Adaptation
Darshan Patil, Ekaterina Lobacheva, Razvan Pascanu, Sarath Chandar · PDF
Manifold-Aware Temporal Domain Generalization for Large Language Models
Yiheng YAO, Zekun Cai, Xinyuan Song, Hiroki Hill Kobayashi, Xuan Song, Ryosuke Shibasaki, Liang Zhao · PDF
Measuring Control Intervention Awareness Across Frontier LLMs
Joachim Schaeffer, Thomas Jiralerspong, Alexander Panfilov, Roland S. Zimmermann · PDF
Network System Forecasting Despite Topology Shift
Ramzi Dakhmouche, Ivan Lunati, Hossein Gorji · PDF
Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges
Maxim Khomiakov, Jes Frellsen · PDF
Not All Clients Are Equal: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients
Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars · PDF
Not All Queries Need Rewriting: When Prompt-Only LLM Refinement Helps and Hurts Dense Retrieval
Varun Kotte · PDF
Noticing the Watcher: LLM Agents Can Infer CoT Monitoring from Blocking Feedback
Thomas Jiralerspong, Flemming Kondrup, Yoshua Bengio · PDF
OASIS: Online Sample Selection for Continual Instruction Tuning
Minjae Lee, Minhyuk Seo, Tingyu Qu, Tinne Tuytelaars, Jonghyun Choi · PDF
On the Identifiability of Steering Vectors in Large Language Models
Sohan Venkatesh, Ashish Mahendran Kurapath · PDF
Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL
Julian Lemmel, Felix Resch, Mónika Farsang, Ramin Hasani, Daniela Rus, Radu Grosu · PDF
Out-of-Support Generalisation via Weight-Space Sequence Modelling
Roussel Desmond Nzoyem · PDF
Paranoid Monitors: How Long Context Breaks LLM Agent Supervision
Alicia Yang, Aashiq Muhamed, Mona T. Diab, Virginia Smith · PDF
PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
Yangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu · PDF
Pitfalls of Unlabeled Disagreement-Based Drift Detection in Streaming Tree Ensembles
Lara Sá Neves, Afonso Lourenço, Lizy Kurian John, Goreti Marreiros · PDF
Prior Distribution and Model Confidence
Maksim Kazanskii, Artem Kasianov · PDF
Prompt-Level Drift as an Operational Monitoring Problem: Schema Failure Cliffs and Judge-Version Risk in Artifact-Grounded Evaluation
Yuchen Zhu · PDF
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
Natalia Frumkin, Diana Marculescu · PDF
QueST: Persistent Queries as Semantic Monitors for Drift Suppression in Long-Horizon Tracking
Mayank Anand, Mohammad Saqlain, KyanMahajan, Priya Shukla, Andrew Melnik, Gora Chand Nandi · PDF
RDUMB++: DRIFT-AWARE CONTINUAL TEST-TIME ADAPTATION
Himanshu Mishra · PDF
Reasoning Is Not Free: Robust Adaptive Cost-Efficient Router for LLM-as-a-Judge
Wenbo Zhang, Lijinghua Zhang, Liner Xiang, Hengrui Cai · PDF
Reliability-Aware Environment Discovery: Leveraging Feature Entanglement for Subpopulation Robustness
Harim Lee, Dong-Kyu Chae · PDF
Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity
Cristian Hinostroza, Rodrigo Toro Icarte, Christ Devia, Andres Carvallo De Ferari, Eugenio Herrera-Berg, Denis Parra, Jorge F Silva · PDF
Right Regions, Wrong Labels: Semantic Label Flips in Segmentation under Correlation Shift
Akshit Achara, Yovin Ransika Yahathugoda, Nick Byrne, Michela Antonelli, Esther Puyol Anton, Alexander Hammers, Andrew P. King · PDF
Risk-Averse Learning with Nonstationary Distribution
Siyi Wang, Zifan Wang, Xinlei Yi, Michael M. Zavlanos, Karl Henrik Johansson, Sandra Hirche · PDF
Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation
Minghe Shen, Ananth Balashankar, Adam Fisch, David Madras, Miguel R. D. Rodrigues · PDF
Structured Event Logging for Tracking Model Behavior Under Distributional Drift
Amrutha Muralidhar, Yathindra Lakkanna · PDF
SymTorch: A Framework for Symbolic Distillation of Deep Neural Networks
Elizabeth S.Z. Tan, Adil Soubki, Miles Cranmer · PDF
TamperBench: A Systematic Framework to Stress-Test LLM Safety Under Fine-Tuning and Tampering
Saad Hossain, Tom Tseng, Punya Syon Pandey, Samanvay Vajpayee, Matthew Kowal, Nayeema Nonta, Samuel Simko, Stephen Casper, Zhijing Jin, Kellin Pelrine, Sirisha Rambhatla · PDF
TamperTest: A Framework for Testing Tamper Resistance in Open-Weight LLMs
Isabel Dahlgren, Aashiq Muhamed · PDF
Test-Time Adaptation for Event Prediction via Lightweight Adapters
Shivam Grover, Hossein Hajimirsadeghi, Zhitian Zhang, Edward J. Smith, Alexander Pashevich · PDF
The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning
Simin Fan, Dimitris Paparas, Natasha Noy, Binbin Xiong, Noveen Sachdeva, Berivan Isik · PDF
TRUST: Trajectory-guided State-Space Temporal Test-Time Adaptation
Fardad Dadboud, Hamid Azad, Miodrag Bolic, Iraj Mantegh · PDF
Understanding Reasoning Collapse in Multi-Turn Agent Reinforcement Learning
Zihan Wang, Chi Gui, Xing Jin, Qineng Wang, Licheng Liu, Kangrui Wang, Shiqi Chen, Linjie Li, Zhengyuan Yang, Pingyue Zhang, Yiping Lu, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li · PDF
Value Drifts: Tracing Value Alignment During LLM Post-Training
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stanczak, Vered Shwartz, Siva Reddy · PDF
Weighted Partial Optimal Transport for Multi-Source Partial Domain Adaptation
Jayadev Naram, Ziming Wang, Rebecka Jörnsten, Giuseppe Durisi · PDF
WHEN DRIFT DETECTORS CRY WOLF: FALSE ALARM RATES IN CONTINUOUS ML MONITORING
Raj Shekhar Singh · PDF
When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift
Kevin Vogt-Lowell, Theodoros Tsiligkaridis, Rodney Lafuente-Mercado, Shanghua Gao, Surabhi Ghatti, Marinka Zitnik, Daniela Rus · PDF
White-Box Monitoring for Personality Mirroring in Conversational AI
Eitan Sprejer, Agustín E. Martínez-Suñé, Bruno Bianchi · PDF

Accepted papers (74)

☆A Credal-Set Perspective on Task-Induced Distributional Drift in Text Generation

☆A Geometry-Based View of Mahalanobis OOD Detection

☆Adaptive Quasimetric Mapping : Principled Topological Abstraction for Robust Offline Goal-Conditioned Navigation

☆Approximating Function Space Distance for Continual Learning in Transformers

☆Beyond Accuracy: Evaluating Visual Grounding in Multimodal Medical Reasoning

☆CAdam: Confidence-Based Optimization for Online Learning

☆Can Linear Probes Effectively Measure LLM Uncertainty ?

☆CAO-LLM: Catching, Adapting and Operating Under Distribution Drift for Large Language Models

☆Capacity and Redundancy Trade-offs in Multi-Task Learning

☆CATS: Conformalized Adaptive Test-Time Scaling

☆Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples

☆CROSS-LINGUAL FAIRNESS DRIFT IN LLM MORAL REASONING

☆Detecting Distributional Drift in Transformers Through Representation Dynamics

☆DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

☆Drift ≠ Error: Reliability Analysis of Agricultural Foundation Models Under Distribution Shift

☆Drift-Aware Uncertainty Quantification via a Functional Spectral-Newton Method

☆Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

☆Duration Aware Scheduling for ASR Serving Under Workload Drift

☆Efficient Dataset Selection for Continual Adaptation of Generative Recommenders

☆Emergent Misalignment: Tracking the Emergence and Evolution of Misaligned traits throughout Model Training

☆Evaluating Domain-Shift Generalization of Liquid Neural Networks in Autonomous Driving

☆Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

☆Evi-BALD: Bayesian Active Learning by Disagreement via Evidential Deep Learning

☆Explainability of predictive uncertainty models under drift in the telecom domain

☆FedAgree: Leveraging Federated Checkpoints for Label-Free OOD Evaluation via Agreement

☆Hidden-Layer Self-Distillation Yields Drift-Resilient Visual Representations

☆Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

☆Hyperspherical Filtering for Online Classification under Drift

☆In-Context Adaptation

☆Layer by layer, module by module: Choose both for optimal OOD probing of ViT

☆Lifting the Veil of Non-Stationarity in Financial Market

☆Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning

☆Locally Adaptive Multi-Objective Learning

☆LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics

☆LookSharp: Attention Entropy Minimization for Test-Time Adaptation

☆Loss Smoothing for Continual Adaptation

☆Manifold-Aware Temporal Domain Generalization for Large Language Models

☆Measuring Control Intervention Awareness Across Frontier LLMs

☆Network System Forecasting Despite Topology Shift

☆Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges

☆Not All Clients Are Equal: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

☆Not All Queries Need Rewriting: When Prompt-Only LLM Refinement Helps and Hurts Dense Retrieval

☆Noticing the Watcher: LLM Agents Can Infer CoT Monitoring from Blocking Feedback

☆OASIS: Online Sample Selection for Continual Instruction Tuning

☆On the Identifiability of Steering Vectors in Large Language Models

☆Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

☆Out-of-Support Generalisation via Weight-Space Sequence Modelling

☆Paranoid Monitors: How Long Context Breaks LLM Agent Supervision

☆PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

☆Pitfalls of Unlabeled Disagreement-Based Drift Detection in Streaming Tree Ensembles

☆Prior Distribution and Model Confidence

☆Prompt-Level Drift as an Operational Monitoring Problem: Schema Failure Cliffs and Judge-Version Risk in Artifact-Grounded Evaluation

☆Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

☆QueST: Persistent Queries as Semantic Monitors for Drift Suppression in Long-Horizon Tracking

☆RDUMB++: DRIFT-AWARE CONTINUAL TEST-TIME ADAPTATION

☆Reasoning Is Not Free: Robust Adaptive Cost-Efficient Router for LLM-as-a-Judge

☆Reliability-Aware Environment Discovery: Leveraging Feature Entanglement for Subpopulation Robustness

☆Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

☆Right Regions, Wrong Labels: Semantic Label Flips in Segmentation under Correlation Shift

☆Risk-Averse Learning with Nonstationary Distribution

☆Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

☆Structured Event Logging for Tracking Model Behavior Under Distributional Drift

☆SymTorch: A Framework for Symbolic Distillation of Deep Neural Networks

☆TamperBench: A Systematic Framework to Stress-Test LLM Safety Under Fine-Tuning and Tampering

☆TamperTest: A Framework for Testing Tamper Resistance in Open-Weight LLMs

☆Test-Time Adaptation for Event Prediction via Lightweight Adapters

☆The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning

☆TRUST: Trajectory-guided State-Space Temporal Test-Time Adaptation

☆Understanding Reasoning Collapse in Multi-Turn Agent Reinforcement Learning

☆Value Drifts: Tracing Value Alignment During LLM Post-Training

☆Weighted Partial Optimal Transport for Multi-Source Partial Domain Adaptation

☆WHEN DRIFT DETECTORS CRY WOLF: FALSE ALARM RATES IN CONTINUOUS ML MONITORING

☆When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift

☆White-Box Monitoring for Personality Mirroring in Conversational AI

A Credal-Set Perspective on Task-Induced Distributional Drift in Text Generation

A Geometry-Based View of Mahalanobis OOD Detection

Adaptive Quasimetric Mapping : Principled Topological Abstraction for Robust Offline Goal-Conditioned Navigation

Approximating Function Space Distance for Continual Learning in Transformers

Beyond Accuracy: Evaluating Visual Grounding in Multimodal Medical Reasoning

CAdam: Confidence-Based Optimization for Online Learning

Can Linear Probes Effectively Measure LLM Uncertainty ?

CAO-LLM: Catching, Adapting and Operating Under Distribution Drift for Large Language Models

Capacity and Redundancy Trade-offs in Multi-Task Learning

CATS: Conformalized Adaptive Test-Time Scaling

Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples

CROSS-LINGUAL FAIRNESS DRIFT IN LLM MORAL REASONING

Detecting Distributional Drift in Transformers Through Representation Dynamics

DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

Drift ≠ Error: Reliability Analysis of Agricultural Foundation Models Under Distribution Shift

Drift-Aware Uncertainty Quantification via a Functional Spectral-Newton Method

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Duration Aware Scheduling for ASR Serving Under Workload Drift

Efficient Dataset Selection for Continual Adaptation of Generative Recommenders

Emergent Misalignment: Tracking the Emergence and Evolution of Misaligned traits throughout Model Training

Evaluating Domain-Shift Generalization of Liquid Neural Networks in Autonomous Driving

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Evi-BALD: Bayesian Active Learning by Disagreement via Evidential Deep Learning

Explainability of predictive uncertainty models under drift in the telecom domain

FedAgree: Leveraging Federated Checkpoints for Label-Free OOD Evaluation via Agreement

Hidden-Layer Self-Distillation Yields Drift-Resilient Visual Representations

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Hyperspherical Filtering for Online Classification under Drift

In-Context Adaptation

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Lifting the Veil of Non-Stationarity in Financial Market

Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning

Locally Adaptive Multi-Objective Learning

LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics

LookSharp: Attention Entropy Minimization for Test-Time Adaptation

Loss Smoothing for Continual Adaptation

Manifold-Aware Temporal Domain Generalization for Large Language Models

Measuring Control Intervention Awareness Across Frontier LLMs

Network System Forecasting Despite Topology Shift

Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges

Not All Clients Are Equal: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Not All Queries Need Rewriting: When Prompt-Only LLM Refinement Helps and Hurts Dense Retrieval

Noticing the Watcher: LLM Agents Can Infer CoT Monitoring from Blocking Feedback

OASIS: Online Sample Selection for Continual Instruction Tuning

On the Identifiability of Steering Vectors in Large Language Models

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Out-of-Support Generalisation via Weight-Space Sequence Modelling

Paranoid Monitors: How Long Context Breaks LLM Agent Supervision

PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

Pitfalls of Unlabeled Disagreement-Based Drift Detection in Streaming Tree Ensembles

Prior Distribution and Model Confidence

Prompt-Level Drift as an Operational Monitoring Problem: Schema Failure Cliffs and Judge-Version Risk in Artifact-Grounded Evaluation

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

QueST: Persistent Queries as Semantic Monitors for Drift Suppression in Long-Horizon Tracking

RDUMB++: DRIFT-AWARE CONTINUAL TEST-TIME ADAPTATION

Reasoning Is Not Free: Robust Adaptive Cost-Efficient Router for LLM-as-a-Judge

Reliability-Aware Environment Discovery: Leveraging Feature Entanglement for Subpopulation Robustness

Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

Right Regions, Wrong Labels: Semantic Label Flips in Segmentation under Correlation Shift

Risk-Averse Learning with Nonstationary Distribution

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Structured Event Logging for Tracking Model Behavior Under Distributional Drift

SymTorch: A Framework for Symbolic Distillation of Deep Neural Networks

TamperBench: A Systematic Framework to Stress-Test LLM Safety Under Fine-Tuning and Tampering

TamperTest: A Framework for Testing Tamper Resistance in Open-Weight LLMs

Test-Time Adaptation for Event Prediction via Lightweight Adapters

The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning

TRUST: Trajectory-guided State-Space Temporal Test-Time Adaptation

Understanding Reasoning Collapse in Multi-Turn Agent Reinforcement Learning

Value Drifts: Tracing Value Alignment During LLM Post-Training

Weighted Partial Optimal Transport for Multi-Source Partial Domain Adaptation

WHEN DRIFT DETECTORS CRY WOLF: FALSE ALARM RATES IN CONTINUOUS ML MONITORING

When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift

White-Box Monitoring for Personality Mirroring in Conversational AI