NeurIPS 2025PastRobustness

NeurIPS 2025 Workshop: Reliable ML from Unreliable Data

NeurIPS 2025 - Reliable ML Workshop

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Aug 30, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (149)

Fetched from OpenReview (v2) on 2026-06-10.

$\texttt{strategic-fl-sim}$: An Extensible Package for Simulating Strategic Behavior in Federated Learning
Dimitar A. Chakarov, Nikola Konstantinov · PDF
A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy
Claire O'Brien, Jessica Seto, Dristi Roy, Aditya Dwivedi, Sunishchal Dev, Kevin Zhu, Sean O'Brien, Ryan Lagasse · PDF
A Guide to Robust Generalization: The Impact of Architecture, Pre-training, and Optimization Strategy
Maxime Heuillet, Rishika Bhagwatkar, Jonas Ngnawe, Yann Pequignot, Alexandre Larouche, Christian Gagné, Irina Rish, Ola Ahmad, Audrey Durand · PDF
A Multi-Method Interpretability Framework for Probing Cognitive Processing in Deep Neural Networks across Vision and Biomedical Domains
Harshini Suresha, Kavitha S H · PDF
Active Slice Discovery in Large Language Models
Minhui Zhang, Prahar Injer, Yoav Wald, Elliot Creager · PDF
Adaptive Norm Selection Prevents Catastrophic Overfitting in Fast Adversarial Training
Fares B. Mehouachi, Saif Jabari · PDF
Adversarial Attacks against Context-dependent Visual Association in Referring Multi-Object Tracking Systems
Halima Bouzidi, Haoyu Liu, Mohammad Al Faruque · PDF
Adversarially-robust probes for Deep Networks
Simran Ketha, Nuthan Mummani, Niranjan Rajesh, Venkatakrishnan Ramaswamy · PDF
Aggregated Individual Reporting for Post-Deployment Evaluation: Mechanism Design & Modeling Considerations
Jessica Dai, Nika Haghtalab, Jamie Heather Morgenstern · PDF
Ambient Diffusion Omni
Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Costis Daskalakis · PDF
Ambient Proteins: Training Diffusion Models on Low Quality Structures
Giannis Daras, Jeffrey Ouyang-Zhang, Krithika Ravishankar, William Daspit, Constantinos Costis Daskalakis, qiang liu, Adam Klivans, Daniel Jesus Diaz · PDF
An Analysis of Causal Effect Estimation using Outcome Invariant Data Augmentation
Uzair Akbar, Niki Kilbertus, Hao Shen, Krikamol Muandet, Bo Dai · PDF
Approximate Leave-One-Out Cross Validation for Robust Scatter Matrix Estimation
Karim Abou-Moustafa · PDF
Approximating Human Preferences Using a Multi-Judge Learned System
Fernando Avalos, Eitan Sprejer, Augusto Mariano Bernardi, José Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer · PDF
AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin
Shuo Yang, Qihui Zhang, Yuyang Liu, Yue Huang, Xiaojun Jia, Kun-Peng Ning, Jia-Yu Yao, jigang wang, Dai Hailiang, Yibing Song, Li Yuan · PDF
Automated Generation of Multilingual Jailbreak Prompts
Jonathan Ding, Will Cai, Khanak Jain, Dhruv Nair, Aditya Naha, Kevin Zhu, Vasu Sharma · PDF
Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes
Ezinne Nwankwo, Lauri Goldkind, Angela Zhou · PDF
Bayesian Decision Making around Experts
Daniel Jarne Ornia, Joel Dyer, Nicholas George Bishop, Anisoara Calinescu, Michael J. Wooldridge · PDF
Better Data for Satellite Super Resolution
Miguel Castells, Jules Salzinger, Oliver Zendel · PDF
Beyond Per-Question Privacy: Multi-Query Differential Privacy for RAG Systems
Ruihan Wu, Erchi Wang, Yu-Xiang Wang · PDF
Beyond Static Bias: Quantifying Fairness Variability in CheXpert
Ines Ayed, Gabriel Moyà Alcover, Fernando Alonso-Fernandez, Antoni Jaume-i-Capó · PDF
Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually-Aware Transformations
Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi · PDF
Breaking Bad: Exploring the Dangers of LLM-generated Misinformation from Fringe Social Media
Han Kyul Kim, Hansea Kim, Eunjeong Joo, Andy Skumanich · PDF
Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators
Dani Roytburg, Matthew Nguyen, Matthew Bozoukov, Hongyu Fu, Jou Barzdukas, Narmeen Fatimah Oozeer · PDF
BridgePure: Limited Protection Leakage Can Break Black-Box Data Protection
Yihan Wang, Yiwei Lu, Xiao-Shan Gao, Gautam Kamath, Yaoliang Yu · PDF
Certified Adversarial Robustness via Mixture-of-Gaussians Randomized Smoothing
Vaughn Rostermundt, Brendon G. Anderson · PDF
Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety
Vamshi Krishna Bonagiri, Ponnurangam Kumaraguru, Khanh Xuan Nguyen, Benjamin Plaut · PDF
Clean-Label Physical Backdoor Attacks with Data Distillation
Thinh Dao, Khoa D Doan, Kok-Seng Wong · PDF
COIR: Chain-of-Intention Reasoning Elicits Defense in Multimodal Large Language Models
Gyuwon Choi, Donggon Jang, Daeshik Kim · PDF
Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification
Kimia Hamidieh, Veronika Thost, Walter Gerych, Mikhail Yurochkin, Marzyeh Ghassemi · PDF
Concept-Based Masking: A Patch-Agnostic Defense Against Adversarial Patch Attacks
Ayushi Mehrotra, Derek Peng, Dipkamal Bhusal, Nidhi Rastogi · PDF
Conformal Prediction for Molecular Properties under Label Shift
Hyeonsu Lee, Juyeon Kim, Erkhembayar Jadamba, Seungjin Choi, Hyunjin Shin · PDF
Corruption-Tolerant Asynchronous Q-Learning with Near-Optimal Rates
Sreejeet Maity, Aritra Mitra · PDF
Cost Efficient Fairness Audit Under Partial Feedback
Nirjhar Das, Mohit Sharma, Praharsh Nanavati, Kirankumar Shiragur, Amit Deshpande · PDF
CroPA++: Exposing Vulnerabilities in Vision Language Models and Enhancing Adversarial Transferability of Cross-Prompt Attacks
Agam Pandey, Amritanshu Tiwari, Atharv Mittal, Sukrit Jindal, Swadesh Swain · PDF
Cross-Lingual Multimodal Retrieval-Augmented Generation for Open Question Answering in Tamil and Yoruba
Kiran Raja, Mobareji Abejide, Arya Ram, Utkarsh Sharma, Benjamin Liu, Kevin Zhu · PDF
Curvature Tuning: Provable Training-free Model Steering From a Single Parameter
Leyang Hu, Matteo Gamba, Randall Balestriero · PDF
Data Decomposition beyond Splitting for Causal Estimation
Xuelin Yang, Dhruv Singal, Rina Friedberg, Michael I. Jordan, Niloy Biswas · PDF
Data-Efficient and Robust Coreset Selection via Sparse Adversarial Perturbations
Tushar Shinde, Manasa Madabhushi · PDF
Deep Research Brings Deeper Harm
Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu · PDF
Diffusion-supplemented Implicit Layers: Operator Smoothing for better Implicit Solvers
Dinislam Gabitov, Bader Rasheed, Anastasia Antsiferova, Dmitriy S. Vatolin · PDF
Disarming Strategic Text: Span-Aware Counterfactuals for Robust Content Moderation
Hardik Meisheri, Muhammad Zaid Hassan, Swati Tiwari, Puneet Mangla, Samarth Bharadwaj, Karthik Sankaranarayanan, Amit S · PDF
Ditch the Denoiser: Emergence of Noise Robustness in Self-Supervised Learning from Data Curriculum
Wenquan Lu, Jiaqi Zhang, Hugues Van Assel, Randall Balestriero · PDF
Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection?
Sri Durga Sai Sowmya Kadali, Evangelos E. Papalexakis · PDF
Domain Generalization: A Tale of Two ERMs
Yilun Zhu, Naihao Deng, Naichen Shi, Aditya Gangrade, Clayton Scott · PDF
Don’t Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning
William F. Shen, Xinchi Qiu, Nicola Cancedda, Nicholas D. Lane · PDF
Double Machine Learning Evaluation Under Distribution Shift and Selection Bias
Annie S Ulichney, Amanda Lee Coston · PDF
Drawing Reliable Conclusions with Imperfect Synthetic Data
Yewon Byun, Shantanu Gupta, Zachary Chase Lipton, Rachel Leah Childers, Bryan Wilder · PDF
DynamiX: Dynamic Resource eXploration for Personalized Ad-Recommendations
Adam Holeman, Sohini Roychowdhury, Mohammad Amin, Feng Wei, Bhaskar Mehta, Sri Reddy · PDF
Efficiently Robust In-Context Reinforcement Learning with Adversarial Generalization and Adaptation
Juncheng Dong, Hao-Lun Hsu, Miroslav Pajic, Vahid Tarokh · PDF
Energy-Shaped Manifold Projections Enable Adversarial Detection
Artem Matevosian, Bader Rasheed · PDF
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models
Haziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Vasu Sharma, Sean O'Brien, Kevin Zhu · PDF
Evaluating robustness of tabular models under meta-features based shifts
Irina Deeva, Nargiza Amerkhanova, Alena Kropacheva · PDF
Evaluating the Quality of AI-Generated Resolutions from Conversational vs Structured Sources: Implications for Enterprise Knowledge Automation
Archan Dutta, Vinay Raj Sisodiya, Hardik Airen, Phani Nivarthi · PDF
Extracting Latent Generalization from Models Trained with Noisy Labels
Simran Ketha, Venkatakrishnan Ramaswamy · PDF
Failure Prediction Is a Better Performance Proxy for Early-Exit Networks Than Calibration
Piotr Kubaty, Filip Szatkowski, Metod Jazbec, Bartosz Wójcik · PDF
FairContrast: Enhancing Fairness through Contrastive learning and Customized Augmenting Methods on Tabular Data
Aida Tayebi, Ali Khodabandeh Yalabadi, Mehdi Yazdani-Jahromi, Ozlem Garibay · PDF
Fairness Implications of GNN-to-MLP Knowledge Distillation
Margaret Capetz, Yizhou Sun, Arjun Subramonian · PDF
Fairness Through Independence via Cramér-von Mises Regularization
Albert Gimó Contreras, Mariia Vladimirova, Federico Pavone, Reda CHHAIBI · PDF
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
Cheng Wang, Zeming Wei, Qin Liu, Wenxuan Zhou, Muhao Chen · PDF
FAVAE-Effective Frequency Aware Latent Tokenizer
Tejaswini Medi, Hsien-Yi Wang, Arianna Rampini, Margret Keuper · PDF
Few-Shot Knowledge Distillation for Language Models via Counterfactual Explanations
Faisal Hamman, Pasan Dissanayake, Yanjun Fu, Sanghamitra Dutta · PDF
Fine-Grained Uncertainty Decomposition in Large Language Models: A Spectral Approach
Nassim Walha, Sebastian G. Gruber, Thomas Decker, Yinchong Yang, Alireza Javanmardi, Eyke Hüllermeier, Florian Buettner · PDF
Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning
Lama Alssum, Hasan Abed Al Kader Hammoud, Motasem Alfarra, Juan C Leon Alcazar, Bernard Ghanem · PDF
From Clutter to Clarity: Visual Recognition through Foveated Object-Centric Learning (FocL)
Amitangshu Mukherjee, Deepak Ravikumar, Kaushik Roy · PDF
From Evidence to Knowledge: A Hierarchical Probabilistic Model of the Scientific Knowledge Landscape at Web Scale
Yaniv Slor Futterman, Binyamin Perets, Mark Kozdoba, Shie Mannor · PDF
From Many Voices to One: A Statistically Principled Aggregation of LLM Judges
Jitian Zhao, Changho Shin, Tzu-Heng Huang, Satya Sai Srinath Namburi GNVV, Frederic Sala · PDF
From Search to Decision: A Framework for Adversarially Robust Approximate Nearest Neighbor Search
Alexandr Andoni, Themistoklis Haris, Esty Kelman, Krzysztof Onak · PDF
From Semantics to Symbols: A Two-Stage Framework for Deconstructing LLM Reasoning into Concepts and Rules
Yanchen Yin · PDF
Generalizing Robustness from $\ell_p$ to Unforeseen Attack via Calibrated Adversarial Sampling
Rui Wang, Zeming Wei, Xiyue Zhang, Meng Sun · PDF
GUARD: Guiding Unbiased Alignment through Reward Debiasing
Advay Samnerkar, Doelle Bhattacharya, Kailash Ranganathan, Kevin Zhu, Ashwinee Panda · PDF
Human Uncertainty-Aware Reliable Data Selection and Efficient Annotation for Visual Question Answering
Jian Lan, Zhicheng Liu, Thomas Seidl · PDF
Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards
Faisal Hamman, Chenyang Zhu, Anoop Kumar, Xujun Peng, Sanghamitra Dutta, Daben Liu, Alfy Samuel · PDF
Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition
Muhammad H. Ashiq, Peter Triantafillou, Hung Yun Tseng, Grigorios Chrysos · PDF
Influence Functions for Preference Dataset Pruning
Daniel Fein, Gabriela Aránguiz Dias · PDF
Information-Theoretic Conditions for Chain-of-Thought Monitorability and Methods for Improving It
Usman Anwar, Tim Bakker, Cristina Pinneri, Dana Kianfar, Christos Louizos · PDF
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Sangwu Park, Kibum Kim, Chanyoung Park · PDF
It is Hard to Unlearn Dogged Backdoor Samples in Diffusion Models
An Huang, Zuobin Xiong, Muchao Ye, Junggab Son · PDF
KAIROS: Scalable Model-Agnostic Data Valuation
Jiongli Zhu, Parjanya Prajakta Prashant, Alex Cloninger, Babak Salimi · PDF
Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification
Samuel Räber, Till Aczel, Andreas Plesner, Roger Wattenhofer · PDF
Learning reliably under adversarial attacks, distribution shifts and strategic agents
Maria Florina Balcan, Dravyansh Sharma · PDF
Lightweight Robust Direct Preference Optimization
Cheol Woo Kim, Shresth Verma, Mauricio Tec, Milind Tambe · PDF
LoCaTE: A Local and Training Dynamics Perspective at Detecting Label Noise in Deep Classification
A. Anas Chentouf, Haoran Zhang, Marzyeh Ghassemi · PDF
Locks Tested Without Burglars: Using Coding Assistants to Break Prompt Injection Defenses
Atharv Singh Patlan, Pramod Viswanath, Prateek Mittal · PDF
Minimal Repairs for Learning Over Incomplete Data
Cheng Zhen, Nischal Aryal, Arash Termehchy, Prayoga, Garrett Biwer · PDF
MPSelectTune: Prompt-type Selection for Fine-tuning improves Concept Unlearning in LLMs
Shubhadip Nag, Srinjoy Das, Agniva Saha, Anushree Ghosh, Soumi Das, Tarun Kumar, Suparna Bhattacharya, Sourangshu Bhattacharya · PDF
Near-Optimal Reinforcement Learning for Linear Distributionally Robust Markov Decision Processes
Zhishuai Liu, Weixin Wang, Pan Xu · PDF
Not All Samples Are Equal: Quantifying Instance-level Difficulty in Targeted Data Poisoning
William Xu, Yiwei Lu, Yihan Wang, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu · PDF
Not All Splits Are Equal: Rethinking Attribute Generalization Across Unrelated Categories
Firca Liviu Nicolae, Elena Burceanu, Antonio Barbalau, Dan Oneata · PDF
Obscurable Fishermen
Ekaterina Fedorova, Chara Podimata, Constantinos Costis Daskalakis · PDF
On Fairness of Task Arithmetic: The Role of Task Vectors
Laura Gomezjurado Gonzalez, Hiroki Naganuma, Kotaro Yoshida, Takafumi Horie, Yuji Naraki, Ryotaro Shimizu · PDF
On the Interaction of Compressibility and Adversarial Robustness
Melih Barsbey, Antônio H. Ribeiro, Umut Simsekli, Tolga Birdal · PDF
Optimal Fair Learning Robust to Adversarial Distribution Shift
Sushant Agarwal, Amit Deshpande, Rajmohan Rajaraman, Ravi Sundaram · PDF
Optimal Lower Bounds and New Upper Bounds for Sequential Prediction with Abstention
Ezra Edelman, Surbhi Goel · PDF
Persistent and Stealthy Backdoor Attacks in Federated Learning via Layerwise Model Poisoning
Nader Bouacida, Jayneel Vora, Prasant Mohapatra · PDF
Positive-Unlabeled Learning for Control Group Construction in Observational Causal Inference
Ilias Tsoumas, Dimitrios Bormpoudakis, Vasileios Sitokonstantinou, Athanasios Askitopoulos, Andreas Kalogeras, Charalampos (Haris) Kontoes, Ioannis N. Athanasiadis · PDF
Probabilistic Framework for Robustness of Counterfactual Explanations Under Data Shifts
Xuan Zhao, Lena Krieger, Zhuo Cao, Arya Bangun, Hanno Scharr, Ira Assent · PDF
Quantifying CBRN Risk in Frontier Models
Divyanshu Kumar, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi · PDF
Reasoning as an Adaptive Defense for Safety
Taeyoun Kim, Fahim Tajwar, Aditi Raghunathan, Aviral Kumar · PDF
Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding
Marlies Hafer, Alexander Marx · PDF
Regularized Robustly Reliable Learners and Instance Targeted Attacks
Avrim Blum, Donya Saless · PDF
Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry
Atharv Goel, Sharat Agarwal, Saket Anand, Chetan Arora · PDF
Reliable Compositional Editing with Overlap-Aware Attention in Diffusion Models
Salamata Konate, Hassan Hamidi, Elham Dolatabadi, Frank Rudzicz, Laleh Seyyed-Kalantari · PDF
Reliable Models via Responsiveness Verification
Meredith Stewart, Seung Hyun Cheon, Bogdan Kulynych, Tsui-Wei Weng, Berk Ustun · PDF
Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection
Chengcan Wu, Zeming Wei, Huanran Chen, Yinpeng Dong, Meng Sun · PDF
Responsible Imputation of User Behavior Surveys via Mask-Aware Transformers
Aman Shukla, Rishabh Kumar, Daniel Patrick Scantlebury · PDF
Rethinking Sparse Autoencoders: Select-and-Project for Fairness and Control from Encoder Features Alone
Antonio Barbalau, Cristian Daniel Paduraru, Teodor Poncu, Alexandru Tifrea, Elena Burceanu · PDF
Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning
Ruhan Wang, Yu Yang, Zhishuai Liu, Dongruo Zhou, Pan Xu · PDF
Reweighted Flow Matching via Unbalanced Optimal Transport for Long-tailed Generation
Hyunsoo Song, Minjung Gim, Jaewoong Choi · PDF
RL-Guided Data Selection for Language Model Finetuning
Animesh Jha, Ananjan Nandi, Harshit Gupta · PDF
Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
Xiaohang Tang, Zhuowen Cheng, Satyabrat Kumar · PDF
Robust Federated Learning under Heterogeneous Data with Generalized Heavy-Ball Momentum
Riccardo Zaccone, Sai Praneeth Karimireddy, Carlo Masone, Marco Ciccone · PDF
Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling
Jonas Ngnawe, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Frederic Precioso, Christian Gagné · PDF
Robust Multi-task Modeling for Bayesian Optimization via In-Context Learning
Yucen Lily Li, Samuel Daulton, Samuel Müller, Andrew Gordon Wilson, Eytan Bakshy · PDF
Safety by Design: High-Probability Constrained Contextual Bandits
Spyros Dragazis, Aldo Pacchiano · PDF
SAGE: Streaming, Agreement-driven Gradient Sketches for Representative Subset Selection
Ashish Jha, Salman Ahmadi-Asl · PDF
Sandbagging in a Simple Survival Bandit Problem
Joel Dyer, Daniel Jarne Ornia, Nicholas George Bishop, Anisoara Calinescu, Michael J. Wooldridge · PDF
Selective Cost-Aware Random Forests for Unreliable Data
Sarwesh Rauniyar · PDF
Selective Preference Aggregation
Shreyas Kadekodi, Hayden McTavish, Berk Ustun · PDF
SIVA: Self-Improving Vulnerability Agent
Valentin Walischewski, Giulio Zizzo, Kevin N. Webster · PDF
Sparse Parameter Adaptation for Fair Model Transfer Across Domains
Sina Baharlouei, Minoo Ahmadi · PDF
Spectral Regularization as a Safety-Critical Inductive Bias
Shivam Dubey · PDF
StealthEval: A Probe-Rewrite-Evaluate Workflow for Reliable Benchmarks
Lang Xiong, Nishant Bhargava, Jeremy Chang, Jianhang Hong, Haihao Liu, Kevin Zhu · PDF
Strategic Feature Selection
Jivat Neet Kaur, Divya M Shanmugam, Emma Pierson, Michael I. Jordan, Nika Haghtalab, Ahmed Alaa, Serena Lutong Wang · PDF
Stress-Testing Byzantine Defenses under Data Heterogeneity
Latifa Errami, Hajar El Hammouti, El houcine Bergou · PDF
Stylistic Shifts in Human–LLM Conversations: Challenges and Adaptation
Fulei Zhang, Zhou Yu · PDF
Tackling the Noisy Elephant in the Room: Label Noise-robust Out-of-Distribution Detection via Loss Correction and Low-rank Decomposition
Tarhib Al Azad, Shahana Ibrahim · PDF
Taming the Noisy Oracle: Robust Entity-Centric Question Answering via Learning from Imperfect Feedback
Binyamin Perets, Zohar Shnaider, Dvir Aran, Shie Mannor · PDF
Task Priors: Enhancing Model Evaluation by Considering the Entire Space of Downstream Tasks
Niket Patel, Randall Balestriero · PDF
Teaming LLMs to Detect and Mitigate Hallucinations
Demian Till, John Gordon Smeaton, Peter Haubrick, Mohammed Gouse Subhan Saheb, Florian Graef, David Berman · PDF
Temp-SCONE: A Novel Out-of-Distribution Detection and Domain Generalization Framework for Wild Data with Temporal Shift
Aditi Naiknaware, Sanchit Singh, Hajar Homayouni, Salimeh Sekeh · PDF
Testing Noise Assumptions of Learning Algorithms
Surbhi Goel, Adam Klivans, Konstantinos Stavropoulos, Arsen Vasilyan · PDF
Text‑Guided Data Attribution: Attributing the Influence of Simplicity Bias to Dataset
Kumar Shubham, Pranav Sastry, Prathosh AP · PDF
The Impact of Training Data on Adversarial Robustness
Marco Zimmerli, Andreas Plesner, Till Aczel, Roger Wattenhofer · PDF
The Silent Judge: Unacknowledged Shortcut Bias in LLM-as-a-Judge
Arash Marioriyad, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah · PDF
The Statistical Fairness-Accuracy Frontier
Alireza Fallah, Michael I. Jordan, Annie S Ulichney · PDF
Towards Context-Aware Domain Generalization: Understanding the Benefits and Limits of Marginal Transfer Learning
Jens Müller, Lars Kühmichel, Martin Rohbeck, Stefan T. Radev, Ullrich Koethe · PDF
Towards Trustworthy Amortized Bayesian Model Comparison
Šimon Kucharský, Aayush Mishra, Daniel Habermann, Stefan T. Radev, Paul-Christian Bürkner · PDF
Trust, But Attribute: Tracing Impact of Data on Trustworthiness in Supervised LLM Fine-Tuning
Kumar Shubham, Nishant Sharma, Karn Tiwari, Prathosh AP · PDF
Uncertainty as Feature Gaps: Epistemic Uncertainty Quantification of LLMs in Contextual Question-Answering
Yavuz Faruk Bakman, Zhiqi Huang, Chenyang Zhu, Anoop Kumar, Alfy Samuel, Daben Liu · PDF
Uncertainty-Aware LLMs Fail to Flag Misleading Contexts
Tianyi Zhou, Johanne Medina, Sanjay Chawla · PDF
Unlocking Transfer Learning for Open-World Few-Shot Recognition
Byeonggeun Kim, Juntae Lee, Kyuhong Shim, Simyung Chang · PDF
Unspoken Hints: Accuracy Without Acknowledgement in LLM Reasoning
Arash Marioriyad, Shaygan Adim, Nima Alighardashi, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban · PDF
WASP: A Weight-Space Approach to Detecting Learned Spuriousness
Cristian Daniel Paduraru, Antonio Barbalau, Radu Filipescu, Andrei Liviu Nicolicioiu, Elena Burceanu · PDF
Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs
Ziqian Zhong, Aditi Raghunathan · PDF
When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Ciphers
Divij Handa, Zehua Zhang, Amir Saeidi, Shrinidhi Kumbhar, Md Nayem Uddin, Aswin RRV, Chitta Baral · PDF
Why is Your Language Model a Poor Implicit Reward Model?
Noam Razin, Yong Lin, Jiarui Yao, Sanjeev Arora · PDF
Wrong Model, Right Uncertainty: Spatial Associations for Discrete Data with Misspecification
David R. Burt, Renato Berlinghieri, Tamara Broderick · PDF
Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting
Nikoo Naghavian, Mostafa Tavassolipour · PDF

Accepted papers (149)

☆$\texttt{strategic-fl-sim}$: An Extensible Package for Simulating Strategic Behavior in Federated Learning

☆A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy

☆A Guide to Robust Generalization: The Impact of Architecture, Pre-training, and Optimization Strategy

☆A Multi-Method Interpretability Framework for Probing Cognitive Processing in Deep Neural Networks across Vision and Biomedical Domains

☆Active Slice Discovery in Large Language Models

☆Adaptive Norm Selection Prevents Catastrophic Overfitting in Fast Adversarial Training

☆Adversarial Attacks against Context-dependent Visual Association in Referring Multi-Object Tracking Systems

☆Adversarially-robust probes for Deep Networks

☆Aggregated Individual Reporting for Post-Deployment Evaluation: Mechanism Design & Modeling Considerations

☆Ambient Diffusion Omni

☆Ambient Proteins: Training Diffusion Models on Low Quality Structures

☆An Analysis of Causal Effect Estimation using Outcome Invariant Data Augmentation

☆Approximate Leave-One-Out Cross Validation for Robust Scatter Matrix Estimation

☆Approximating Human Preferences Using a Multi-Judge Learned System

☆AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin

☆Automated Generation of Multilingual Jailbreak Prompts

☆Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes

☆Bayesian Decision Making around Experts

☆Better Data for Satellite Super Resolution

☆Beyond Per-Question Privacy: Multi-Query Differential Privacy for RAG Systems

☆Beyond Static Bias: Quantifying Fairness Variability in CheXpert

☆Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually-Aware Transformations

☆Breaking Bad: Exploring the Dangers of LLM-generated Misinformation from Fringe Social Media

☆Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators

☆BridgePure: Limited Protection Leakage Can Break Black-Box Data Protection

☆Certified Adversarial Robustness via Mixture-of-Gaussians Randomized Smoothing

☆Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

☆Clean-Label Physical Backdoor Attacks with Data Distillation

☆COIR: Chain-of-Intention Reasoning Elicits Defense in Multimodal Large Language Models

☆Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification

☆Concept-Based Masking: A Patch-Agnostic Defense Against Adversarial Patch Attacks

☆Conformal Prediction for Molecular Properties under Label Shift

☆Corruption-Tolerant Asynchronous Q-Learning with Near-Optimal Rates

☆Cost Efficient Fairness Audit Under Partial Feedback

☆CroPA++: Exposing Vulnerabilities in Vision Language Models and Enhancing Adversarial Transferability of Cross-Prompt Attacks

☆Cross-Lingual Multimodal Retrieval-Augmented Generation for Open Question Answering in Tamil and Yoruba

☆Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

☆Data Decomposition beyond Splitting for Causal Estimation

☆Data-Efficient and Robust Coreset Selection via Sparse Adversarial Perturbations

☆Deep Research Brings Deeper Harm

☆Diffusion-supplemented Implicit Layers: Operator Smoothing for better Implicit Solvers

☆Disarming Strategic Text: Span-Aware Counterfactuals for Robust Content Moderation

☆Ditch the Denoiser: Emergence of Noise Robustness in Self-Supervised Learning from Data Curriculum

☆Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection?

☆Domain Generalization: A Tale of Two ERMs

☆Don’t Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning

☆Double Machine Learning Evaluation Under Distribution Shift and Selection Bias

☆Drawing Reliable Conclusions with Imperfect Synthetic Data

☆DynamiX: Dynamic Resource eXploration for Personalized Ad-Recommendations

☆Efficiently Robust In-Context Reinforcement Learning with Adversarial Generalization and Adaptation

☆Energy-Shaped Manifold Projections Enable Adversarial Detection

☆ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

☆Evaluating robustness of tabular models under meta-features based shifts

☆Evaluating the Quality of AI-Generated Resolutions from Conversational vs Structured Sources: Implications for Enterprise Knowledge Automation

☆Extracting Latent Generalization from Models Trained with Noisy Labels

☆Failure Prediction Is a Better Performance Proxy for Early-Exit Networks Than Calibration

☆FairContrast: Enhancing Fairness through Contrastive learning and Customized Augmenting Methods on Tabular Data

☆Fairness Implications of GNN-to-MLP Knowledge Distillation

☆Fairness Through Independence via Cramér-von Mises Regularization

☆False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

☆FAVAE-Effective Frequency Aware Latent Tokenizer

☆Few-Shot Knowledge Distillation for Language Models via Counterfactual Explanations

☆Fine-Grained Uncertainty Decomposition in Large Language Models: A Spectral Approach

☆Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning

☆From Clutter to Clarity: Visual Recognition through Foveated Object-Centric Learning (FocL)

☆From Evidence to Knowledge: A Hierarchical Probabilistic Model of the Scientific Knowledge Landscape at Web Scale

☆From Many Voices to One: A Statistically Principled Aggregation of LLM Judges

☆From Search to Decision: A Framework for Adversarially Robust Approximate Nearest Neighbor Search

☆From Semantics to Symbols: A Two-Stage Framework for Deconstructing LLM Reasoning into Concepts and Rules

☆Generalizing Robustness from $\ell_p$ to Unforeseen Attack via Calibrated Adversarial Sampling

☆GUARD: Guiding Unbiased Alignment through Reward Debiasing

☆Human Uncertainty-Aware Reliable Data Selection and Efficient Annotation for Visual Question Answering

☆Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards

☆Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition

☆Influence Functions for Preference Dataset Pruning

☆Information-Theoretic Conditions for Chain-of-Thought Monitorability and Methods for Improving It

☆Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

☆It is Hard to Unlearn Dogged Backdoor Samples in Diffusion Models

☆KAIROS: Scalable Model-Agnostic Data Valuation

$\texttt{strategic-fl-sim}$: An Extensible Package for Simulating Strategic Behavior in Federated Learning

A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy

A Guide to Robust Generalization: The Impact of Architecture, Pre-training, and Optimization Strategy

A Multi-Method Interpretability Framework for Probing Cognitive Processing in Deep Neural Networks across Vision and Biomedical Domains

Active Slice Discovery in Large Language Models

Adaptive Norm Selection Prevents Catastrophic Overfitting in Fast Adversarial Training

Adversarial Attacks against Context-dependent Visual Association in Referring Multi-Object Tracking Systems

Adversarially-robust probes for Deep Networks

Aggregated Individual Reporting for Post-Deployment Evaluation: Mechanism Design & Modeling Considerations

Ambient Diffusion Omni

Ambient Proteins: Training Diffusion Models on Low Quality Structures

An Analysis of Causal Effect Estimation using Outcome Invariant Data Augmentation

Approximate Leave-One-Out Cross Validation for Robust Scatter Matrix Estimation

Approximating Human Preferences Using a Multi-Judge Learned System

AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin

Automated Generation of Multilingual Jailbreak Prompts

Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes

Bayesian Decision Making around Experts

Better Data for Satellite Super Resolution

Beyond Per-Question Privacy: Multi-Query Differential Privacy for RAG Systems

Beyond Static Bias: Quantifying Fairness Variability in CheXpert

Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually-Aware Transformations

Breaking Bad: Exploring the Dangers of LLM-generated Misinformation from Fringe Social Media

Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators

BridgePure: Limited Protection Leakage Can Break Black-Box Data Protection

Certified Adversarial Robustness via Mixture-of-Gaussians Randomized Smoothing

Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

Clean-Label Physical Backdoor Attacks with Data Distillation

COIR: Chain-of-Intention Reasoning Elicits Defense in Multimodal Large Language Models

Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification

Concept-Based Masking: A Patch-Agnostic Defense Against Adversarial Patch Attacks

Conformal Prediction for Molecular Properties under Label Shift

Corruption-Tolerant Asynchronous Q-Learning with Near-Optimal Rates

Cost Efficient Fairness Audit Under Partial Feedback

CroPA++: Exposing Vulnerabilities in Vision Language Models and Enhancing Adversarial Transferability of Cross-Prompt Attacks

Cross-Lingual Multimodal Retrieval-Augmented Generation for Open Question Answering in Tamil and Yoruba

Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

Data Decomposition beyond Splitting for Causal Estimation

Data-Efficient and Robust Coreset Selection via Sparse Adversarial Perturbations

Deep Research Brings Deeper Harm

Diffusion-supplemented Implicit Layers: Operator Smoothing for better Implicit Solvers

Disarming Strategic Text: Span-Aware Counterfactuals for Robust Content Moderation

Ditch the Denoiser: Emergence of Noise Robustness in Self-Supervised Learning from Data Curriculum

Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection?

Domain Generalization: A Tale of Two ERMs

Don’t Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning

Double Machine Learning Evaluation Under Distribution Shift and Selection Bias

Drawing Reliable Conclusions with Imperfect Synthetic Data

DynamiX: Dynamic Resource eXploration for Personalized Ad-Recommendations

Efficiently Robust In-Context Reinforcement Learning with Adversarial Generalization and Adaptation

Energy-Shaped Manifold Projections Enable Adversarial Detection

ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

Evaluating robustness of tabular models under meta-features based shifts

Evaluating the Quality of AI-Generated Resolutions from Conversational vs Structured Sources: Implications for Enterprise Knowledge Automation

Extracting Latent Generalization from Models Trained with Noisy Labels

Failure Prediction Is a Better Performance Proxy for Early-Exit Networks Than Calibration

FairContrast: Enhancing Fairness through Contrastive learning and Customized Augmenting Methods on Tabular Data

Fairness Implications of GNN-to-MLP Knowledge Distillation

Fairness Through Independence via Cramér-von Mises Regularization

False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

FAVAE-Effective Frequency Aware Latent Tokenizer

Few-Shot Knowledge Distillation for Language Models via Counterfactual Explanations

Fine-Grained Uncertainty Decomposition in Large Language Models: A Spectral Approach

Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning

From Clutter to Clarity: Visual Recognition through Foveated Object-Centric Learning (FocL)

From Evidence to Knowledge: A Hierarchical Probabilistic Model of the Scientific Knowledge Landscape at Web Scale

From Many Voices to One: A Statistically Principled Aggregation of LLM Judges

From Search to Decision: A Framework for Adversarially Robust Approximate Nearest Neighbor Search

From Semantics to Symbols: A Two-Stage Framework for Deconstructing LLM Reasoning into Concepts and Rules

Generalizing Robustness from $\ell_p$ to Unforeseen Attack via Calibrated Adversarial Sampling

GUARD: Guiding Unbiased Alignment through Reward Debiasing

Human Uncertainty-Aware Reliable Data Selection and Efficient Annotation for Visual Question Answering

Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards

Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition

Influence Functions for Preference Dataset Pruning

Information-Theoretic Conditions for Chain-of-Thought Monitorability and Methods for Improving It

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

It is Hard to Unlearn Dogged Backdoor Samples in Diffusion Models

KAIROS: Scalable Model-Agnostic Data Valuation

Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification