ICLR 2026PastSafety & alignmentInterpretability

ICLR 2026 Workshop on Principled Design for Trustworthy AI - Interpretability, Robustness, and Safety across Modalities

ICLR 2026 Trustworthy AI

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 3, 2026, 11:59 UTC
OpenReview-synced 2026-02-03 11:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (144)

Fetched from OpenReview (v2) on 2026-06-10.

A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring
Usman Anwar, Julianna Piskorz, David D. Baek, David Demitri Africa, Jim Weatherall, Max Tegmark, Christian Schroeder de Witt, Mihaela van der Schaar, David Krueger
A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior
Harry Mayne, Justin Singh Kang, Dewi Sid William Gould, Kannan Ramchandran, Adam Mahdi, Noah Y. Siegel
AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments
Renukanandan Tumu, Aditya Singh, Rahul Mangharam
Agentic Uncertainty Reveals Agentic Overconfidence
Jean Kaddour, Srijan Patel, Gbetondji Jean-Sebastien Dovonon, Leo Richter, Pasquale Minervini, Matt J. Kusner
AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM‑Based Agents
Emma Gouné, Akshat Naik, Patrick Quinn, Guillermo Bosch, Francisco Javier Campos Zabala, Jason Ross Brown, Edward James Young
Always Keep Your Promises: A Model-Agnostic Attribution Algorithm for Neural Networks
Kevin Lee, Duncan Halverson, Pablo Andres Millan Arias
Attention Sinks in Diffusion Language Models
Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
Auditing Cascading Risks in Multi-Agent Systems via Semantic–Geometric Co-evolution
Zixun Luo, YUHANG FAN, hengyu lin, Youzhi Zhang
AutoBaxBuilder: Bootstrapping Code Security Benchmarking
Tobias von Arx, Niels Mündler, Mark Vero, Maximilian Baader, Martin Vechev
Backdoor Attacks on Decentralised Post-Training
Oguzhan Ersoy, Nikolay Blagoev, Jona te Lintelo, Stefanos Koffas, Marina Krček, Stjepan Picek
BackFed: A Standardized and Efficient Benchmark Framework for Backdoor Attacks in Federated Learning
Thinh Dao, Thuy Dung Nguyen, Khoa D Doan, Kok-Seng Wong
BarrierSteer: LLM Safety via Learning Barrier Steering
Thanh Q. Tran, Arun Verma, Kiwan Wong, Bryan Kian Hsiang Low, Daniela Rus, Wei Xiao
Benchmarking AI Control Protocols for Safety in Medical Question-Answering Tasks
Guido Freire, Agustín E. Martínez-Suñé, Viviana Cotik
Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations
Yahan Li, Xinyi Jie, Wanjia Ruan, Xubei Zhang, Huaijie ZHU, Yicheng Gao, Ruishan Liu
Beyond Static Truthfulness Benchmarks: Two Truths and One Lie for Multi-Agent Deception and Detection
Jason Kong, Lanxiang Hu, Flavio Ponzina, Tajana Rosing
Black-box Optimization of LLM Outputs by Asking for Directions
Jie Zhang, Meng Ding, Yang Liu, Jue Hong, Florian Tramèr
Bootstrapping-based Regularisation for Reducing Individual Prediction Instability in Clinical Risk Prediction Models
Sara Matijevic, Christopher Yau
Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
Mingyeong Kim, Jungwon Choi, Chaeyun Jang, Juho Lee
BUDDY: Blending Training and Deployment Data with Weighted Expert Ensembles for Post-hoc LLM Calibration
Aishwarya Mandyam, Wenhui Sophia Lu, Wing Hung Wong, John Duchi, Barbara E Engelhardt
Byzantine Machine Learning: MultiKrum and an Optimal Notion of Robustness
Gilles Bareilles, Wassim Bouaziz, Julien Fageot, El-Mahdi El-Mhamdi
Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs
Hen Davidov, Shai Feldman, Gilad Freidkin, Yaniv Romano
Causal Analysis of Representation Drift for Robust Deployment
Thomas Y Chen, Daniel Xu
Closing the Distribution Gap in Adversarial Training for LLMs
Chengzhi Martin Hu, Jonas Dornbusch, David Lüdke, Stephan Günnemann, Leo Schwinn
Collaborative Threshold Watermarking
Tameem Bakr, Anish Ambreth, Nils Lukas
Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates
Nikhil Prakash, Donghao Ren, Dominik Moritz, Yannick Assogba
Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features
Seonglae Cho, Zekun Wu, Adriano Koshiyama
Deception in Dialogue: Evaluating and Mitigating Deceptive Behavior in Large Language Models
Marwa Abdulhai, Ryan Cheng, Aryansh Shrivastava, Natasha Jaques, Yarin Gal, Sergey Levine
DELTA-CROSSCODER: ROBUST CROSSCODER IN NARROW FINE-TUNING REGIMES
Aly M. Kassem, Thomas Jiralerspong, Negar Rostamzadeh, Golnoosh Farnadi
Diff Mining: Logit Differences Reveal Finetuning Objectives
Greg Kocher, Robert West, Clément Dumas, Julian Minder
Digging Deeper: Learning Multi-Level Concept Hierarchies
Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik
Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment
Kundan Krishna, Joseph Yitan Cheng, Charles Maalouf, Leon Alexander Gatys
Disentangling goal and framing for detecting LLM jailbreaks
Amirhossein Farzam, Majid Behbahani, Mani Malek, Yuriy Nevmyvaka, Guillermo Sapiro
DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders
Xu Wang, Bingqing Jiang, Yu Wan, Baosong Yang, Lingpeng Kong, Difan Zou
Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making
Khurram Yamin, Jingjing Tang, Santiago Cortes-Gomez, Amit Sharma, Eric Horvitz, Bryan Wilder
Dual-Objective Reinforcement Learning with novel Hamilton-Jacobi-Bellman formulations
William Sharpless, Dylan Hirsch, Sander Tonkens, Nikhil Uday Shinde, Sylvia Herbert
Efficient Refusal Ablation in LLM through Optimal Transport
geraldin nanfack, Elvis Dohmatob
Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models
Jingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan
Enabling Preference-driven Unlearning in Few-step Distilled Text-to-Image Diffusion Models
Gaurav Patel, Jun Fang, Greg Ver Steeg, Qiang Qiu, Sravan Sripada
Endogenous Resistance to Activation Steering in Language Models
Alex McKenzie, Keenan Pepper, Stijn Servaes, Martin Leitgab, Murat Cubuktepe, Michael Vaiana, Diogo S de Lucena, Judd Rosenblatt, Michael S. A. Graziano
Enhancing Deep Neural Network Reliability with Refinement and Calibration
Ramya Hebbalaguppe, K.N Ajay Shastry, Soumya Suvra Ghosal, Chetan Arora
Enhancing Trust in Large Language Models via Uncertainty-Calibrated Fine-tuning
Ranganath Krishnan, Piyush Khanna, Omesh Tickoo
Evolving Safety Landscape of Multi-modal Large Language Models: A Survey of Emerging Threats and Safeguards
Xi Li, Shu Zhao, Xiaohan Zou, Fei Zhao, Fuxiao Liu, Yusen Zhang, Cheng Han, Yushun Dong, Jiaqi Wang
Exact Certification of Neural Networks and Partition Aggregation Ensembles against Label Poisoning
Ajinkya Mohgaonkar, Lukas Gosch, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar, Stephan Günnemann
Expert Selections In MoE Models Reveal (Almost) As Much As Text
Amir Nuriyev, Gabriel Kulp
Expert-guided Clinical Text Augmentation via Query-Based Model Collaboration
Dongkyu Cho, Miao Zhang, Gregory D Lyng, Rumi Chunara
Explainability Is Not a Feature: A Position on Trustworthy AI
Gabriel Banaggia, Eduardo Soares, Renato Cerqueira, Emilio Vital Brazil, Simone Barbosa
Explaining Grokking in Transformers through the Lens of Inductive Bias
Jaisidh Singh, Diganta Misra, Antonio Orvieto
Fairness Failure Modes of Multimodal LLMs
Canyu Chen, Anglin Cai, Joan Nwatu, Jianshu Zhang, Yale Li, Han Liu, Jessica Hullman, Rada Mihalcea, Kathleen McKeown, Manling Li
Fault-Tolerant Preference Alignment via Multi-Agent Verification
Elias Hossain, Maryam Rahimimovassagh, SUBASH neupane, Mohammad Jahid Ibna Basher, Ivan Garibay, Niloofar Yousefi
Federated Agent Reinforcement Learning
Canyu Chen, Kangyu Zhu, Zhaorun Chen, Zhanhui Zhou, Shizhe Diao, Yiping Lu, Tian Li, Manling Li, Dawn Song
FedGraph: Defending Federated Large Language Model Fine-Tuning Against Backdoor Attacks via Graph-Based Aggregation
Xi Chen, Chunyi Zhou, Rui Zeng, Xiaogang Xu, Zhe Liu, Shouling Ji
Few-Shot Adversarial Low-Rank Fine-Tuning of Vision-Language Models
Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh, Ramtin Pedarsani
Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models
Ashutosh Ranjan, Vivek Srivastava, Shirish Karande, Murari Mandal
From Data to Behavior: Predicting Unintended Model Behaviors Before Training
Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
Frontier Models Can Take Actions at Low Probabilities
Alex Serrano, Wen Xing, David Lindner, Erik Jenner
Geometry-Aware Crossover for Effective and Efficient Evolutionary Attacks
Hyo Seo Kim, Gang Luo, Can Chen, Binghui Wang, Yue Duan, Ren Wang
GLEAN: Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification
Yichi Zhang, Nabeel Seedat, Yinpeng Dong, Peng Cui, Jun Zhu, Mihaela van der Schaar
Google's LLM Watermarking System is Vulnerable to Layer Inflation Attack
Romina Omidi, Yun Dong, Binghui Wang
GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory
Pepijn Cobben, X. Angelo Huang, Thao Amelia Pham, Isabel Dahlgren, Terry Jingchen Zhang, Zhijing Jin
GuardReasoner-Omni: A Reasoning-based Multi-modal Guardrail for Text, Image, and Video
Zhenhao Zhu, Yue Liu, Yanpei Guo, Wenjie Qu, Cancan Chen, Yufei He, Yibo Li, Yulin Chen, Tianyi Wu, Huiying Xu, Xinzhong Zhu, Jiaheng Zhang
Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning
JinShan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong
Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency
Shubham Gupta, Zichao Li, Tianyi Chen, Cem Subakan, Siva Reddy, Perouz Taslakian, Valentina Zantedeschi
How does information access affect LLM monitors' ability to detect sabotage?
Rauno Arike, Raja Mehta Moreno, Rohan Subramani, Shubhorup Biswas, Francis Rhys Ward
Human-Guided Harm Recovery for Computer Use Agents
Christy Li, Sky CH-Wang, Andi Peng, Andreea Bobu
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru WANG, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
Improving Semantic Uncertainty Quantification in Question Answering via Token-Level Temperature Scaling
Tom A. Lamb, Desi R. Ivanova, Philip Torr, Tim G. J. Rudner
Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates
Ariel Fogel, Omer Hofman, Eilon Cohen, Roman Vainshtein
INFERENCE-TIME SAFETY FOR CODE LLMS VIA RETRIEVAL-AUGMENTED REVISION
Manisha Mukherjee, Vincent Josua Hellendoorn
Instruction Following by Principled Attention Boosting of Large Language Models
Vitoria Guardieiro, Avishree Khare, Adam Stein, Eric Wong
Investigating Data Interventions for Subgroup Fairness: An ICU Case Study
Erin Tan, Judy Hanwen Shen, Irene Y. Chen
Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning
Hen Davidov, Nachshon Cohen, Oren Kalinsky, Yaron Fairstein, Guy Kushilevitz, Ram Yazdi, Patrick Rebeschini
Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms
Linh Le, David Williams-King, Mohamed Amine Merzouk, Aton Kamanda, Adam Oberman
Learn to be Unlearned: Optimizing Language Models for Unlearning via Clustered Gradient Routing
Vincent Hanke, Jing Xu, Martin Pawelczyk, Michael Backes, Adam Dziedzic, Franziska Boenisch
Learning Minimal Contexts: How Chain-of-Thought Induces Out-of-Distribution Generalization
Yu Wang, Fu-Chieh Chang, Pei-Yuan Wu
Leveraging RAG for Training-Free Alignment of LLMs
John Timothy Halloran
Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
Ji Qi, Mingxiao Liu, VIET HO TAM THUC DO, Yuzhe Li, Zhuoshi Pan, Gene Cheung, H. Vicky Zhao
LoRA Users Beware: A Few Spurious Tokens Can Manipulate Your Finetuned Model
Praney Goyal, Marcel Mateos Salles, Pradyut Sekhsaria, Hai Huang, Randall Balestriero
MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs
Chun Yan Ryan Kan, Tommy Tran, Vedant Yadav, Ava Cai, Ruizhe Li, Maheep Chaudhary
Memorization Dynamics in Knowledge Distillation for Language Models
Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, David A. Smith, Zheng Xu, Diego Garcia-Olano
Mitigating Legibility Tax with Decoupled Prover-Verifier Games
Yegon Kim, Juho Lee
Mitigating Reward Hacking with RL Training Interventions
Aria Wong, Joshua Engels, Neel Nanda
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Knowledge Poisoning Attacks
Hyeonjeong Ha, Qiusi Zhan, Jeonghwan Kim, Dimitrios Bralios, Saikrishna sanniboina, Nanyun Peng, Kai-Wei Chang, Daniel Kang, Heng Ji
Model Organisms for Generalization Resistance Under Distribution Shift
Jou Barzdukas, Jack Peck, Julian Schulz, Paulius Rauba, Lennie Wells
MONITORING EMERGENT REWARD HACKING DURING GENERATION VIA INTERNAL ACTIVATIONS
Patrick Wilhelm, Thorsten Wittkopp, Odej Kao
Moral Preferences of LLMs Under Directed Contextual Influence
Phil Blandfort, Tushar Karayil, Urja Pawar, Robert Graham, Alex McKenzie, Dmitrii Krasheninnikov
Neural Chameleons: Language Models Can Learn to Hide Their Thoughts from Unseen Activation Monitors
Max McGuinness, Alex Serrano, Luke Bailey, Scott Emmons
No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes
Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne, David Demitri Africa, Lorenzo Pacchiardi
No One Monitor Fits All: Oversight Strategies for Frontier Agents
Neil Kale, Shashwat Saxena, Ziqian Zhong, Chen Henry Wu, Aditi Raghunathan
Nonparametric Variational Differential Privacy via Embedding Parameter Clipping
Dina El Zein, Shashi Kumar, James Henderson
Offline Reinforcement Learning of High-Quality Behaviors Under Robust Style Alignment
Mathieu Petitbois, Rémy Portelas, Sylvain Lamprier
OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation
Aarush Aggarwal, Akshat Tomar, Amritanshu Tiwari, Sargam Goyal
On the Effects of Adversarial Perturbations on Distribution Robustness
Yipei Wang, Zhaoying Pan, Xiaoqian Wang
Paranoid Monitors: How Long Context Breaks LLM Agent Supervision
Alicia Yang, Aashiq Muhamed, Mona T. Diab, Virginia Smith
Patching LLMs Like Software: A Lightweight Method for Improving Safety Policies in Large Language Models
Huzaifa Arif, Pin-Yu Chen, Keerthiram Murugesan, Alex Gittens, Payel Das, Ching-Yun Ko
Pay Attention to the Triggers: Constructing Backdoors That Survive Distillation
Giovanni De Muri, Mark Vero, Robin Staab, Martin Vechev
Position: Beyond Reasoning Zombies — AI Reasoning Requires Process Validity
Rachel Lawrence, Jacqueline R. M. A. Maasch
Post-hoc Stochastic Concept Bottleneck Models
Wiktor Hoffmann, Sonia Laguna, Moritz Vandenhirtz, Emanuele Palumbo, Julia E Vogt
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
Prototype-Based Selective Prediction for Multimodal Instruction Models
Eduardo Soares, Emilio Vital Brazil, Plamen P Angelov, Victor Y. Shirasuna, Renato Cerqueira
Query Circuits: Explaining How Language Models Answer User Prompts
Tung-Yu Wu, Fazl Barez
RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning
Zeming Wei, Qiaosheng Zhang, Xia Hu, Xingcheng Xu
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
Quy-Anh Dang, Chris Ngo, Truong-Son Hy
Representational de-collapse: Interactions between supervised finetuning and in-context learning in language models
Abrar Elidrisi, Andrew M Saxe, Jin Hwa Lee, Basile Confavreux
Robust AI Evaluation through Maximal Lotteries
Hadi Khalaf, Serena Lutong Wang, Daniel Halpern, Itai Shapira, Flavio Calmon, Ariel D. Procaccia
Robust Feature Attribution via Integrated Sensitivity Gradients
Rukmangadh Sai Myana, Sumit Kumar Jha, Yanzhao Wu
Robust Object Detection via Kronecker Tensor Decomposition: Theory, Algorithms, and Applications
Salman Ahmadi-Asl, Roman Garaev, Hamidreza Behjoo, Asad Masood Khattak, Manuel Mazzara
RouterInterp: Superposed Specialisation in MoE Routing
Ilya Lasy, Nora Yinuo Cai, Kola Ayonrinde
SafeGuide: Adaptive Inference-Time Safety Control for Diffusion Models
Tong Zhou, Juyang Bai, Xiaolin Xu, Shaolei Ren
SafetyPairs: Isolating Safety Critical Image Features With Counterfactual Image Generation
Alec Helbling, Shruti Palaskar, Kundan Krishna, Duen Horng Chau, Leon Alexander Gatys, Joseph Yitan Cheng
SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
Vegard Flovik
Same Question, Different Lies: Cross-Context Consistency (C³) for Black-Box Sandbagging Detection
Lin Yulong, Pablo Bernabeu-Perez, Benjamin Arnav, Lennie Wells, Mary Phuong
Scalable Bayesian Monte Carlo: fast uncertainty estimation beyond deep ensembles
Xinzhu Liang, Joseph Lukens, Sanjaya Lohani, Thomas A. Searles, Brian T. Kirby, Xin Qiu, Kody J. H. Law
Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model
Tianyi Wu, Mingzhe Du, Yue Liu, Chengran Yang, Terry Yue Zhuo, Jiaheng Zhang, See-Kiong Ng
Selective Disclosure: Controlling Information Leakage in DocVQA Explanations
Kangsoo Jung, Mohamed Ali Souibgui, Changkyu Choi, Catuscia Palamidessi
Simple LLM Baselines are Competitive for Model Diffing
Elias Kempf, Simon Schrodi, Bartosz Cywiński, Thomas Brox, Neel Nanda, Arthur Conmy
Sparse Circuits of Vision Language Alignment
Huizhen Shu, xuying li
Stability-Aware Prompt Optimization for Clinical Data Abstraction
Arinbjörn Kolbeinsson, Daniel R. Timbie, Sajjan Narsinghani, Sanjay Hariharan
Stress-Testing Alignment Audits with Prompt-Level Strategic Deception
Oliver Daniels, Benjamin M. Marlin, Perusha Moodley, David Lindner
SureFED: Robust Federated Learning via Uncertainty-Aware Inward and Outward Inspection
Nasimeh Heydaribeni, Ruisi Zhang, Tara Javidi, Cristina Nita-Rotaru, Farinaz Koushanfar
Sycophantic Anchors: Localizing and Quantifying User Agreement in Reasoning Models
Jacek Duszenko
Test-Time Training Undermines Existing Safety Guardrails
Simone Antonelli, Mohammad Sadegh Akhondzadeh, Aleksandar Bojchevski
ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul, Pakhapoom Sarapat
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason E Weston, Hongyuan Zhan
The Realignment Problem: When Right becomes Wrong in LLMs
Aakash Sen Sharma, Debdeep Sanyal, Manodeep Ray, Vivek Srivastava, Shirish Karande, Murari Mandal
The Rogue Scalpel: Activation Steering Compromises LLM Safety
Anton Korznikov, Andrey V. Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
The Semantic Imprinting Hypothesis: How Semantic Watermarks Survive Prompt-based Editing
Sung Ju Lee, Nam Ik Cho
Theory of Minimal Weight Perturbations in Deep Networks and its Applications for Low-Rank Activated Backdoor Attacks
Bethan Evans, Jared Tanner
TIGHTENING OPTIMALITY GAP WITH CONFIDENCE THROUGH CONFORMAL PREDICTION
Miao Li, Michael Klamkin, Russell Bent, Pascal Van Hentenryck
Towards Statistical Verification for Trustworthy AI
Blossom Metevier, Max Springer, Bohdan Turbal, Aleksandra Korolova
Training with Honeypots: Reshaping How LLMs Fail
Samuel Simko, Punya Syon Pandey, Zhijing Jin, Bernhard Schölkopf
TrustLDM: Benchmarking Trustworthiness in Language Diffusion Model
Yichuan Mo, Yukun Jiang, Yanbo Shi, Mingjie Li, Michael Backes, Yang Zhang, Yisen Wang
Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models
Ziyuan Chen, Yujin Jeong, Tobias Braun, Anna Rohrbach
Uncertainty Drives Social Bias Changes in Quantized Large Language Models
Stanley Bryan Zamora Hua, Sanae Lotfi, Irene Y. Chen
Understanding Adversarial Transfer Across Modalities: Why Representation-Space Attacks Fail Where Data-Space Attacks Succeed
Isha Gupta, Rylan Schaeffer, Joshua Kazdan, Ken Liu, Sanmi Koyejo
Understanding Empirical Unlearning with Combinatorial Interpretability
Shingo Kodama, Niv Cohen, Micah Adler, Nir N Shavit
Unifying Perspectives on Learning Biases: A Data-Centric Intervention for Holistic Fairness, Robustness, and Generalization
Patrick Vincent, Innocent Nyalala
Verbosity Tradeoffs and the Impact of Scale on the Faithfulness of LLM Self-Explanations
Noah Y. Siegel, Nicolas Heess, Maria Perez-Ortiz, Oana-Maria Camburu
Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models
Sidney Bender, Marco Morik
VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han
Watermarking Discrete Diffusion Language Models
Avi Bagchi, Akhil Bhimaraju, Moulik Choraria, Daniel Alabi, Lav R. Varshney
When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs
Shaowen Wang, Yiqi Dong, Ruinian Chang, Tansheng Zhu, Yuebo Sun, Kaifeng Lyu, Jian Li
When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models
Qitong Wang, Haoran Dai, Haotian Zhang, Christopher Rasmussen, Binghui Wang
When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs
Beidi Zhao, Wenlong Deng, Xinting Liao, Yushu Li, Nazim Shaikh, Yao Nie, Xiaoxiao Li
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
Ziwen Xu, Chenyan WU, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang

Accepted papers (144)

☆A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

☆A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior

☆AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments

☆Agentic Uncertainty Reveals Agentic Overconfidence

☆AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM‑Based Agents

☆Always Keep Your Promises: A Model-Agnostic Attribution Algorithm for Neural Networks

☆Attention Sinks in Diffusion Language Models

☆Auditing Cascading Risks in Multi-Agent Systems via Semantic–Geometric Co-evolution

☆AutoBaxBuilder: Bootstrapping Code Security Benchmarking

☆Backdoor Attacks on Decentralised Post-Training

☆BackFed: A Standardized and Efficient Benchmark Framework for Backdoor Attacks in Federated Learning

☆BarrierSteer: LLM Safety via Learning Barrier Steering

☆Benchmarking AI Control Protocols for Safety in Medical Question-Answering Tasks

☆Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations

☆Beyond Static Truthfulness Benchmarks: Two Truths and One Lie for Multi-Agent Deception and Detection

☆Black-box Optimization of LLM Outputs by Asking for Directions

☆Bootstrapping-based Regularisation for Reducing Individual Prediction Instability in Clinical Risk Prediction Models

☆Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

☆BUDDY: Blending Training and Deployment Data with Weighted Expert Ensembles for Post-hoc LLM Calibration

☆Byzantine Machine Learning: MultiKrum and an Optimal Notion of Robustness

☆Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs

☆Causal Analysis of Representation Drift for Robust Deployment

☆Closing the Distribution Gap in Adversarial Training for LLMs

☆Collaborative Threshold Watermarking

☆Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates

☆Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features

☆Deception in Dialogue: Evaluating and Mitigating Deceptive Behavior in Large Language Models

☆DELTA-CROSSCODER: ROBUST CROSSCODER IN NARROW FINE-TUNING REGIMES

☆Diff Mining: Logit Differences Reveal Finetuning Objectives

☆Digging Deeper: Learning Multi-Level Concept Hierarchies

☆Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment

☆Disentangling goal and framing for detecting LLM jailbreaks

☆DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

☆Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making

☆Dual-Objective Reinforcement Learning with novel Hamilton-Jacobi-Bellman formulations

☆Efficient Refusal Ablation in LLM through Optimal Transport

☆Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

☆Enabling Preference-driven Unlearning in Few-step Distilled Text-to-Image Diffusion Models

☆Endogenous Resistance to Activation Steering in Language Models

☆Enhancing Deep Neural Network Reliability with Refinement and Calibration

☆Enhancing Trust in Large Language Models via Uncertainty-Calibrated Fine-tuning

☆Evolving Safety Landscape of Multi-modal Large Language Models: A Survey of Emerging Threats and Safeguards

☆Exact Certification of Neural Networks and Partition Aggregation Ensembles against Label Poisoning

☆Expert Selections In MoE Models Reveal (Almost) As Much As Text

☆Expert-guided Clinical Text Augmentation via Query-Based Model Collaboration

☆Explainability Is Not a Feature: A Position on Trustworthy AI

☆Explaining Grokking in Transformers through the Lens of Inductive Bias

☆Fairness Failure Modes of Multimodal LLMs

☆Fault-Tolerant Preference Alignment via Multi-Agent Verification

☆Federated Agent Reinforcement Learning

☆FedGraph: Defending Federated Large Language Model Fine-Tuning Against Backdoor Attacks via Graph-Based Aggregation

☆Few-Shot Adversarial Low-Rank Fine-Tuning of Vision-Language Models

☆Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

☆From Data to Behavior: Predicting Unintended Model Behaviors Before Training

☆Frontier Models Can Take Actions at Low Probabilities

☆Geometry-Aware Crossover for Effective and Efficient Evolutionary Attacks

☆GLEAN: Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

☆Google's LLM Watermarking System is Vulnerable to Layer Inflation Attack

☆GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

☆GuardReasoner-Omni: A Reasoning-based Multi-modal Guardrail for Text, Image, and Video

☆Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

☆Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

☆How does information access affect LLM monitors' ability to detect sabotage?

☆Human-Guided Harm Recovery for Computer Use Agents

☆Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

☆Improving Semantic Uncertainty Quantification in Question Answering via Token-Level Temperature Scaling

☆Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

☆INFERENCE-TIME SAFETY FOR CODE LLMS VIA RETRIEVAL-AUGMENTED REVISION

☆Instruction Following by Principled Attention Boosting of Large Language Models

☆Investigating Data Interventions for Subgroup Fairness: An ICU Case Study

☆Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

☆Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms

☆Learn to be Unlearned: Optimizing Language Models for Unlearning via Clustered Gradient Routing

☆Learning Minimal Contexts: How Chain-of-Thought Induces Out-of-Distribution Generalization

☆Leveraging RAG for Training-Free Alignment of LLMs

☆Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast

☆LoRA Users Beware: A Few Spurious Tokens Can Manipulate Your Finetuned Model

☆MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs

☆Memorization Dynamics in Knowledge Distillation for Language Models

A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior

AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments

Agentic Uncertainty Reveals Agentic Overconfidence

AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM‑Based Agents

Always Keep Your Promises: A Model-Agnostic Attribution Algorithm for Neural Networks

Attention Sinks in Diffusion Language Models

Auditing Cascading Risks in Multi-Agent Systems via Semantic–Geometric Co-evolution

AutoBaxBuilder: Bootstrapping Code Security Benchmarking

Backdoor Attacks on Decentralised Post-Training

BackFed: A Standardized and Efficient Benchmark Framework for Backdoor Attacks in Federated Learning

BarrierSteer: LLM Safety via Learning Barrier Steering

Benchmarking AI Control Protocols for Safety in Medical Question-Answering Tasks

Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations

Beyond Static Truthfulness Benchmarks: Two Truths and One Lie for Multi-Agent Deception and Detection

Black-box Optimization of LLM Outputs by Asking for Directions

Bootstrapping-based Regularisation for Reducing Individual Prediction Instability in Clinical Risk Prediction Models

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

BUDDY: Blending Training and Deployment Data with Weighted Expert Ensembles for Post-hoc LLM Calibration

Byzantine Machine Learning: MultiKrum and an Optimal Notion of Robustness

Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs

Causal Analysis of Representation Drift for Robust Deployment

Closing the Distribution Gap in Adversarial Training for LLMs

Collaborative Threshold Watermarking

Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates

Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features

Deception in Dialogue: Evaluating and Mitigating Deceptive Behavior in Large Language Models

DELTA-CROSSCODER: ROBUST CROSSCODER IN NARROW FINE-TUNING REGIMES

Diff Mining: Logit Differences Reveal Finetuning Objectives

Digging Deeper: Learning Multi-Level Concept Hierarchies

Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment

Disentangling goal and framing for detecting LLM jailbreaks

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making

Dual-Objective Reinforcement Learning with novel Hamilton-Jacobi-Bellman formulations

Efficient Refusal Ablation in LLM through Optimal Transport

Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

Enabling Preference-driven Unlearning in Few-step Distilled Text-to-Image Diffusion Models

Endogenous Resistance to Activation Steering in Language Models

Enhancing Deep Neural Network Reliability with Refinement and Calibration

Enhancing Trust in Large Language Models via Uncertainty-Calibrated Fine-tuning

Evolving Safety Landscape of Multi-modal Large Language Models: A Survey of Emerging Threats and Safeguards

Exact Certification of Neural Networks and Partition Aggregation Ensembles against Label Poisoning

Expert Selections In MoE Models Reveal (Almost) As Much As Text

Expert-guided Clinical Text Augmentation via Query-Based Model Collaboration

Explainability Is Not a Feature: A Position on Trustworthy AI

Explaining Grokking in Transformers through the Lens of Inductive Bias

Fairness Failure Modes of Multimodal LLMs

Fault-Tolerant Preference Alignment via Multi-Agent Verification

Federated Agent Reinforcement Learning

FedGraph: Defending Federated Large Language Model Fine-Tuning Against Backdoor Attacks via Graph-Based Aggregation

Few-Shot Adversarial Low-Rank Fine-Tuning of Vision-Language Models

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Frontier Models Can Take Actions at Low Probabilities

Geometry-Aware Crossover for Effective and Efficient Evolutionary Attacks

GLEAN: Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Google's LLM Watermarking System is Vulnerable to Layer Inflation Attack

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

GuardReasoner-Omni: A Reasoning-based Multi-modal Guardrail for Text, Image, and Video

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

How does information access affect LLM monitors' ability to detect sabotage?

Human-Guided Harm Recovery for Computer Use Agents

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

Improving Semantic Uncertainty Quantification in Question Answering via Token-Level Temperature Scaling

Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

INFERENCE-TIME SAFETY FOR CODE LLMS VIA RETRIEVAL-AUGMENTED REVISION

Instruction Following by Principled Attention Boosting of Large Language Models

Investigating Data Interventions for Subgroup Fairness: An ICU Case Study

Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms

Learn to be Unlearned: Optimizing Language Models for Unlearning via Clustered Gradient Routing

Learning Minimal Contexts: How Chain-of-Thought Induces Out-of-Distribution Generalization

Leveraging RAG for Training-Free Alignment of LLMs

Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast

LoRA Users Beware: A Few Spurious Tokens Can Manipulate Your Finetuned Model

MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs

Memorization Dynamics in Knowledge Distillation for Language Models

Mitigating Legibility Tax with Decoupled Prover-Verifier Games