ICML 2025PastLarge language modelsFairness & ethics

ICML 2025 Workshop on Reliable and Responsible Foundation Models

ICML 2025 R2-FM Workshop

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: May 31, 2025, 12:01 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (120)

Fetched from OpenReview (v2) on 2026-06-10.

(Im)possibility of Automated Hallucination Detection in Large Language Models
Amin Karbasi, Omar Montasser, John Sous, Grigoris Velegkas · PDF
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen · PDF
A Statistical Physics of Language Model Reasoning
Jack David Carson · PDF
A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs
Julius Broomfield, Kartik Sharma, Srijan Kumar · PDF
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions
Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell · PDF
Accountability Attribution: Tracing Model Behavior to Training Processes
Shichang Zhang, Hongzhe Du, Karim Saraipour, Jiaqi W. Ma, Himabindu Lakkaraju · PDF
Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency
Yukun Jiang, Mingjie Li, Michael Backes, Yang Zhang · PDF
Advancing LLM Safe Alignment with Safety Representation Ranking
Tianqi Du, Zeming Wei, Quan Chen, Chenheng Zhang, Yisen Wang · PDF
Adversarial Manipulation of Reasoning Models using Internal Representations
Kureha Yamaguchi, Benjamin Etheridge, Andy Arditi · PDF
ALIGN: Prompt-based Attribute Alignment for Reliable, Responsible, and Personalized LLM-based Decision-Making
Bharadwaj Ravichandran, David Joy, Paul Elliott, Brian H Hu, Jadie Adams, Christopher Funk, Emily Veenhuis, Anthony Hoogs, Arslan Basharat · PDF
Aligned Textual Scoring Rule
Yuxuan Lu, Yifan Wu, Jason Hartline, Michael Curry · PDF
Alignment of Large Language Models with Constrained Learning
Botong Zhang, Shuo Li, Ignacio Hounie, Osbert Bastani, Dongsheng Ding, Alejandro Ribeiro · PDF
Angular Steering: Behavior Control via Rotation in Activation Space
Hieu M. Vu, Tan Minh Nguyen · PDF
ASNO: An Interpretable Attention-Based Spatio-Temporal Neural Operator for Robust Scientific Machine Learning
Vispi Nevile Karkaria, Doksoo Lee, Yi-Ping Chen, Yue Yu, Wei Chen · PDF
Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems
Parand A. Alamdari, Toryn Q. Klassen, Sheila A. McIlraith · PDF
Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images
Aditya Kumar, Tom Blanchard, Adam Dziedzic, Franziska Boenisch · PDF
Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models
Bartłomiej Marek, Lorenzo Rossi, Vincent Hanke, Xun Wang, Michael Backes, Franziska Boenisch, Adam Dziedzic · PDF
Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization
Joschka Braun, Carsten Eickhoff, Seyed Ali Bahrainian · PDF
BiasGUARRD: Enhancing Fairness and Reliability in LLM Conflict Resolution Through Agentic Debiasing
Erica Wang, Shrujana S Kunnam, Sreeyutha Ratala · PDF
Can We Infer Confidential Properties of Training Data from LLMs?
Pengrun Huang, Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri · PDF
Capability-Based Scaling Laws for LLM Red-Teaming
Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping · PDF
Circuit Discovery Helps To Detect LLM Jailbreaking
Paria Mehrbod, Boris Knyazev, Eugene Belilovsky, Guy Wolf, geraldin nanfack · PDF
Conformal Prediciton Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models
Sima Noorani, Shayan Kiyani, George J. Pappas, Hamed Hassani · PDF
Conformal Risk Minimization with Variance Reduction
Sima Noorani, Orlando Romero, Nicolo Dal Fabbro, Hamed Hassani, George J. Pappas · PDF
Consistency in Language Models: Current Landscape, Challenges, and Future Directions
Jekaterina Novikova, Carol Myrick Anderson, Borhane Blili-Hamelin, Domenic Rosati, Subhabrata Majumdar · PDF
Copilot Arena: A Platform for Code LLM Evaluation in the Wild
Wayne Chi, Valerie Chen, Anastasios Nikolas Angelopoulos, Wei-Lin Chiang, Aditya Mittal, Naman Jain, Tianjun Zhang, Ion Stoica, Chris Donahue, Ameet Talwalkar · PDF
Data Shifts Hurt CoT: A Theoretical Study
Lang Yin, Debangshu Banerjee, Gagandeep Singh · PDF
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs
Yepeng Liu, Xuandong Zhao, Dawn Song, Yuheng Bu · PDF
Defending Against Prompt Injection with a Few DefensiveTokens
Sizhe Chen, Yizhu Wang, Nicholas Carlini, Chawin Sitawarin, David Wagner · PDF
DINGO: Constrained Inference for Diffusion LLMs
Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh · PDF
Distilling Safe LLM Systems via Soft Prompts
Motasem Alfarra, Dana Kianfar, Cristina Pinneri, Christos Louizos · PDF
Do Sparse Autoencoders Generalize? A Case Study of Answerability
Lovis Heindrich, Philip Torr, Fazl Barez, Veronika Thost · PDF
Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods
Jiali Cheng, Hadi Amiri · PDF
Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?
Hongzheng Yang, Yongqiang Chen, Zeyu Qin, Tongliang Liu, Chaowei Xiao, Kun Zhang, Bo Han · PDF
Don’t Think Twice! Over-Reasoning Impairs Confidence Calibration
Romain Lacombe, Kerrie Wu, Eddie Dilworth · PDF
Doubly Robust Alignment for Large Language Models
Erhan Xu, Kai Ye, Hongyi Zhou, Luhan Zhu, Francesco Quinzan, Chengchun Shi · PDF
Dynamic Risk Assessments for Offensive Cybersecurity Agents
Boyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson · PDF
Efficient and Privacy-Preserving Soft Prompt Transfer for LLMs
Xun Wang, Jing Xu, Franziska Boenisch, Michael Backes, Christopher A. Choquette-Choo, Adam Dziedzic · PDF
Empirical Comparison of Membership Inference Attacks in Deep Transfer Learning
Yuxuan Bai, Gauri Pradhan, Marlon Tobaben, Antti Honkela · PDF
Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation
Running Yang, Wenlong Deng, Minghui Chen, Yuyin Zhou, Xiaoxiao Li · PDF
Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations?
Yiwei Yang, Chung Peng Lee, Shangbin Feng, Dora Zhao, Bingbing Wen, Anthony Zhe Liu, Yulia Tsvetkov, Bill Howe · PDF
Evaluating Adversarial Protections for Diffusion Personalization: A Comprehensive Study
Kai Ye, Tianyi Chen, Zhen Wang · PDF
Evaluating Large Language Models' Capability to Launch Fully Automated Spear Phishing Campaigns
Fred Heiding, Simon Lermen, Andrew Kao, Bruce Schneier, Arun Vishwanath · PDF
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective
Jianyu Wang, Zhiqiang Hu, Lidong Bing · PDF
Extracting memorized pieces of (copyrighted) books from open-weight language models
A. Feder Cooper, Aaron Gokaslan, Ahmed M Ahmed, Amy B. Cyphert, Christopher De Sa, Mark Lemley, Daniel E. Ho, Percy Liang · PDF
Finetuning-Activated Backdoors in LLMs
Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev · PDF
Focus on This, Not That! Steering LLMs with Adaptive Feature Specification
Tom A. Lamb, Adam Davies, Alasdair Paren, Philip Torr, Francesco Pinto · PDF
Foundational Models Must Be Designed To Yield Safer Loss Landscapes That Resist Harmful Fine-Tuning
Karan Uppal, Pavan Kalyan Tankala · PDF
From Tasks to Teams: A Risk-First Evaluation Framework for Multi-Agent LLM Systems in Finance
Zichen Chen, Jianda Chen, Jiaao Chen, Misha Sra · PDF
GenAI Copyright Evidence with Operational Meaning
Eli Chien, Amit Saha, Yinan Huang, Pan Li · PDF
GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity
Seongheon Park, Yixuan Li · PDF
GPT, But Backwards: Exactly Inverting Language Model Outputs
Adrians Skapars, Edoardo Manino, Youcheng Sun, Lucas Carvalho Cordeiro · PDF
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi · PDF
Improving Commonsense Reasoning and Reliability in LLMs Through Cognitive-Inspired Prompting Frameworks
Tanvi Ganapathy, Ishita Mathur, Anna Szczuka · PDF
In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations
Mohammad Aflah Khan, Mahsa Amani, Soumi Das, Bishwamittra Ghosh, Qinyuan Wu, Krishna P. Gummadi, Manish Gupta, Abhilasha Ravichander · PDF
In-Context Watermarks for Large Language Models
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, Dawn Song, Yuheng Bu · PDF
Investigating Tool-Memory Conflicts in Tool-Augmented LLMs
Jiali Cheng, Rui Pan, Hadi Amiri · PDF
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models
Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han · PDF
Learning on LLM Output Signatures for Gray-Box Behavior Analysis
Guy Bar-Shalom, Fabrizio Frasca, Derek Lim, Yoav Gelberg, Yftah Ziser, Ran El-Yaniv, Gal Chechik, Haggai Maron · PDF
Learning Robust 3D Representation from CLIP via Dual Denoising
Shuqing Luo, Bowen Qu, Wei Gao · PDF
Lifelong Safety Alignment for Language Models
Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang · PDF
Lookahead Bias in Pretrained Language Models
Suproteem K Sarkar, Keyon Vafa · PDF
LoRA Merging with SVD: Understanding Interference and Preserving Performance
Dennis Tang, Prateek Yadav, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal · PDF
MARVEL: Modular Abstention for Reliable and Versatile Expert LLMs
Bingbing Wen, Faeze Brahman, Zhan Su, Shangbin Feng, Yulia Tsvetkov, Lucy Lu Wang, Bill Howe · PDF
MixAT: Combining Continuous and Discrete Adversarial Training for LLMs
Csaba Dékány, Stefan Balauca, Robin Staab, Dimitar Iliev Dimitrov, Martin Vechev · PDF
Model Organisms for Emergent Misalignment
Edward Turner, Anna Soligo, Mia Taylor, Senthooran Rajamanoharan, Neel Nanda · PDF
Multi-Modal Medical Image Augmentation for Controlled Heterogeneity and Fair Outcomes
Soo Yong Kim, Seunghyeok Hong · PDF
On Characterizations for Language Generation: Interplay of Hallucinations, Breadth, and Stability
Alkis Kalavasis, Anay Mehrotra, Grigoris Velegkas · PDF
On Learning Verifiers for Chain-of-Thought Reasoning
Maria Florina Balcan, Avrim Blum, Zhiyuan Li, Dravyansh Sharma · PDF
On the Scoring Functions for RAG-based Conformal Factuality
Yi Chen, Caitlyn Heqi Yin, Sukrut Madhav Chikodikar, Ramya Korlakai Vinayak · PDF
One Stone, Two Birds: Enhancing Adversarial Defense Through the Lens of Distributional Discrepancy
Jiacheng Zhang, Benjamin I. P. Rubinstein, Jingfeng Zhang, Feng Liu · PDF
Persuade Me If You Can: Evaluating AI Agent Influence on Safety Monitors
Jennifer Za, Julija Bainiaksina, Tanush Chopra, Nikita Ostrovsky, Victoria Krakovna · PDF
Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs
Kejia Zhang, Keda TAO, Jiasheng Tang, Huan Wang · PDF
Position: Agent-Specific Trustworthiness Risk as a Research Priority
Zeming Wei, Tianlin Li, Xiaojun Jia, Yihao Zhang, Yang Liu, Meng Sun · PDF
Position: Membership Inference Attack Should Move On to Distributional Statistics for Distilled Generative Models
Muxing Li, Zesheng Ye, Yixuan Li, Andy Song, Guangquan Zhang, Feng Liu · PDF
Position: Reasoning LLMs are Wandering Solution Explorers
Jiahao Lu, Ziwei Xu, Mohan Kankanhalli · PDF
Predicting the Performance of Black-box Language Models with Follow-up Queries
Dylan Sam, Marc Anton Finzi, J Zico Kolter · PDF
Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction
Harit Vishwakarma, Alan Mishler, Thomas Cook, Niccolo Dalmasso, Natraj Raman, Sumitra Ganesh · PDF
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
Yichi Zhang, Zihao Zeng, Dongbai Li, Yao Huang, Zhijie Deng, Yinpeng Dong · PDF
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen · PDF
Reward Shaping to Mitigate Reward Hacking in RLHF
Jiayi Fu, Xuandong Zhao, Chengyuan Yao, Heng Wang, Qi Han, Yanghua Xiao · PDF
Robust and Interpretable Relational Reasoning with Large Language Models and Symbolic Solvers
Ge Zhang, Mohammad Ali Alomrani, Hongjian Gu, Jiaming Zhou, Yaochen Hu, Bin Wang, Qun Liu, Mark Coates, Yingxue Zhang, Jianye HAO · PDF
Robust LLM Fingerprinting via Domain-Specific Watermarks
Thibaud Gloaguen, Robin Staab, Nikola Jovanović, Martin Vechev · PDF
RoMa: A Robust Model Watermarking Scheme for Protecting IP in Diffusion Models
Yingsha Xie, Rui Min, Zeyu Qin, Fei Ma, Li Shen, Fei Yu, Xiaochun Cao · PDF
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
Aashiq Muhamed, Jacopo Bonato, Mona T. Diab, Virginia Smith · PDF
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning
Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang · PDF
Sample-Specific Noise Injection For Diffusion-Based Adversarial Purification
Yuhao Sun, Jiacheng Zhang, Zesheng Ye, Chaowei Xiao, Feng Liu · PDF
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval
Taiye Chen, Zeming Wei, Ang Li, Yisen Wang · PDF
Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?
Michael Kirchhof, Luca Füger, Adam Golinski, Eeshan Gunesh Dhekane, Arno Blaas, Sinead Williamson · PDF
Semi-Nonnegative GPT: Towards Monosemantic Representations
Junyi Li, Jinqi Liu, Qi Zhang, Yisen Wang · PDF
Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries
Yuhao Wang, Wenjie Qu, Yanze Jiang, Lichen Liu, Yue Liu, Shengfang Zhai, Yinpeng Dong, Jiaheng Zhang · PDF
SimBA: Simplifying Benchmark Analysis Using Performance Matrices Alone
Nishant Subramani, Alfredo Gomez, Mona T. Diab · PDF
Simple Mechanistic Explanations for Out-Of-Context Reasoning
Zifan Wang, Joshua Engels, Oliver Clive-Griffin · PDF
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge
Fengqing Jiang, Fengbo Ma, Zhangchen Xu, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bo Li, Xianyan Chen, Zhen Xiang, Radha Poovendran · PDF
State Space Models: A Naturally Robust Alternative to Transformers in Computer Vision
Chengbin Du, Yanxi Li, Chang Xu · PDF
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks
Hanjiang Hu, Alexander Robey, Changliu Liu · PDF
Steering Language Model Refusal with Sparse Autoencoders
Kyle O'Brien, David Majercak, Xavier Fernandes, Richard G. Edgar, Blake Bullwinkel, Jingya Chen, Harsha Nori, Dean Carignan, Eric Horvitz, Forough Poursabzi-Sangdeh · PDF
Steering LLM Reasoning Through Bias-Only Adaptation
Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov · PDF
Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts
Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar · PDF
Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning
Miles Turpin, Andy Arditi, Marvin Li, Joe Benton, Julian Michael · PDF
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets
Shenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei · PDF
The Geometries of Truth Are Orthogonal Across Tasks
Waïss Azizian, Michael Kirchhof, Eugene Ndiaye, Louis Béthune, Michal Klein, Pierre Ablin, marco cuturi · PDF
The Geometry of Forgetting: Analyzing Machine Unlearning through Local Learning Coefficients
Aashiq Muhamed, Virginia Smith · PDF
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1
Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang · PDF
The Necessity for Intervention Fidelity: Unintended Side Effects When Steering LLMs
Jonas B Raedler, Weiyue Li, Alyssa Mia Taliotis, Manasvi Goyal, Siddharth Swaroop, Weiwei Pan · PDF
Thought calibration: Efficient and confident test-time scaling
Menghua Wu, Cai Zhou, Stephen Bates, Tommi Jaakkola · PDF
Towards Secure Model Sharing with Approximate Fingerprints
Anshul Nasery, Sewoong Oh · PDF
Transferable Visual Adversarial Attacks for Proprietary Multimodal Large Language Models
Kai Hu, Weichen Yu, Alexander Robey, Li Zhang, Andy Zou, Haoqi Hu, Chengming Xu, Matt Fredrikson · PDF
Transformers Don't In-Context Learn Least Squares Regression
Joshua Hill, Benjamin Eyre, Elliot Creager · PDF
TRoVe: Discovering Error-Inducing Static Feature Biases in Temporal Vision-Language Models
Maya Varma, Jean-Benoit Delbrouck, Sophie Ostmeier, Akshay S Chaudhari, Curtis Langlotz · PDF
Uncertainty Quantification for Multimodal Large Language Models
Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin, Bryan Kian Hsiang Low · PDF
UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models
Sejoon Oh, Yiqiao Jin, Megha Sharma, Donghyun Kim, Eric Ma, Gaurav Verma, Srijan Kumar · PDF
Valid Inference with Synthetic Data from Language Models
Yewon Byun, Shantanu Gupta, Zachary Chase Lipton, Rachel Leah Childers, Bryan Wilder · PDF
Verbalized Confidence Triggers Self-Verification : Emergent Behavior Without Explicit Reasoning Supervision
Chaeyun Jang, Moonseok Choi, Yegon Kim, Hyungi Lee, Juho Lee · PDF
Visual Instruction Bottleneck Tuning
Changdae Oh, Jiatong Li, Shawn Im, Yixuan Li · PDF
Visual Language Models as Zero-Shot Deepfake Detectors
Viacheslav Pirogov · PDF
Watermarking Autoregressive Image Generation
Nikola Jovanović, Ismail Labiad, Tomas Soucek, Martin Vechev, Pierre Fernandez · PDF
Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors
Fan Nie, Lan Feng, Haotian Ye, Weixin Liang, Pan Lu, Huaxiu Yao, Alexandre Alahi, James Zou · PDF
What do Geometric Hallucination Detection Metrics Actually Measure?
Eric Yeats, John Buckheit, Sarah McGuire Scullen, Brendan Kennedy, Loc Truong, Davis Brown, Bill Kay, Cliff Joslyn, Tegan Emerson, Michael J. Henry, John Anthony Emanuello, Henry Kvinge · PDF
When Meaning Doesn’t Matter: Exposing Guard Model Fragility via Paraphrasing
Cristina Pinneri, Christos Louizos · PDF

Accepted papers (120)

☆(Im)possibility of Automated Hallucination Detection in Large Language Models

☆A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

☆A Statistical Physics of Language Model Reasoning

☆A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs

☆AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

☆Accountability Attribution: Tracing Model Behavior to Training Processes

☆Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

☆Advancing LLM Safe Alignment with Safety Representation Ranking

☆Adversarial Manipulation of Reasoning Models using Internal Representations

☆ALIGN: Prompt-based Attribute Alignment for Reliable, Responsible, and Personalized LLM-based Decision-Making

☆Aligned Textual Scoring Rule

☆Alignment of Large Language Models with Constrained Learning

☆Angular Steering: Behavior Control via Rotation in Activation Space

☆ASNO: An Interpretable Attention-Based Spatio-Temporal Neural Operator for Robust Scientific Machine Learning

☆Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems

☆Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

☆Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models

☆Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization

☆BiasGUARRD: Enhancing Fairness and Reliability in LLM Conflict Resolution Through Agentic Debiasing

☆Can We Infer Confidential Properties of Training Data from LLMs?

☆Capability-Based Scaling Laws for LLM Red-Teaming

☆Circuit Discovery Helps To Detect LLM Jailbreaking

☆Conformal Prediciton Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models

☆Conformal Risk Minimization with Variance Reduction

☆Consistency in Language Models: Current Landscape, Challenges, and Future Directions

☆Copilot Arena: A Platform for Code LLM Evaluation in the Wild

☆Data Shifts Hurt CoT: A Theoretical Study

☆Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs

☆Defending Against Prompt Injection with a Few DefensiveTokens

☆DINGO: Constrained Inference for Diffusion LLMs

☆Distilling Safe LLM Systems via Soft Prompts

☆Do Sparse Autoencoders Generalize? A Case Study of Answerability

☆Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods

☆Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?

☆Don’t Think Twice! Over-Reasoning Impairs Confidence Calibration

☆Doubly Robust Alignment for Large Language Models

☆Dynamic Risk Assessments for Offensive Cybersecurity Agents

☆Efficient and Privacy-Preserving Soft Prompt Transfer for LLMs

☆Empirical Comparison of Membership Inference Attacks in Deep Transfer Learning

☆Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation

☆Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations?

☆Evaluating Adversarial Protections for Diffusion Personalization: A Comprehensive Study

☆Evaluating Large Language Models' Capability to Launch Fully Automated Spear Phishing Campaigns

☆Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

☆Extracting memorized pieces of (copyrighted) books from open-weight language models

☆Finetuning-Activated Backdoors in LLMs

☆Focus on This, Not That! Steering LLMs with Adaptive Feature Specification

☆Foundational Models Must Be Designed To Yield Safer Loss Landscapes That Resist Harmful Fine-Tuning

☆From Tasks to Teams: A Risk-First Evaluation Framework for Multi-Agent LLM Systems in Finance

☆GenAI Copyright Evidence with Operational Meaning

☆GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

☆GPT, But Backwards: Exactly Inverting Language Model Outputs

☆GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

☆Improving Commonsense Reasoning and Reliability in LLMs Through Cognitive-Inspired Prompting Frameworks

☆In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

☆In-Context Watermarks for Large Language Models

☆Investigating Tool-Memory Conflicts in Tool-Augmented LLMs

☆Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

☆Learning on LLM Output Signatures for Gray-Box Behavior Analysis

☆Learning Robust 3D Representation from CLIP via Dual Denoising

☆Lifelong Safety Alignment for Language Models

☆Lookahead Bias in Pretrained Language Models

☆LoRA Merging with SVD: Understanding Interference and Preserving Performance

☆MARVEL: Modular Abstention for Reliable and Versatile Expert LLMs

☆MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

☆Model Organisms for Emergent Misalignment

☆Multi-Modal Medical Image Augmentation for Controlled Heterogeneity and Fair Outcomes

☆On Characterizations for Language Generation: Interplay of Hallucinations, Breadth, and Stability

☆On Learning Verifiers for Chain-of-Thought Reasoning

☆On the Scoring Functions for RAG-based Conformal Factuality

☆One Stone, Two Birds: Enhancing Adversarial Defense Through the Lens of Distributional Discrepancy

☆Persuade Me If You Can: Evaluating AI Agent Influence on Safety Monitors

☆Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs

☆Position: Agent-Specific Trustworthiness Risk as a Research Priority

☆Position: Membership Inference Attack Should Move On to Distributional Statistics for Distilled Generative Models

☆Position: Reasoning LLMs are Wandering Solution Explorers

☆Predicting the Performance of Black-box Language Models with Follow-up Queries

☆Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction

☆RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability

(Im)possibility of Automated Hallucination Detection in Large Language Models

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

A Statistical Physics of Language Model Reasoning

A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

Accountability Attribution: Tracing Model Behavior to Training Processes

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

Advancing LLM Safe Alignment with Safety Representation Ranking

Adversarial Manipulation of Reasoning Models using Internal Representations

ALIGN: Prompt-based Attribute Alignment for Reliable, Responsible, and Personalized LLM-based Decision-Making

Aligned Textual Scoring Rule

Alignment of Large Language Models with Constrained Learning

Angular Steering: Behavior Control via Rotation in Activation Space

ASNO: An Interpretable Attention-Based Spatio-Temporal Neural Operator for Robust Scientific Machine Learning

Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems

Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models

Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization

BiasGUARRD: Enhancing Fairness and Reliability in LLM Conflict Resolution Through Agentic Debiasing

Can We Infer Confidential Properties of Training Data from LLMs?

Capability-Based Scaling Laws for LLM Red-Teaming

Circuit Discovery Helps To Detect LLM Jailbreaking

Conformal Prediciton Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models

Conformal Risk Minimization with Variance Reduction

Consistency in Language Models: Current Landscape, Challenges, and Future Directions

Copilot Arena: A Platform for Code LLM Evaluation in the Wild

Data Shifts Hurt CoT: A Theoretical Study

Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs

Defending Against Prompt Injection with a Few DefensiveTokens

DINGO: Constrained Inference for Diffusion LLMs

Distilling Safe LLM Systems via Soft Prompts

Do Sparse Autoencoders Generalize? A Case Study of Answerability

Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods

Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?

Don’t Think Twice! Over-Reasoning Impairs Confidence Calibration

Doubly Robust Alignment for Large Language Models

Dynamic Risk Assessments for Offensive Cybersecurity Agents

Efficient and Privacy-Preserving Soft Prompt Transfer for LLMs

Empirical Comparison of Membership Inference Attacks in Deep Transfer Learning

Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation

Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations?

Evaluating Adversarial Protections for Diffusion Personalization: A Comprehensive Study

Evaluating Large Language Models' Capability to Launch Fully Automated Spear Phishing Campaigns

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

Extracting memorized pieces of (copyrighted) books from open-weight language models

Finetuning-Activated Backdoors in LLMs

Focus on This, Not That! Steering LLMs with Adaptive Feature Specification

Foundational Models Must Be Designed To Yield Safer Loss Landscapes That Resist Harmful Fine-Tuning

From Tasks to Teams: A Risk-First Evaluation Framework for Multi-Agent LLM Systems in Finance

GenAI Copyright Evidence with Operational Meaning

GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

GPT, But Backwards: Exactly Inverting Language Model Outputs

GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Improving Commonsense Reasoning and Reliability in LLMs Through Cognitive-Inspired Prompting Frameworks

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

In-Context Watermarks for Large Language Models

Investigating Tool-Memory Conflicts in Tool-Augmented LLMs

Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Learning on LLM Output Signatures for Gray-Box Behavior Analysis

Learning Robust 3D Representation from CLIP via Dual Denoising

Lifelong Safety Alignment for Language Models

Lookahead Bias in Pretrained Language Models

LoRA Merging with SVD: Understanding Interference and Preserving Performance

MARVEL: Modular Abstention for Reliable and Versatile Expert LLMs

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

Model Organisms for Emergent Misalignment

Multi-Modal Medical Image Augmentation for Controlled Heterogeneity and Fair Outcomes

On Characterizations for Language Generation: Interplay of Hallucinations, Breadth, and Stability

On Learning Verifiers for Chain-of-Thought Reasoning

On the Scoring Functions for RAG-based Conformal Factuality

One Stone, Two Birds: Enhancing Adversarial Defense Through the Lens of Distributional Discrepancy

Persuade Me If You Can: Evaluating AI Agent Influence on Safety Monitors

Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs

Position: Agent-Specific Trustworthiness Risk as a Research Priority

Position: Membership Inference Attack Should Move On to Distributional Statistics for Distilled Generative Models

Position: Reasoning LLMs are Wandering Solution Explorers

Predicting the Performance of Black-box Language Models with Follow-up Queries

Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction

RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability

Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?