ICLR 2026PastML systemsAgentsSafety & alignment

Algorithmic Fairness Across Alignment Procedures and Agentic Systems

AFAA 2026

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 6, 2026, 11:59 UTC
OpenReview-synced 2026-02-06 11:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (35)

Fetched from OpenReview (v2) on 2026-06-10.

Ads in AI Chatbots? An Analysis of How Large Language Models Navigate Conflicts of Interest
Addison J. Wu, Ryan Liu, Shuyue Stella Li, Yulia Tsvetkov, Thomas L. Griffiths · PDF
Automatically Finding Reward Model Biases
Atticus Wang, Iván Arcuschin, Arthur Conmy · PDF
Cross-Linguistic Failures and Disparities in LLM Medical Reasoning: Analyzing XMedBench and CrossMMLU Across Western and Non-Western Languages
Rehan Nazeem, Akira Hoque, Vedesh Ray Peddoddi, Tim Liu, Kevin Zhu · PDF
Differential Adjusted Parity for Learning Fair Representations
Bucher Sahyouni, Matthew James Vowels, Liqun Chen, Simon Hadfield · PDF
Disparities in Negation Understanding Across Languages in Vision-Language Models
Charikleia Moraitaki, Skyler Pulling, Sarah Pan, Gwendolyn Flusche, Kumail Alhamoud, Marzyeh Ghassemi · PDF
Distortion of AI Alignment Revisited: RLHF Is a Decent Utilitarian Aligner
Kazusato Oko, Annie S Ulichney, Nika Haghtalab, Han Bao · PDF
Evaluating black-box vulnerabilities with Wasserstein-constrained data perturbations
Adriana Laurindo Monteiro, Jean-Michel Loubes · PDF
Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search
Manos Plitsis, Giorgos Bouritsas, Vassilis Katsouros, Yannis Panagakis · PDF
FairMed-VLM: Toward Equitable Medical Di- agnosis with Vision–Language Models
zihao chang, Ruixiang Zhu, Daochu Li, Chaozhi Geng, Siqi Chen · PDF
Fairness Failure Modes of Multimodal LLMs
Canyu Chen, Anglin Cai, Joan Nwatu, Jianshu Zhang, Yale Li, Han Liu, Jessica Hullman, Rada Mihalcea, Kathleen McKeown, Manling Li · PDF
GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory
Pepijn Cobben, X. Angelo Huang, Thao Amelia Pham, Isabel Dahlgren, Terry Jingchen Zhang, Zhijing Jin · PDF
Improving Fairness via Noise Injection in Vision Transformers
Qiaoyue Tang, Sepidehsadat Hosseini, Mengyao Zhai, Thibaut Durand, Greg Mori · PDF
Learning to Be Fair: Modeling Fairness Dynamics by Simulating Moral-Based Multi-Agent Resource Allocation
Haiyan Feng, Yuqiao Du, Huacong Tang, Junjie Liao, Yipeng Kang, Mingjie Bi, Fangwei Zhong, Zhou Ziheng · PDF
Long-term Fairness with Selective Labels
Giovani Valdrighi, Isabel Valera, Marcos M. Raimundo · PDF
Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations
Preethi Seshadri, Samuel Cahyawijaya, Ayomide Odumakinde, Sameer Singh, Seraphina Goldfarb-Tarrant · PDF
Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs
Edie Pearman, Sophia Osborne, Mira Kandlikar-Bloch, Mina Arzaghi, Florian Carichon, Golnoosh Farnadi · PDF
MEMORIES THAT DISCRIMINATE: DETECTING AND CORRECTING BIAS IN PERSONALIZED HIRING AGENTS
Himanshu Gharat, Himanshi Agrawal, Gourab K Patro · PDF
Metanetworks as Regulatory Operators: Learning to Edit for Requirement Compliance
Ioannis Kalogeropoulos, Giorgos Bouritsas, Yannis Panagakis · PDF
MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment
Andor Vári-Kakas, Ji Won Park, Natasa Tagasovska · PDF
Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs
Ilham Wicaksono, Zekun Wu, Rahul Patel, Theo King, Adriano Koshiyama, Philip Colin Treleaven · PDF
Moral Preferences of LLMs Under Directed Contextual Influence
Phil Blandfort, Tushar Karayil, Urja Pawar, Alex McKenzie, Robert Graham, Dmitrii Krasheninnikov · PDF
Navigating the Rashomon Set: The Impact of Score Distributions and Decision Thresholds on Model Agreement
Giovani Valdrighi, Marcos M. Raimundo · PDF
OC-PRM: Overcredit-Contrastive Training for Precision-First Process Reward Models
Aakriti Agrawal, Souradip Chakraborty, Armin Saghafian, Nihal Sharma, Rizal Fathony, Nam H Nguyen, C. Bayan Bruss, Amrit Singh Bedi, Furong Huang · PDF
Operationalizing Fairness in Text-to-Image Models: A Survey of Bias, Fairness Audits and Mitigation Strategies
Megan Smith, Venkatesh Thirugnana Sambandham, Florian Richter, Matthias Uhl, Laura Crompton, Torsten Schön · PDF
Persona Alchemy: Designing, Evaluating, and Implementing Psychologically-Grounded LLM Agents for Diverse Stakeholder Representation
Sola Kim, Dongjune Chang, Jieshu Wang · PDF
Probing Implicit Bias Risk Framing in Language Models
Rishi Kalra, Andrea Dhelpra, Seonglae Cho, Adriano Koshiyama · PDF
Procedural Fairness Failures in RLHF from Preference Averaging
M P V S GOPINADH, Karthik Kamuju, Kummari Avinash, Muppana John Joshua, Srinivasa Raju Rudraraju · PDF
Red Teaming the Rules: An Adversarial Approach to Legal Alignment
Rui-Jie Yew, Greg Demirchyan · PDF
Robust AI Evaluation through Maximal Lotteries
Hadi Khalaf, Serena Lutong Wang, Daniel Halpern, Itai Shapira, Flavio Calmon, Ariel D. Procaccia · PDF
Scalable Intersectional Bias Auditing in Vision-Language Models through Combinatorial Interaction Testing
Heejin Bin, Junyoung Choi, JangHyun Kim, Seungjae Kim, Shin Yoo · PDF
SOMnibus: Recovering Underlying Sensitive Attributes with Self-Organizing Maps
Joseph Charles Bingham, Netanel Arussy, Dvir Aran · PDF
State Space Models are Effective Sign Language Learners: Exploiting Phonological Compositionality for Vocabulary-Scale Recognition
Bryan Cheng, Austin Jin, Jasper Zhang · PDF
THE PERSONALIZATION TRAP: HOW USER MEMORY ALTERS EMOTIONAL REASONING IN LLMS
Weijie Xu, Xi Fang, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy · PDF
Verifying Alignment Constraints Under Finite-Sample Uncertainty in Composite-Data Regimes
Blossom Metevier, Max Springer, Bohdan Turbal, Aleksandra Korolova · PDF
When AI Describes Race? Unveiling Racial Bias in Vision-Language Models in Brazilian People
Leodécio Braz da Silva Segundo, Marcos M. Raimundo · PDF

Accepted papers (35)

☆Ads in AI Chatbots? An Analysis of How Large Language Models Navigate Conflicts of Interest

☆Automatically Finding Reward Model Biases

☆Cross-Linguistic Failures and Disparities in LLM Medical Reasoning: Analyzing XMedBench and CrossMMLU Across Western and Non-Western Languages

☆Differential Adjusted Parity for Learning Fair Representations

☆Disparities in Negation Understanding Across Languages in Vision-Language Models

☆Distortion of AI Alignment Revisited: RLHF Is a Decent Utilitarian Aligner

☆Evaluating black-box vulnerabilities with Wasserstein-constrained data perturbations

☆Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search

☆FairMed-VLM: Toward Equitable Medical Di- agnosis with Vision–Language Models

☆Fairness Failure Modes of Multimodal LLMs

☆GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

☆Improving Fairness via Noise Injection in Vision Transformers

☆Learning to Be Fair: Modeling Fairness Dynamics by Simulating Moral-Based Multi-Agent Resource Allocation

☆Long-term Fairness with Selective Labels

☆Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

☆Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs

☆MEMORIES THAT DISCRIMINATE: DETECTING AND CORRECTING BIAS IN PERSONALIZED HIRING AGENTS

☆Metanetworks as Regulatory Operators: Learning to Edit for Requirement Compliance

☆MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment

☆Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs

☆Moral Preferences of LLMs Under Directed Contextual Influence

☆Navigating the Rashomon Set: The Impact of Score Distributions and Decision Thresholds on Model Agreement

☆OC-PRM: Overcredit-Contrastive Training for Precision-First Process Reward Models

☆Operationalizing Fairness in Text-to-Image Models: A Survey of Bias, Fairness Audits and Mitigation Strategies

☆Persona Alchemy: Designing, Evaluating, and Implementing Psychologically-Grounded LLM Agents for Diverse Stakeholder Representation

☆Probing Implicit Bias Risk Framing in Language Models

☆Procedural Fairness Failures in RLHF from Preference Averaging

☆Red Teaming the Rules: An Adversarial Approach to Legal Alignment

☆Robust AI Evaluation through Maximal Lotteries

☆Scalable Intersectional Bias Auditing in Vision-Language Models through Combinatorial Interaction Testing

☆SOMnibus: Recovering Underlying Sensitive Attributes with Self-Organizing Maps

☆State Space Models are Effective Sign Language Learners: Exploiting Phonological Compositionality for Vocabulary-Scale Recognition

☆THE PERSONALIZATION TRAP: HOW USER MEMORY ALTERS EMOTIONAL REASONING IN LLMS

☆Verifying Alignment Constraints Under Finite-Sample Uncertainty in Composite-Data Regimes

☆When AI Describes Race? Unveiling Racial Bias in Vision-Language Models in Brazilian People

Ads in AI Chatbots? An Analysis of How Large Language Models Navigate Conflicts of Interest

Automatically Finding Reward Model Biases

Cross-Linguistic Failures and Disparities in LLM Medical Reasoning: Analyzing XMedBench and CrossMMLU Across Western and Non-Western Languages

Differential Adjusted Parity for Learning Fair Representations

Disparities in Negation Understanding Across Languages in Vision-Language Models

Distortion of AI Alignment Revisited: RLHF Is a Decent Utilitarian Aligner

Evaluating black-box vulnerabilities with Wasserstein-constrained data perturbations

Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search

FairMed-VLM: Toward Equitable Medical Di- agnosis with Vision–Language Models

Fairness Failure Modes of Multimodal LLMs

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

Improving Fairness via Noise Injection in Vision Transformers

Learning to Be Fair: Modeling Fairness Dynamics by Simulating Moral-Based Multi-Agent Resource Allocation

Long-term Fairness with Selective Labels

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs

MEMORIES THAT DISCRIMINATE: DETECTING AND CORRECTING BIAS IN PERSONALIZED HIRING AGENTS

Metanetworks as Regulatory Operators: Learning to Edit for Requirement Compliance

MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment

Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs

Moral Preferences of LLMs Under Directed Contextual Influence

Navigating the Rashomon Set: The Impact of Score Distributions and Decision Thresholds on Model Agreement

OC-PRM: Overcredit-Contrastive Training for Precision-First Process Reward Models

Operationalizing Fairness in Text-to-Image Models: A Survey of Bias, Fairness Audits and Mitigation Strategies

Persona Alchemy: Designing, Evaluating, and Implementing Psychologically-Grounded LLM Agents for Diverse Stakeholder Representation

Probing Implicit Bias Risk Framing in Language Models

Procedural Fairness Failures in RLHF from Preference Averaging

Red Teaming the Rules: An Adversarial Approach to Legal Alignment

Robust AI Evaluation through Maximal Lotteries

Scalable Intersectional Bias Auditing in Vision-Language Models through Combinatorial Interaction Testing

SOMnibus: Recovering Underlying Sensitive Attributes with Self-Organizing Maps

State Space Models are Effective Sign Language Learners: Exploiting Phonological Compositionality for Vocabulary-Scale Recognition

THE PERSONALIZATION TRAP: HOW USER MEMORY ALTERS EMOTIONAL REASONING IN LLMS

Verifying Alignment Constraints Under Finite-Sample Uncertainty in Composite-Data Regimes

When AI Describes Race? Unveiling Racial Bias in Vision-Language Models in Brazilian People