ICML 2026PastSafety & alignment

Pluralistic Alignment Workshop at ICML 2026

Pluralistic-Alignment 2026

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: May 9, 2026, 12:00 UTC
OpenReview-synced 2026-05-09 12:00 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (80)

Fetched from OpenReview (v2) on 2026-06-10.

Adaptive Pluralistic Alignment: a pipeline for dynamic artificial democracy
Rachel Freedman · PDF
AI Pluralism and the Worlds It Misses
Rashid Mushkani · PDF
Algorithmic Approaches to Opinion Selection for Online Deliberation: A Comparative Study
Salim Hafid, Manon Berriche, Jean-Philippe Cointet · PDF
Benchmarking Pluralistic Alignment Through Persona-Conditioned Behavioral Evaluation
Archie Chaudhury, Shikhar Shiromani, Ayushi Mehta · PDF
Beyond the Mean: Three-Axis Fidelity for Aligning LLM-Based Survey Simulators from Small Pilot Data
Eun Cheol Choi, Youngrae Kim, Prabhu Pugalenthi, Hong-En Chen, Bo-Ruei Huang · PDF
Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies
Abhilekh Borah · PDF
Changing Tunes: A Longitudinal Study of Political Drift in LLMs
Bruno Demattos Nogueira, Jost Große Perdekamp, Leon Swazinna, Elisabeth Kirsten, Nils Christopher Köbis, Juhi Kulshrestha, Markus Pauly, Muhammad Bilal Zafar · PDF
ConstitutionMAS-EC: Peer Constitutional Critique for Aligned Emergent Communication in Decentralized Multi-Agent LLMs
Rishi Ashish Shah, Priyanshu Banik, RAHUL KATARYA, Himanshu Nandanwar · PDF
Data Mixing for Group Preference Heterogeneity in Collaborative Filtering
David Mingfei Liu, Haruka Kiyohara, Sarah Dean · PDF
Deference by Design: Pluralistic Alignment Is an Interface Problem
Steven Molotnikov, Cathy Mengying Fang, Patricia Maes · PDF
Directional Influence and Consensus Formation in Multi-Agent Systems
Prisha Priyadarshini, Aryan Shrivastava · PDF
Diversifying Multiple Generative Agents by Aligning with Human Populations
Manh Hung Nguyen, Sebastian Tschiatschek, Adish Singla · PDF
Do LLMs Acknowledge Disputed Facts? A Benchmark for Factual Pluralism in LLMs
Enfa Fane, Mihai Surdeanu · PDF
Does AI Assistance Preserve or Collapse Disagreement? A Study of Pre-Annotations in Ambiguous Video Labeling
Juan Gutiérrez, Víctor Gutiérrez-García, Jose Luis Blanco-Murillo · PDF
Does Privacy Always Harm Fairness? Data-Dependent Trade-offs via Chernoff Information Neural Estimation
Arjun Nichani, Hsiang Hsu, Chun-Fu Chen, Haewon Jeong · PDF
Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models
Jongwook Han, Jongwon Lim, Injin Kong, Yohan Jo · PDF
EGGROLL-IPO: Pluralistic Alignment via Decentralised Post-Training with Population Preferences
Alfie Lamerton, Bidipta Sarkar, Roberto-Rafael Maura-Rivero, Jakob Nicolaus Foerster · PDF
Evaluating Pluralism in LLMs through Latent Perspectives
Laura Majer, Jan Šnajder, Martin Tutek · PDF
Event-Driven Reinforcement Learning for Pluralistic Alignment
Soyoung Yun, HAYOUNG OH · PDF
For Questions of Ought, AI Could Use Some SAGE Advice
Smitha Milli, Ratip Emin Berker, Sonja Kraiczy, Claudia Shi, Jack Kussman, Avinandan Bose, Edith Elkind, Himaghna Bhattacharjee, Ariel D. Procaccia, Maximilian Nickel · PDF
FRAGILE: Benchmarking Framing Sensitivity in High-Stakes Decision-Making
Seojin Hwang, Minju Kim, Junhyuk Choi, Hwanhee Lee · PDF
From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets
Zakk Heile, Hayden McTavish, Varun Babbar, Margo Seltzer, Cynthia Rudin · PDF
Geometry of Values: Task Vector Composition for Ethical Preference Alignment in Language Models
Utkarsh Agarwal, Monojit Choudhury · PDF
HEARSAYBENCH: Can LLMs Navigate from Abstract Human Rights to Lived Lives?
Sobhan Lotfi, Ava Iranmanesh, Ali Iranmanesh, Liwei Jiang · PDF
Helpful or Safe? UltraFeedback's Binarized Labels Encode a Value Tradeoff
Jingyi Zhang · PDF
Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance
Luozhijie Jin, Zijie Qiu, Zijie Diao, Lifeng Qiao, Ning Ding, Alex Lamb, Xipeng Qiu · PDF
Innocuous-Seeming Data, Latent Ideology: Ideological Generalisation in Finetuned LLMs
Robert Graham, Edward Stevinson, Yariv Barsheshat · PDF
It’s Up to Interpretation: Aligning to One’s Ever-Shifting Internal State
Tiffany Wang, Vincent Huang · PDF
Learning to Retrieve User History and Generate User Profiles for Personalized Persuasiveness Prediction
Sejun Park, Yoonah Park, Jongwon Lim, Yohan Jo · PDF
Learning Unanimously Acceptable Lotteries via Queries
Davin Choo, Paul W. Goldberg, Nicholas Teh · PDF
LLM Human Response Alignment: A Multi-Sample Debiasing Framework
Li Jiang, Xiao Liu · PDF
Majority Vote Silences Minority Values: Annotator Disagreement at the Hate/Offensive Boundary in HateXplain
Joshua Muhumuza, Joab Ezra Agaba, Mercy Rebekah Amiyo · PDF
Memetic Capture: A Pluralistic Policy Framework for Governing AI-Driven Cultural Disempowerment
Subramanyam Sahoo · PDF
Memetic Drift in Multi-Agent LLMs: Scaling Laws for Consensus Under Pluralistic Uncertainty
Hidenori Tanaka · PDF
Mission Impossible: Universal Moral Alignment
Saimun Habib, Xiao Xiao, Meng Fang, Fengxiang He · PDF
Modeling diverse preferences in movie artwork personalization with large language models
HyunJi Nam, Sejoon Oh, Emma Yanyang Kong, Yesu Feng, Moumita Bhattacharya · PDF
Moral Orientation and Calibration: Coupled in Human Annotators, Separable in Judge LLMs
Youngsam Chun · PDF
Multi-Action-Head On-Policy Self-Distillation for Pluralistic Alignment
Yiran Jenny Shen, Yu Xia, Liuyi Yao, Prithviraj Ammanabrolu · PDF
PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration
Arnav Raj · PDF
Pedagogical Games: Paths to Generalisation for Agentic Moral Alignment
Krish Sen, Nikhil Narayanan, Luca Franceschetti, Jonathan Robinson, Yadnyesh Chakane, Shobhit Aggarwal, Dylan Waldner, Elizaveta Tennant · PDF
Personalization, Personas, and Forecasting in Value Alignment
James Wedgwood, Pratiksha Thaker, Neil Kale, Virginia Smith · PDF
PIPE: Personalized Image-generation via Preference Encoding
Moonkyung Ryu, Chih-Wei Hsu, Avinab Saha, Ofir Nabati, Guy Tennenholtz, Junfeng He, Craig Boutilier · PDF
Playing Devil’s Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy
Ishaan Kelkar, Nebras Alam, Vikram Kakaria, Madhur Panwar, Vasu Sharma, Maheep Chaudhary · PDF
Pluralistic AI Alignment Requires Inference-Time Multi-Objective Control
Weichen Li, Mislav Stojanović, Daniel Neider, Marius Kloft, Sophie Fellenz · PDF
Pluralistic Preference Alignment via Sortition-Weighted RLHF
Suvadip Sana, Jinzhou Wu, Martin T. Wells · PDF
Position: Aggregate Preference Optimization Hides a Posterior Identifiability Failure for Pluralistic Alignment
Zezheng Lin, Jinhao Gan · PDF
Position: Align AI to Our Aspirations, Not Our Flaws
Nikita Kazeev, Phan Bui Nhat Huyen · PDF
Position: LLM alignment data should be regulated as mass media
João Gonçalves · PDF
Position: Why LLMs Should Be Reasonably Morally Inconsistent
Jakob Stenseke, Aidan Kierans, Itamar Pres, Dylan Hadfield-Menell · PDF
PRISM: When Agents Provably Learn from Pluralistic Human Feedback
Shuo Yang, Zhen Chen, Sujay Sanghavi · PDF
Provably Efficient Regularized Online RLHF with Generalized Bilinear Preferences
Junghyun Lee, Minju Hong, Kwang-Sung Jun, Chulhee Yun, Se-Young Yun · PDF
Reasoning Models Generate Societies of Thought
Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Aguera y Arcas, James Evans · PDF
Reducing Supervision Uncertainty Induces Model Miscalibration
Leixin Zhang, Cagri Coltekin · PDF
Response-Aware User Memory Selection for LLM Personalization
Jillian Fisher, Jennifer Neville, Chan Young Park · PDF
Rethinking AI Alignment: From Static Rewards to Social Reinforcement Learning
Majid Ghasemi, Mark Crowley · PDF
Rethinking Diversity-Preserving RL for Pluralistic Alignment: Empirical Evidence from Rubric-Grounded Moral Reasoning
Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Xiang Liu, ZhiYuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie · PDF
Rethinking Scaffolding in LLM Tutors: The Interactional Mismatch Between Benchmarks and Real-World Deployments
Alexandra Neagu, Jeffrey T. H. Wong, Marcus Messer, Rhodri Nelson, Peter B. Johnson · PDF
RobotValues: Evaluating Household Robots When Human Values Conflict
Jongwook Han, Hyeongjin Kim, Yohan Jo · PDF
RouteJudge: Preference-Based Evaluation of LLM Routers under Pluralistic User Preferences
Guannan Lai, Haoran Hu, Han-Jia Ye · PDF
Same Facts, Different Updates: Inference Setup Shapes LLM Behavior in Medical Allocation
Spencer Gibson, Tyler Crosse, Magnus Saebo, Achyutha Menon, Eyon Jang, Diogo Cruz · PDF
Separating Value Disagreement from Data Uncertainty in Pluralistic Preference Data
Ahmad A Rushdi · PDF
Side Effects of Character Training: Quantifying Cross-Constitution Drift in LLMs
Bhagyesh Kumar, Ananya Sutradhar, Saurav Panigrahi, Jonathn Chang, Lionel Levine · PDF
Social Choice Foundations for Simulation-Augmented Generation
Sonja Kraiczy, Smitha Milli, Ratip Emin Berker, Avinandan Bose, Brandon Amos, Jamelle Watson-Daniels, Maximilian Nickel, Edith Elkind, Ariel D. Procaccia · PDF
Socially Grounded Agentic AI: Coordinating Plural Perspectives through Social Theory
Matt Ratto, Abhishek Moturu, Daniel Silver · PDF
Steerable Cultural Preference Optimization of Reward Models
Minsik Oh, Advit Deepak, Sophie Wu, Douwe Kiela, Ekaterina Shutova · PDF
The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety
Ian Rios-Sialer · PDF
The Language of Bargaining: Linguistic Effects in LLM Negotiations
Stuti Sinha, Himanshu Kumar, Aryan Raju Mandapati, Rakshit Sakhuja, Dhruv Kumar · PDF
The Persona Fidelity Gap: Behaviorally Grounded LLM Personas Still Compress Real-User Preference Diversity
Rishav Kumar, Atul Dev, Shivank Garg · PDF
The Wedge Questions: Latent Cultural Boundaries in LLMs via Persona Projection Divergence
Yejin Son, Yongjin Yang, Ryan Faulkner, Matt Ratto, Seungwon Lim, Youngjae Yu, Zhijing Jin · PDF
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
Chuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu · PDF
To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands
Fangyi Yu, Nabeel Seedat, Jonathan Richard Schwarz, Andrew M. Bean · PDF
ToolAlignBench: Investigating Alignment Conflicts in Tool-Calling Enabled LLMs
Aryan Keluskar, Amrita Bhattacharjee, Huan Liu · PDF
Toward Deployable Pluralistic Alignment in Robotics: Learning Similarity-Grouped Rewards from Diverse Human Preferences
Taehyung Kim, Gwangmo Lee, Jonghak Bae, Dongjae Kim, Jaewoong Han, Jongeun Choi · PDF
Universal Alignment Fails in Global Classrooms: Cross-Cultural Blind Spots in EdTech AI
Zijin Wu, David Scott Lewis · PDF
What Aggregate Accuracy Hides: Cultural Affective Inequity in Multilingual LLMs
Youngjin Lee, HAYOUNG OH · PDF
What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models
Payal Chandak, Victoria Alkin, David Wu, Maya Dagan, Taposh Dutta Roy, Maria Clara Saad Menezes, Ayush Noori, Nirali Somia, John S Brownstein, Ran Balicer, Rebecca Weintraub Brendel, Noa Dagan, Isaac S. Kohane, Gabriel A Brat · PDF
When Disagreement Matters: Friction, Pluralistic Alignment, and National-Security AI
Morgan Livingston · PDF
When We Don’t See The Same Picture: Aligning Agents with Divergent Visual Spaces
Gul Zain Khan, Stephan Alaniz, Eric Schulz, Zeynep Akata · PDF
Where Models Concentrate and Humans Spread: A Coverage Framework for Distributional Pluralism in Open-Ended Generation
Zini Yang, Emily Wenger, Richard Jean So · PDF
Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts
Niklas Weller, Emilio Barkett · PDF

Accepted papers (80)

☆Adaptive Pluralistic Alignment: a pipeline for dynamic artificial democracy

☆AI Pluralism and the Worlds It Misses

☆Algorithmic Approaches to Opinion Selection for Online Deliberation: A Comparative Study

☆Benchmarking Pluralistic Alignment Through Persona-Conditioned Behavioral Evaluation

☆Beyond the Mean: Three-Axis Fidelity for Aligning LLM-Based Survey Simulators from Small Pilot Data

☆Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies

☆Changing Tunes: A Longitudinal Study of Political Drift in LLMs

☆ConstitutionMAS-EC: Peer Constitutional Critique for Aligned Emergent Communication in Decentralized Multi-Agent LLMs

☆Data Mixing for Group Preference Heterogeneity in Collaborative Filtering

☆Deference by Design: Pluralistic Alignment Is an Interface Problem

☆Directional Influence and Consensus Formation in Multi-Agent Systems

☆Diversifying Multiple Generative Agents by Aligning with Human Populations

☆Do LLMs Acknowledge Disputed Facts? A Benchmark for Factual Pluralism in LLMs

☆Does AI Assistance Preserve or Collapse Disagreement? A Study of Pre-Annotations in Ambiguous Video Labeling

☆Does Privacy Always Harm Fairness? Data-Dependent Trade-offs via Chernoff Information Neural Estimation

☆Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

☆EGGROLL-IPO: Pluralistic Alignment via Decentralised Post-Training with Population Preferences

☆Evaluating Pluralism in LLMs through Latent Perspectives

☆Event-Driven Reinforcement Learning for Pluralistic Alignment

☆For Questions of Ought, AI Could Use Some SAGE Advice

☆FRAGILE: Benchmarking Framing Sensitivity in High-Stakes Decision-Making

☆From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets

☆Geometry of Values: Task Vector Composition for Ethical Preference Alignment in Language Models

☆HEARSAYBENCH: Can LLMs Navigate from Abstract Human Rights to Lived Lives?

☆Helpful or Safe? UltraFeedback's Binarized Labels Encode a Value Tradeoff

☆Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance

☆Innocuous-Seeming Data, Latent Ideology: Ideological Generalisation in Finetuned LLMs

☆It’s Up to Interpretation: Aligning to One’s Ever-Shifting Internal State

☆Learning to Retrieve User History and Generate User Profiles for Personalized Persuasiveness Prediction

☆Learning Unanimously Acceptable Lotteries via Queries

☆LLM Human Response Alignment: A Multi-Sample Debiasing Framework

☆Majority Vote Silences Minority Values: Annotator Disagreement at the Hate/Offensive Boundary in HateXplain

☆Memetic Capture: A Pluralistic Policy Framework for Governing AI-Driven Cultural Disempowerment

☆Memetic Drift in Multi-Agent LLMs: Scaling Laws for Consensus Under Pluralistic Uncertainty

☆Mission Impossible: Universal Moral Alignment

☆Modeling diverse preferences in movie artwork personalization with large language models

☆Moral Orientation and Calibration: Coupled in Human Annotators, Separable in Judge LLMs

☆Multi-Action-Head On-Policy Self-Distillation for Pluralistic Alignment

☆PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration

☆Pedagogical Games: Paths to Generalisation for Agentic Moral Alignment

☆Personalization, Personas, and Forecasting in Value Alignment

☆PIPE: Personalized Image-generation via Preference Encoding

☆Playing Devil’s Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy

☆Pluralistic AI Alignment Requires Inference-Time Multi-Objective Control

☆Pluralistic Preference Alignment via Sortition-Weighted RLHF

☆Position: Aggregate Preference Optimization Hides a Posterior Identifiability Failure for Pluralistic Alignment

☆Position: Align AI to Our Aspirations, Not Our Flaws

☆Position: LLM alignment data should be regulated as mass media

☆Position: Why LLMs Should Be Reasonably Morally Inconsistent

☆PRISM: When Agents Provably Learn from Pluralistic Human Feedback

☆Provably Efficient Regularized Online RLHF with Generalized Bilinear Preferences

☆Reasoning Models Generate Societies of Thought

☆Reducing Supervision Uncertainty Induces Model Miscalibration

☆Response-Aware User Memory Selection for LLM Personalization

☆Rethinking AI Alignment: From Static Rewards to Social Reinforcement Learning

☆Rethinking Diversity-Preserving RL for Pluralistic Alignment: Empirical Evidence from Rubric-Grounded Moral Reasoning

☆Rethinking Scaffolding in LLM Tutors: The Interactional Mismatch Between Benchmarks and Real-World Deployments

☆RobotValues: Evaluating Household Robots When Human Values Conflict

☆RouteJudge: Preference-Based Evaluation of LLM Routers under Pluralistic User Preferences

☆Same Facts, Different Updates: Inference Setup Shapes LLM Behavior in Medical Allocation

☆Separating Value Disagreement from Data Uncertainty in Pluralistic Preference Data

☆Side Effects of Character Training: Quantifying Cross-Constitution Drift in LLMs

☆Social Choice Foundations for Simulation-Augmented Generation

☆Socially Grounded Agentic AI: Coordinating Plural Perspectives through Social Theory

☆Steerable Cultural Preference Optimization of Reward Models

☆The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

☆The Language of Bargaining: Linguistic Effects in LLM Negotiations

☆The Persona Fidelity Gap: Behaviorally Grounded LLM Personas Still Compress Real-User Preference Diversity

☆The Wedge Questions: Latent Cultural Boundaries in LLMs via Persona Projection Divergence

☆ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

☆To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

☆ToolAlignBench: Investigating Alignment Conflicts in Tool-Calling Enabled LLMs

☆Toward Deployable Pluralistic Alignment in Robotics: Learning Similarity-Grouped Rewards from Diverse Human Preferences

☆Universal Alignment Fails in Global Classrooms: Cross-Cultural Blind Spots in EdTech AI

☆What Aggregate Accuracy Hides: Cultural Affective Inequity in Multilingual LLMs

☆What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models

☆When Disagreement Matters: Friction, Pluralistic Alignment, and National-Security AI

☆When We Don’t See The Same Picture: Aligning Agents with Divergent Visual Spaces

☆Where Models Concentrate and Humans Spread: A Coverage Framework for Distributional Pluralism in Open-Ended Generation

Adaptive Pluralistic Alignment: a pipeline for dynamic artificial democracy

AI Pluralism and the Worlds It Misses

Algorithmic Approaches to Opinion Selection for Online Deliberation: A Comparative Study

Benchmarking Pluralistic Alignment Through Persona-Conditioned Behavioral Evaluation

Beyond the Mean: Three-Axis Fidelity for Aligning LLM-Based Survey Simulators from Small Pilot Data

Bosses, Kings, and the Commons: Cooperation Under Power Asymmetry in LLM Societies

Changing Tunes: A Longitudinal Study of Political Drift in LLMs

ConstitutionMAS-EC: Peer Constitutional Critique for Aligned Emergent Communication in Decentralized Multi-Agent LLMs

Data Mixing for Group Preference Heterogeneity in Collaborative Filtering

Deference by Design: Pluralistic Alignment Is an Interface Problem

Directional Influence and Consensus Formation in Multi-Agent Systems

Diversifying Multiple Generative Agents by Aligning with Human Populations

Do LLMs Acknowledge Disputed Facts? A Benchmark for Factual Pluralism in LLMs

Does AI Assistance Preserve or Collapse Disagreement? A Study of Pre-Annotations in Ambiguous Video Labeling

Does Privacy Always Harm Fairness? Data-Dependent Trade-offs via Chernoff Information Neural Estimation

Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

EGGROLL-IPO: Pluralistic Alignment via Decentralised Post-Training with Population Preferences

Evaluating Pluralism in LLMs through Latent Perspectives

Event-Driven Reinforcement Learning for Pluralistic Alignment

For Questions of Ought, AI Could Use Some SAGE Advice

FRAGILE: Benchmarking Framing Sensitivity in High-Stakes Decision-Making

From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets

Geometry of Values: Task Vector Composition for Ethical Preference Alignment in Language Models

HEARSAYBENCH: Can LLMs Navigate from Abstract Human Rights to Lived Lives?

Helpful or Safe? UltraFeedback's Binarized Labels Encode a Value Tradeoff

Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance

Innocuous-Seeming Data, Latent Ideology: Ideological Generalisation in Finetuned LLMs

It’s Up to Interpretation: Aligning to One’s Ever-Shifting Internal State

Learning to Retrieve User History and Generate User Profiles for Personalized Persuasiveness Prediction

Learning Unanimously Acceptable Lotteries via Queries

LLM Human Response Alignment: A Multi-Sample Debiasing Framework

Majority Vote Silences Minority Values: Annotator Disagreement at the Hate/Offensive Boundary in HateXplain

Memetic Capture: A Pluralistic Policy Framework for Governing AI-Driven Cultural Disempowerment

Memetic Drift in Multi-Agent LLMs: Scaling Laws for Consensus Under Pluralistic Uncertainty

Mission Impossible: Universal Moral Alignment

Modeling diverse preferences in movie artwork personalization with large language models

Moral Orientation and Calibration: Coupled in Human Annotators, Separable in Judge LLMs

Multi-Action-Head On-Policy Self-Distillation for Pluralistic Alignment

PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration

Pedagogical Games: Paths to Generalisation for Agentic Moral Alignment

Personalization, Personas, and Forecasting in Value Alignment

PIPE: Personalized Image-generation via Preference Encoding

Playing Devil’s Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy

Pluralistic AI Alignment Requires Inference-Time Multi-Objective Control

Pluralistic Preference Alignment via Sortition-Weighted RLHF

Position: Aggregate Preference Optimization Hides a Posterior Identifiability Failure for Pluralistic Alignment

Position: Align AI to Our Aspirations, Not Our Flaws

Position: LLM alignment data should be regulated as mass media

Position: Why LLMs Should Be Reasonably Morally Inconsistent

PRISM: When Agents Provably Learn from Pluralistic Human Feedback

Provably Efficient Regularized Online RLHF with Generalized Bilinear Preferences

Reasoning Models Generate Societies of Thought

Reducing Supervision Uncertainty Induces Model Miscalibration

Response-Aware User Memory Selection for LLM Personalization

Rethinking AI Alignment: From Static Rewards to Social Reinforcement Learning

Rethinking Diversity-Preserving RL for Pluralistic Alignment: Empirical Evidence from Rubric-Grounded Moral Reasoning

Rethinking Scaffolding in LLM Tutors: The Interactional Mismatch Between Benchmarks and Real-World Deployments

RobotValues: Evaluating Household Robots When Human Values Conflict

RouteJudge: Preference-Based Evaluation of LLM Routers under Pluralistic User Preferences

Same Facts, Different Updates: Inference Setup Shapes LLM Behavior in Medical Allocation

Separating Value Disagreement from Data Uncertainty in Pluralistic Preference Data

Side Effects of Character Training: Quantifying Cross-Constitution Drift in LLMs

Social Choice Foundations for Simulation-Augmented Generation

Socially Grounded Agentic AI: Coordinating Plural Perspectives through Social Theory

Steerable Cultural Preference Optimization of Reward Models

The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

The Language of Bargaining: Linguistic Effects in LLM Negotiations

The Persona Fidelity Gap: Behaviorally Grounded LLM Personas Still Compress Real-User Preference Diversity

The Wedge Questions: Latent Cultural Boundaries in LLMs via Persona Projection Divergence

ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

ToolAlignBench: Investigating Alignment Conflicts in Tool-Calling Enabled LLMs

Toward Deployable Pluralistic Alignment in Robotics: Learning Similarity-Grouped Rewards from Diverse Human Preferences

Universal Alignment Fails in Global Classrooms: Cross-Cultural Blind Spots in EdTech AI

What Aggregate Accuracy Hides: Cultural Affective Inequity in Multilingual LLMs

What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models

When Disagreement Matters: Friction, Pluralistic Alignment, and National-Security AI

When We Don’t See The Same Picture: Aligning Agents with Divergent Visual Spaces

Where Models Concentrate and Humans Spread: A Coverage Framework for Distributional Pluralism in Open-Ended Generation

Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts