ICLR 2025PastSafety & alignment

ICLR 2025 Workshop on Bidirectional Human-AI Alignment

ICLR 2025 Bi-Align Workshop

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 16, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (71)

Fetched from OpenReview (v2) on 2026-06-10.

A Benchmark for Scalable Oversight Mechanisms
Abhimanyu Pallavi Sudhir, Jackson Kaunismaa, Arjun Panickssery · PDF
A Pilot Study of Weak-to-Strong Generalization in Safety, Toxicity, and Legal Reasoning
Ruimeng Ye, Yang Xiao, Bo Hui · PDF
A Roadmap for Human-Agent Moral Alignment: Integrating Pre-defined Intrinsic Rewards and Learned Reward Models
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi · PDF
A Sociotechnical Perspective on Aligning AI with Pluralistic Human Values
Dalia Ali, Aysenur Kocak, Dora Zhao, Allison Koenecke, Orestis Papakyriakopoulos · PDF
Active Human Feedback Collection via Neural Contextual Dueling Bandits
Arun Verma, Xiaoqiang Lin, Zhongxiang Dai, Daniela Rus, Bryan Kian Hsiang Low · PDF
Addressing and Visualizing Misalignments in Human Task-Solving Trajectories
Sejin Kim, Hosung Lee, Sundong Kim · PDF
AI Systematically Rewires the Flow of Ideas
Zhonghao He, Tianyi Qiu, Tao Lin, Moshe Glickman, Atoosa Kasirzadeh, John Wihbey, Max Kleiman-Weiner · PDF
AI-enhanced semantic feature norms for 786 concepts
Siddharth Suresh, Kushin Mukherjee, Tyler Giallanza, Xizheng Yu, Mia Patil, Jonathan D. Cohen, Timothy T. Rogers · PDF
Aligning LLMs with Domain Invariant Reward Models
David Wu, Sanjiban Choudhury · PDF
Augmenting Image Annotation: A Human–LMM Collaborative Framework for Efficient Object Selection and Label Generation
HE ZHANG, Xinyi Fu, John Millar Carroll · PDF
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu · PDF
Bidirectional Alignment for Inclusive Narrative Generation
Ken Kawamura · PDF
Broaden your SCOPE! Efficient Conversation Planning for LLMs using Semantic Space
Zhiliang Chen, Xinyuan Niu, Chuan-Sheng Foo, Bryan Kian Hsiang Low · PDF
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective
Jiawei Huang, Bingcong Li, Christoph Dann, Niao He · PDF
Cooperative Agency-Centered LLMs
Iyadunni J. Adenuga · PDF
CoPL: Collaborative Preference Learning for Personalizing LLMs
Youngbin Choi, Seunghyuk Cho, Minjong Lee, MoonJeong Park, Yesong Ko, Jungseul Ok, Dongwoo Kim · PDF
CTRL-Rec: Controlling Recommender Systems With Natural Language
Micah Carroll, Adeline Foote, Marcus Williams, Anca Dragan, W. Bradley Knox, Smitha Milli · PDF
Data-adaptive Safety Rules for Training Reward Models
Xiaomin Li, Mingye Gao, Zhiwei Zhang, Jingxuan Fan, Weiyu Li · PDF
Decision Preference Alignment for Large-Scale Agents Based on Reward Model Generation
Zheng Jiaoling, Xu Weifeng, Luo Qian, Dang Wanli, Geng Long, Gao Guokang, Ren Yulin, Fan Xingyu · PDF
Drift: Efficient Implicit Personalization of Large Language Models
Minbeom Kim, Kang-il Lee, Seongho Joo, Hwaran Lee, Kyomin Jung · PDF
Envision Human-AI Perceptual Alignment from a Multimodal Interaction Perspective
Shu Zhong, Marianna Obrist · PDF
Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment
Jiseon Kim, Jea Kwon, Luiz Felipe Vecchietti, Alice Oh, Meeyoung Cha · PDF
From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions
Ruben Weijers, Denton Wu, Hannah Betts, Tamara Jacod, Yuxiang Guan, Vidya Sujaya, Kushal Dev, Toshali Goel, William Delooze, Reihaneh Rabbany, Ying Wu, Jean-François Godbout, Kellin Pelrine · PDF
Human Alignment: How Much We Adapt to LLMs?
Cazalets Tanguy, Ruben Janssens, Tony Belpaeme, Joni Dambre · PDF
Inference-time Alignment in Continuous Space
Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng · PDF
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models with Human Feedback
Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou · PDF
Learning From Diverse Experts: Behavior Alignment Through Multi-Objective Inverse Reinforcement Learning
Jun-Jie Yang, Qian-You Zhang, Chia-Heng Hsu, Xi Liu, Ping-Chun Hsieh · PDF
Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions
Salem Lahlou · PDF
Monitoring LLM Agents for Sequentially Contextual Harm
Chen Yueh-Han, Nitish Joshi, Yulin Chen, He He, Rico Angell · PDF
Moral Alignment for LLM Agents
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi · PDF
Multi-Objective Probabilistic Preference Learning with Soft and Hard Bounds
Edward Chen, Sang T. Truong, Natalie Dullerud, Sanmi Koyejo, Carlos Guestrin · PDF
Negotiative Alignment: An interactive approach to human-AI co-adaptation for clinical applications
Florence Xini Doo, Nikhil Shah, Pranav Kulkarni, Vishwa Sanjay Parekh, Heng Huang · PDF
Observability of Latent States in Generative AI Models
Tian Yu Liu, Stefano Soatto, Matteo Marchi, Pratik Chaudhari, Paulo Tabuada · PDF
Online Learning with Ranking Feedback and An Application to Equilibrium Computation
Mingyang Liu, Yongshan Chen, Zhiyuan Fan, Gabriele Farina, Asuman E. Ozdaglar, Kaiqing Zhang · PDF
Order Independence With Finetuning
Katrina Brown, Reid McIlroy-Young · PDF
Outlier-Aware Preference Optimization for Large Language Models
Pragya Srivastava, Sai Soumya Nalli, Amit Deshpande, Amit Sharma · PDF
PARSE-Ego4D: Toward Bidirectionally Aligned Action Recommendations for Egocentric Videos
Steven Abreu, Tiffany D Do, Karan Ahuja, Eric J Gonzalez, Lee Payne, Daniel McDuff, Mar Gonzalez-Franco · PDF
Patterns and Mechanisms of Contrastive Activation Engineering
Yixiong Hao, Ayush Panda, Stepan Shabalin, Sheikh Abdur Raheem Ali · PDF
PILAF: Optimal Human Preference Sampling for Reward Modeling
Yunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan · PDF
Policy Prototyping for LLMs: Pluralistic Alignment via Interactive and Collaborative Policymaking
Kevin Feng, Inyoung Cheong, Quan Ze Chen, Amy X Zhang · PDF
Position: Interpretability is a Bidirectional Communication Problem
Kola Ayonrinde · PDF
PREFERENCE OPTIMIZATION FOR CONCEPT BOTTLENECK MODELS
Emiliano Penaloza, Tianyue H. Zhang, Laurent Charlin, Mateo Espinosa Zarlenga · PDF
Preference-Based Alignment of Discrete Diffusion Models
Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktäschel · PDF
Probing Mechanical Reasoning in Large Vision Language Models
Haoran Sun, Yijiang Li, Qingying Gao, Haiyun Lyu, Dezhi Luo, Hokin Deng · PDF
Processing, Priming, Probing: Human Interventions for Explainability Alignment
Kenza Amara · PDF
Representational Alignment Supports Effective Teaching
Ilia Sucholutsky, Katherine M. Collins, Maya Malaviya, Nori Jacoby, Weiyang Liu, Theodore Sumers, Michalis Korakakis, Umang Bhatt, Mark K Ho, Joshua B. Tenenbaum, Bradley C. Love, Zachary Pardos, Adrian Weller, Thomas L. Griffiths · PDF
Representational Difference Clustering
Neehar Kondapaneni, Emily Gu, Oisin Mac Aodha, Pietro Perona · PDF
Rethinking AI Cultural Alignment
Michal Bravansky, Filip Trhlík, Fazl Barez · PDF
Rethinking Anti-Misinformation AI
Vidya Sujaya, Kellin Pelrine, Andreea Musulan, Reihaneh Rabbany · PDF
SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities
Fengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, Radha Poovendran · PDF
Scalably Solving Assistance Games
Cassidy Laidlaw, Eli Bronstein, Timothy Guo, Dylan Feng, Lukas Berglund, Justin Svegliato, Stuart Russell, Anca Dragan · PDF
Shared Similarity Between Humans and Chatbots: Exploring Human Willingness to Seek Social Support From Chatbots
Zicheng Zhu, Tianqi Song, Jefferson Lim, Chi-Lan Yang, Yi-Chieh Lee · PDF
Societal Alignment Frameworks Can Improve LLM Alignment
Karolina Stanczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P Lillicrap, Ana Marasovic, Sylvie Delacroix, Gillian K Hadfield, Siva Reddy · PDF
Societal Impacts Research Requires Benchmarks for Creative Composition Tasks
Judy Hanwen Shen, Carlos Guestrin · PDF
Superalignment with Dynamic Human Values
Florian Mai, David Kaczér, Nicholas Kluge Corrêa, Lucie Flek · PDF
SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment
Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan · PDF
Sycophancy Claims about Language Models: The Missing Human-in-the-Loop
Jan Batzner, Volker Stocker, Stefan Schmid, Gjergji Kasneci · PDF
Symmetry-Breaking Augmentations for Ad Hoc Teamwork
Ravi Hammond, Dustin Craggs, Mingyu Guo, Jakob Nicolaus Foerster, Ian Reid · PDF
The Alignment Trilemma: A Theoretical Perspective on Recursive Misalignment and Human-AI Adaptation Dynamics
Tarun Raheja, Nilay Pochhi · PDF
The Human Visual System Can Inspire New Interaction Paradigms for LLMs
Diana Robinson, Neil D Lawrence · PDF
The Lock-in Hypothesis: Stagnation by Algorithm
Tianyi Qiu, Zhonghao He, Tejasveer Chugh, Max Kleiman-Weiner · PDF
Towards LVLM-Aided Alignment of Task-Specific Vision Models
Alexander Koebler, Christian Greisinger, Jan Paulus, Ingo Thon, Florian Buettner · PDF
TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback
Siow Meng Low, Akshat Kumar · PDF
TRIG-Bench: A Benchmark for Text-Rich Image Grounding
Ming Li, Ruiyi Zhang, Jian Chen, Tianyi Zhou · PDF
Trustworthy AI Must Account for Intersectionality
Jesse C. Cresswell · PDF
Understanding (Un)Reliability of Steering Vectors in Language Models
Joschka Braun, Carsten Eickhoff, David Krueger, Seyed Ali Bahrainian, Dmitrii Krasheninnikov · PDF
Value Alignment in the Global South: A Multidimensional Approach to Norm Elicitation in Indian Contexts
Atmadeep Ghoshal, Martim Brandao, Ruba Abu-Salma · PDF
ValueMap: Mapping Crowdsourced Human Values to Computational Scores for Bi-directional Alignment
Priya Ronald DCosta, Rupkatha Hira · PDF
Vision Language Models Know Law of Conservation without Understanding More-or-Less
Dezhi Luo, Haiyun Lyu, Qingying Gao, Haoran Sun, Yijiang Li, Hokin Deng · PDF
Vision Language Models See What You Want but not What You See
Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng · PDF
We Shape AI, and Thereafter AI Shape Us: Humans Align with AI through Social Influences
Jingshu Li, Tianqi Song, Beichen Xue, Yi-Chieh Lee · PDF

Accepted papers (71)

☆A Benchmark for Scalable Oversight Mechanisms

☆A Pilot Study of Weak-to-Strong Generalization in Safety, Toxicity, and Legal Reasoning

☆A Roadmap for Human-Agent Moral Alignment: Integrating Pre-defined Intrinsic Rewards and Learned Reward Models

☆A Sociotechnical Perspective on Aligning AI with Pluralistic Human Values

☆Active Human Feedback Collection via Neural Contextual Dueling Bandits

☆Addressing and Visualizing Misalignments in Human Task-Solving Trajectories

☆AI Systematically Rewires the Flow of Ideas

☆AI-enhanced semantic feature norms for 786 concepts

☆Aligning LLMs with Domain Invariant Reward Models

☆Augmenting Image Annotation: A Human–LMM Collaborative Framework for Efficient Object Selection and Label Generation

☆Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment

☆Bidirectional Alignment for Inclusive Narrative Generation

☆Broaden your SCOPE! Efficient Conversation Planning for LLMs using Semantic Space

☆Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

☆Cooperative Agency-Centered LLMs

☆CoPL: Collaborative Preference Learning for Personalizing LLMs

☆CTRL-Rec: Controlling Recommender Systems With Natural Language

☆Data-adaptive Safety Rules for Training Reward Models

☆Decision Preference Alignment for Large-Scale Agents Based on Reward Model Generation

☆Drift: Efficient Implicit Personalization of Large Language Models

☆Envision Human-AI Perceptual Alignment from a Multimodal Interaction Perspective

☆Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment

☆From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions

☆Human Alignment: How Much We Adapt to LLMs?

☆Inference-time Alignment in Continuous Space

☆InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models with Human Feedback

☆Learning From Diverse Experts: Behavior Alignment Through Multi-Objective Inverse Reinforcement Learning

☆Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions

☆Monitoring LLM Agents for Sequentially Contextual Harm

☆Moral Alignment for LLM Agents

☆Multi-Objective Probabilistic Preference Learning with Soft and Hard Bounds

☆Negotiative Alignment: An interactive approach to human-AI co-adaptation for clinical applications

☆Observability of Latent States in Generative AI Models

☆Online Learning with Ranking Feedback and An Application to Equilibrium Computation

☆Order Independence With Finetuning

☆Outlier-Aware Preference Optimization for Large Language Models

☆PARSE-Ego4D: Toward Bidirectionally Aligned Action Recommendations for Egocentric Videos

☆Patterns and Mechanisms of Contrastive Activation Engineering

☆PILAF: Optimal Human Preference Sampling for Reward Modeling

☆Policy Prototyping for LLMs: Pluralistic Alignment via Interactive and Collaborative Policymaking

☆Position: Interpretability is a Bidirectional Communication Problem

☆PREFERENCE OPTIMIZATION FOR CONCEPT BOTTLENECK MODELS

☆Preference-Based Alignment of Discrete Diffusion Models

☆Probing Mechanical Reasoning in Large Vision Language Models

☆Processing, Priming, Probing: Human Interventions for Explainability Alignment

☆Representational Alignment Supports Effective Teaching

☆Representational Difference Clustering

☆Rethinking AI Cultural Alignment

☆Rethinking Anti-Misinformation AI

☆SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

☆Scalably Solving Assistance Games

☆Shared Similarity Between Humans and Chatbots: Exploring Human Willingness to Seek Social Support From Chatbots

☆Societal Alignment Frameworks Can Improve LLM Alignment

☆Societal Impacts Research Requires Benchmarks for Creative Composition Tasks

☆Superalignment with Dynamic Human Values

☆SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment

☆Sycophancy Claims about Language Models: The Missing Human-in-the-Loop

☆Symmetry-Breaking Augmentations for Ad Hoc Teamwork

☆The Alignment Trilemma: A Theoretical Perspective on Recursive Misalignment and Human-AI Adaptation Dynamics

☆The Human Visual System Can Inspire New Interaction Paradigms for LLMs

☆The Lock-in Hypothesis: Stagnation by Algorithm

☆Towards LVLM-Aided Alignment of Task-Specific Vision Models

☆TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback

☆TRIG-Bench: A Benchmark for Text-Rich Image Grounding

☆Trustworthy AI Must Account for Intersectionality

☆Understanding (Un)Reliability of Steering Vectors in Language Models

☆Value Alignment in the Global South: A Multidimensional Approach to Norm Elicitation in Indian Contexts

☆ValueMap: Mapping Crowdsourced Human Values to Computational Scores for Bi-directional Alignment

☆Vision Language Models Know Law of Conservation without Understanding More-or-Less

☆Vision Language Models See What You Want but not What You See

☆We Shape AI, and Thereafter AI Shape Us: Humans Align with AI through Social Influences

A Benchmark for Scalable Oversight Mechanisms

A Pilot Study of Weak-to-Strong Generalization in Safety, Toxicity, and Legal Reasoning

A Roadmap for Human-Agent Moral Alignment: Integrating Pre-defined Intrinsic Rewards and Learned Reward Models

A Sociotechnical Perspective on Aligning AI with Pluralistic Human Values

Active Human Feedback Collection via Neural Contextual Dueling Bandits

Addressing and Visualizing Misalignments in Human Task-Solving Trajectories

AI Systematically Rewires the Flow of Ideas

AI-enhanced semantic feature norms for 786 concepts

Aligning LLMs with Domain Invariant Reward Models

Augmenting Image Annotation: A Human–LMM Collaborative Framework for Efficient Object Selection and Label Generation

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment

Bidirectional Alignment for Inclusive Narrative Generation

Broaden your SCOPE! Efficient Conversation Planning for LLMs using Semantic Space

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

Cooperative Agency-Centered LLMs

CoPL: Collaborative Preference Learning for Personalizing LLMs

CTRL-Rec: Controlling Recommender Systems With Natural Language

Data-adaptive Safety Rules for Training Reward Models

Decision Preference Alignment for Large-Scale Agents Based on Reward Model Generation

Drift: Efficient Implicit Personalization of Large Language Models

Envision Human-AI Perceptual Alignment from a Multimodal Interaction Perspective

Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment

From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions

Human Alignment: How Much We Adapt to LLMs?

Inference-time Alignment in Continuous Space

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models with Human Feedback

Learning From Diverse Experts: Behavior Alignment Through Multi-Objective Inverse Reinforcement Learning

Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions

Monitoring LLM Agents for Sequentially Contextual Harm

Moral Alignment for LLM Agents

Multi-Objective Probabilistic Preference Learning with Soft and Hard Bounds

Negotiative Alignment: An interactive approach to human-AI co-adaptation for clinical applications

Observability of Latent States in Generative AI Models

Online Learning with Ranking Feedback and An Application to Equilibrium Computation

Order Independence With Finetuning

Outlier-Aware Preference Optimization for Large Language Models

PARSE-Ego4D: Toward Bidirectionally Aligned Action Recommendations for Egocentric Videos

Patterns and Mechanisms of Contrastive Activation Engineering

PILAF: Optimal Human Preference Sampling for Reward Modeling

Policy Prototyping for LLMs: Pluralistic Alignment via Interactive and Collaborative Policymaking

Position: Interpretability is a Bidirectional Communication Problem

PREFERENCE OPTIMIZATION FOR CONCEPT BOTTLENECK MODELS

Preference-Based Alignment of Discrete Diffusion Models

Probing Mechanical Reasoning in Large Vision Language Models

Processing, Priming, Probing: Human Interventions for Explainability Alignment

Representational Alignment Supports Effective Teaching

Representational Difference Clustering

Rethinking AI Cultural Alignment

Rethinking Anti-Misinformation AI

SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

Scalably Solving Assistance Games

Shared Similarity Between Humans and Chatbots: Exploring Human Willingness to Seek Social Support From Chatbots

Societal Alignment Frameworks Can Improve LLM Alignment

Societal Impacts Research Requires Benchmarks for Creative Composition Tasks

Superalignment with Dynamic Human Values

SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment

Sycophancy Claims about Language Models: The Missing Human-in-the-Loop

Symmetry-Breaking Augmentations for Ad Hoc Teamwork

The Alignment Trilemma: A Theoretical Perspective on Recursive Misalignment and Human-AI Adaptation Dynamics

The Human Visual System Can Inspire New Interaction Paradigms for LLMs

The Lock-in Hypothesis: Stagnation by Algorithm

Towards LVLM-Aided Alignment of Task-Specific Vision Models

TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback

TRIG-Bench: A Benchmark for Text-Rich Image Grounding

Trustworthy AI Must Account for Intersectionality

Understanding (Un)Reliability of Steering Vectors in Language Models

Value Alignment in the Global South: A Multidimensional Approach to Norm Elicitation in Indian Contexts

ValueMap: Mapping Crowdsourced Human Values to Computational Scores for Bi-directional Alignment

Vision Language Models Know Law of Conservation without Understanding More-or-Less

Vision Language Models See What You Want but not What You See

We Shape AI, and Thereafter AI Shape Us: Humans Align with AI through Social Influences