NeurIPS 2025PastLarge language models

First Workshop on Multi-Turn Interactions in Large Language Models

MTI-LLM @ NeurIPS 2025

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 3, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (122)

Fetched from OpenReview (v2) on 2026-06-10.

$\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning
Deyu Zou, Yongqiang Chen, Jianxiang Wang, Garry YANG, Mufei Li, Qing Da, Pan Li, Yu Gong, James Cheng · PDF
$\textit{The Traitors}$: Deception and Trust in Multi-Agent Language Model Simulations
Pedro M. P. Curvo · PDF
A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations
Li Li, Peilin Cai, Ryan A. Rossi, Franck Dernoncourt, Branislav Kveton, Junda Wu, Tong Yu, Linxin Song, Tiankai Yang, Yuehan Qin, Nesreen K. Ahmed, Samyadeep Basu, Subhojyoti Mukherjee, Ruiyi Zhang, Zhengmian Hu, Bo Ni, Yuxiao Zhou, Zichao Wang, Yue Huang, Yu Wang, Xiangliang Zhang, Philip S. Yu, Xiyang Hu, Yue Zhao · PDF
A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning
Ruiyi Wang, Prithviraj Ammanabrolu · PDF
A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation
Hong Je-Gal, Chanbin YI, Hyun-Suk Lee · PDF
AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI
Manik Rana, Calissa Man, Anotida Expected Msiiwa, Jeffrey Paine, Ahan M R · PDF
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song · PDF
AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs
María Victoria Carro, Denise Alejandra Mester, Facundo Nieto, Oscar Agustín Stanchi, Guido Ernesto Bergman, Mario Leiva, Luca Nicolás Forziati Gangi, Eitan Sprejer, Francisca Gauna Selasco, Juan Gustavo Corvalan, Maria Vanina Martinez, Gerardo Simari · PDF
Alignment via Competition: Emergent Alignment from Differently Misaligned Agents
Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi · PDF
Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting
Shashidhar Reddy Javaji, Bhavul Gauri, Zining Zhu · PDF
Are LLMs Generalist Hanabi Agents?
Mahesh Ramesh, Aswinkumar Ramkumar, Pavan Thodima, Kaousheik Jayakumar, Aniket Rege · PDF
AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation
Xavier Cadet, Edward Koh, Peter Chin · PDF
AURA: A Diagnostic Framework for Tracking User Satisfaction of Interactive Planning Agents
Takyoung Kim, Janvijay Singh, Shuhaib Mehri, Emre Can Acikgoz, Sagnik Mukherjee, Nimet Beyza Bozdag, Sumuk Shashidhar, Gokhan Tur, Dilek Hakkani-Tür · PDF
Automating Deception: Scalable Multi-Turn LLM Jailbreaks
Adarsh Kumarappan, Ananya Mujoo · PDF
Benchmarking Correctness and Security in Multi-Turn Code Generation
Ruchit Rawal, Jeffrey Yang Fan Chiang, Jeffery Siyuan Tian, Aastha Mahajan, Tom Goldstein, Yizheng Chen · PDF
Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL
Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu · PDF
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Sahel Sharifymoghaddam, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin · PDF
BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks
Sagnik Anupam, Davis Brown, Shuo Li, Eric Wong, Hamed Hassani, Osbert Bastani · PDF
CaRT: Teaching LLM Agents to Know When They Know Enough
Grace Liu, Yuxiao Qu, Jeff Schneider, Aarti Singh, Aviral Kumar · PDF
CEDA: Cross-modal Evaluation through Debate Agents for Robust Hallucination Detection
Susmit Neogi, Wang Yun · PDF
Characterization and Detection of Incompleteness and Ambiguity in Multi-Turn Interactions with LLMs
Riya Naik, Ashwin Srinivasan, Swati Agarwal, Estrid He · PDF
ChatCLIDS: Simulating Persuasive AI Dialogues to Promote Closed-Loop Insulin Adoption in Type 1 Diabetes Care
Zonghai Yao, Talha Chafekar, Junda Wang, Shuo Han, Feiyun Ouyang, Junhui Qian, Lingxi Li, hong yu · PDF
Collaborative Prediction: Tractable Information Aggregation via Agreement
Natalie Collina, Ira Globus-Harris, Surbhi Goel, Varun Gupta, Aaron Roth, Mirah Shi · PDF
ConDABench: Interactive Evaluation of Language Models for Data Analysis
Avik Dutta, Priyanshu Gupta, Hosein Hasanbeig, Rahul Pratap Singh, Harshit Nigam, Sumit Gulwani, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari · PDF
Conformity, Inertia, and Value Alignment in Multi-Turn LLM Deliberation
Pratik S. Sachdeva, Tom van Nuenen · PDF
CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin · PDF
CRMWeaver: Building Powerful Business Agent via Agentic RL and Shared Memories
Yilong Lai, Yipin Yang, Jialong Wu, Zhenglin Wang, Ting Liang, Linjianguo, Keping Yang · PDF
Customer-R1: personalized simulation of Human Behaviors via RL-based LLM Agent in Online Shopping
Ziyi Wang, Yuxuan Lu, Yimeng Zhang, Jing Huang, Dakuo Wang · PDF
Delay-of-Gratification as a Multi-Agent Survival Micro-benchmark for Long-Horizon LLMs: Social Exposure, Personas, and Tool Use Budgets
Olga Manakina, Igor Bogdanov, Chung-Horng Lung · PDF
DeLLMphi: A Multi-Turn Method for Multi-Agent Forecasting
Andrew Robert Williams, Martin Weiss, Victoria Feere, Nasim Rahaman, Hugo Larochelle · PDF
Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Matthew Lyle Olson, Tyler Marques · PDF
Disclosure Audits for LLM Agents
Saswat Das, Jameson Sandler, Ferdinando Fioretto · PDF
Do Large Language Models Defend Their Beliefs Consistently?
Arka Pal, Arthur Liang, Teo Kitanovski, Akilesh Potti, Micah Goldblum · PDF
Efficient Reinforcement Learning for Optimizing Multi-turn Student Outcomes with LLM Tutors
HyunJi Nam, Omer Gottesman, Amy Zhang, Dean Foster, Emma Brunskill, Lyle Ungar · PDF
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models
Haziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Vasu Sharma, Sean O'Brien, Kevin Zhu · PDF
Estimating the Empowerment of Language Model Agents
Jinyeop Song, Jeff Gore, Max Kleiman-Weiner · PDF
ExploraTutor: A Dataset for Children’s Exploratory Dialogue by Integrating Multiple Educational theories
Siqi Xie, Yaxin Xu · PDF
Exploring exploration with foundation agents in interactive environments
Daniel P. Sawyer, Nan Rosemary Ke, Hubert Soyer, Martin Engelcke, John Reid, David P Reichert, Drew A. Hudson, Alexander Lerchner, Danilo Jimenez Rezende, Timothy P Lillicrap, Michael Curtis Mozer, Jane X Wang · PDF
Fathom-Search-4B: Scaling DeepSearch Reasoning Capabilities via RL
Shreyas Singh, Kunal Singh, Pradeep Moturi · PDF
Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions
Yubo Li, Yidi Miao, Xueying Ding, Ramayya Krishnan, Rema Padman · PDF
FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management
Xiang Liu, Hong Chen, Xuming Hu, Xiaowen Chu · PDF
Goal Alignment in LLM-Based User Simulators for Conversational AI
Shuhaib Mehri · PDF
Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs
Mohammad Akbar-Tajari, Mohammad Taher Pilehvar, Mohammad Mahmoody · PDF
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ -bench
Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral · PDF
How to Train Your LLM Web Agent: A Statistical Diagnosis
Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia · PDF
Improved Multi-Agent Collaboration with Multi-Turn Reinforcement Learning
Shuo Liu, Tianle Chen, Christopher Amato · PDF
Improving Language Agents through BREW: Bootstrapping expeRientially-learned Environmental knoWledge
Shashank Kirtania, Param Biyani, Priyanshu Gupta, Yasharth Bajpai, Roshni Iyer, Sumit Gulwani, Gustavo Soares · PDF
Interleaved Reasoning for Large Language Models via Reinforcement Learning
Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra · PDF
It's LIT! Reliability-Optimized LLMs with Inspectable Tools
Ruixin Zhang, Jon Donnelly, Zhicheng Guo, Ghazal Khalighinejad, Haiyang Huang, Alina Jade Barnett, Cynthia Rudin · PDF
Language Models Rate Their Own Actions As Safer
Dipika Khullar, Jack Hopkins, Rowan Wang, Fabien Roger · PDF
Large Language Models Develop Novel Social Biases Through Adaptive Exploration
Addison J. Wu, Ryan Liu, Xuechunzi Bai, Thomas L. Griffiths · PDF
Learning to be Proactive from Missed User-Signals in Multi-turn Dialogues
Saba Rahimi, Sivapriya Vellaichamy, Kelly Patel, Thomas Cook, Zhen Zeng, Sumitra Ganesh · PDF
Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification
Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira · PDF
Let’s Try Again: Eliciting Multi-Turn Reasoning in Language Models via Simplistic Feedback
Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li · PDF
Leveraging In-Context Learning for Language Model Agents
Shivanshu Gupta, Sameer Singh, Ashish Sabharwal, Tushar Khot, Ben Bogin · PDF
LLM Rationalis? Measuring bargaining capabilities of AI negotiators
Cheril Shah, Akshit Agarwal, Kanak Garg, Mourad Heddaya · PDF
MAC: A Multi-Agent Framework for Interactive User Clarification in Multi-turn Conversations
Emre Can Acikgoz, Jinoh Oh, Joo Hyuk Jeon, Jie Hao, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur, Xiang Li, Chengyuan Ma, Xing Fan · PDF
MAREval: A Multi-Agent Framework for Evaluating Natural Language Recommendation Explanations
Reza Yousefi Maragheh, Jayesh Uddhav Kudase, Aysenur Inan, Ramin Giahi, Kai Zhao, Jianpeng Xu, Jason Cho, Evren Korpeoglu, Sushant Kumar · PDF
MELISSA: Multi-level Evaluation with LLM-based Integrated Self-Scrutiny and Auditing
Amirhossein Afsharrad, Sri Jaladi, Nima Yazdani, Ali Ansari, Seyed Shahabeddin Mousavi, Sanjay Lall · PDF
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang · PDF
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, TIANSHU ZHANG, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su · PDF
Modeling and Predicting Multi-Turn Answer Instability in Large Language Models
Jiahang He, Rishi Ramachandran, Neel Ramachandran, Aryan Katakam, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Aryan Shrivastava · PDF
Multi-Agent-as-Judge: Aligning LLM-Agent-Based Automated Evaluation with Multi-Dimensional Human Evaluation
Jiaju Chen, Yuxuan Lu, Xiaojie Wang, Huimin Zeng, Jing Huang, Jiri Gesi, Ying Xu, Dakuo Wang · PDF
Multi-Turn Human–LLM Interaction Through the Lens of a Two-Way Intelligibility Protocol
Harshvardhan Mestha, Karan Bania, Shreyas V, Sidong Liu, Ashwin Srinivasan · PDF
Multi-Turn LLM Systems for Diagnostic Decision-Making: Considerations, Biases, and Challenges
Benjamin Liu, Sejong Kim, Drona Thoka, Varun Puttagunta, Kaylin Sheng, Mark Li, Kiran Nijjer, Adnan Ahmed, Thi Uyen Hanh Le, Sai Chidvilas Gudiboina, Ali Ugur, Kevin Zhu · PDF
MultiScale Contextual Bandits for Long Term Objectives
Richa Rastogi, Yuta Saito, Thorsten Joachims · PDF
ObjexMT: Objective Extraction and Metacognitive Calibration for LLM‑as‑a‑Judge under Multi‑Turn Jailbreaks
Hyunjun Kim, Junwoo Ha, Haon Park, Sangyoon Yu · PDF
Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users
Melik Ozolcer, Sang Won Bae · PDF
One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
Ritesh Goru, Shanay Mehta, Prateek Jain · PDF
Open-Universe Assistance Games
Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell · PDF
OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation
Ziyi Wang, Yuxuan Lu, Wenbo Li, Amirali Amini, Bo Sun, Yakov Bart, Weimin Lyu, Jiri Gesi, Tian Wang, Jing Huang, Yu Su, Upol Ehsan, Malihe Alikhani, Toby Jia-Jun Li, Lydia Chilton, Dakuo Wang · PDF
Optimizing for Persuasion Improves LLM Generalization: Evidence from Quality-Diversity Evolution of Debate Strategies
Aksel Joonas Reedi, Corentin Léger, Julien Pourcel, Loris Gaven, Perrine Charriau, Guillaume Pourcel · PDF
OrchDAG: Complex Tool Orchestration in Multi-Turn Interactions with Plan DAGs
Yifu Lu, Shengjie Liu, Li Dong · PDF
Orchestrator: Active Inference for Multi-Agent Systems in Long-Horizon Tasks
Lukas Beckenbauer, Johannes-Lucas Löwe, Ge Zheng, Alexandra Brintrup · PDF
ParetoMIL: Early Risk Detection in Dialogue under Weak Supervision
Avinash Baidya, Xinran Liang, Ruocheng Guo, Kamalika Das, Xiang Gao · PDF
PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time
Weizhi Zhang, Xinyang Zhang, Chenwei Zhang, Liangwei Yang, Jingbo Shang, Zhepei Wei, Henry Peng Zou, Zijie Huang, Zhengyang Wang, Yifan Gao, Xiaoman Pan, Lian Xiong, Jingguo Liu, Philip S. Yu, Xian Li · PDF
Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
Nimet Beyza Bozdag, Shuhaib Mehri, Gokhan Tur, Dilek Hakkani-Tür · PDF
Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies
Prasoon Varshney, Makesh Narsimhan Sreedhar, Liwei Jiang, Traian Rebedea, Christopher Parisien · PDF
PrefDisco: Evaluating Proactive Personalization through Interactive Preference Discovery
Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov · PDF
Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs
Shuhang Xu, Weijian Deng, Yixuan Zhou, Fangwei Zhong · PDF
PyVision: Agentic Vision with Dynamic Tooling
Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei · PDF
Quantifying Information Gain and Redundancy in Multi-Turn LLM Conversations
Abhiram Rao Gorle, Amit Kumar Singh Yadav, Tsachy Weissman · PDF
RAFFLES: Reasoning-based Attribution of Faults for LLM Systems
Chenyang Zhu, Spencer Hong, Jingyu Wu, Kushal Chawla, Yuhui Tang, Youbing Yin, Nathan Wolfe, Erin Babinsky, Daben Liu · PDF
RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users
Suyu Ye, Haojun Shi, Darren Shih, Hyokun Yun, Tanya G. Roosta, Tianmin Shu · PDF
RefineBench: Evaluating Refinement Capability in Language Models
Young-Jun Lee, Seungone Kim, Byung-Kwan Lee, Minkyeong Moon, Yechan Hwang, Jong Myoung Kim, Graham Neubig, Sean Welleck, Ho-Jin Choi · PDF
REFRAG: Rethinking RAG based Decoding
Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan · PDF
Reinforced Reasoning for Interactive Multi-step Embodied Planning
Di Wu, Jiaxin Fan, Junzhe Zang, Guanbo Wang, Wei Yin, Wenhao Li, Bo Jin · PDF
Reinforcement Learning for Long-Horizon Multi-Turn Search Agents
Vivek Kalyan, Martin Andrews · PDF
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design and Credit Assignment
Quan Wei, Siliang Zeng, Chenliang Li, William Brown, Oana Frunza, Wei Deng, Yuriy Nevmyvaka, Yang Katie Zhao, Alfredo Garcia, Mingyi Hong · PDF
Saying the Unsaid: Revealing the Hidden Language of Multimodal Systems Through Telephone Games
Juntu Zhao, Jialing Zhang, Chongxuan Li, Dequan Wang · PDF
Scalability of LLM-Based Multi-Agent Systems for Scientific Code Generation: A Preliminary Study
Yuru wang, Kaiyan Zhang, Kai Tian, Sihang Zeng, Xingtai Lv, Ning Ding, Biqing Qi, Bowen Zhou · PDF
Semantic Context for Tool Orchestration
Robert Müller · PDF
SENTINEL: Sentiment Evolution and Narrative Tracking in Extended LLM Interactions
Pranav Anuraag, Ethan Xu, Alexander Arutchev, Asher Nerenberg · PDF
Show or Tell? Interactive Task Learning with Large Language Models
Jacob Sansom, Muhammad Khalifa, Honglak Lee, Joyce Chai · PDF
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun MA, Bo An · PDF
SkyRL-SQL: Multi-turn SQL Data Agents via RL
Shu Liu, Alan Zhu, Sumanth Hegde, Shiyi Cao, Shuo Yuan, Samion Suwito, Tyler Griggs, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica · PDF
SMAGDi: Socratic Multi Agent Interaction Graph Distillation for Efficient High Accuracy Reasoning
Aayush Aluru, Myra N. Malik, Samarth Patankar, Spencer Kim, Kevin Zhu, Vasu Sharma, Sean O'Brien · PDF
Sotopia-RL: Reward Design for Social Intelligence
Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You · PDF
Stability of Preference Alignment for Multi-Turn Control with LLM Policies
Andrew Silva, Pradyumna Tambwekar, Deepak Edakkattil Gopinath, Jonathan DeCastro, Guy Rosman, Avinash Balachandran · PDF
StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production–Living Simulations with Stardew Valley
Weihao Tan, Changjiu Jiang, Yu Duan, Mingcong Lei, Li JiaGeng, Yitian Hong, Xinrun Wang, Bo An · PDF
State-Induced Risk Amplification of AI Agents
Rebecka Nordenlöw, Takayuki Osogami, Lauren Quigley, Sara E. Berger, Rachel K. E. Bellamy · PDF
Stop-RAG: Value-Based Retrieval Control for Iterative RAG
Jaewan Park, Solbee Cho, Jay-Yoon Lee · PDF
Studying Coordination and Collusion in Multi-Agent LLM Code Reviews
Jennifer Za, Aristeidis Panos, Roger Dearnaley, Samuel Albanie · PDF
Task Completion Agents are Not Ideal Collaborators
Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn J Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag · PDF
Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs
Chenxing Wei, Hong Wang, Ying Tiffany He, Fei Yu, Yao Shu · PDF
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets
Shenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei · PDF
The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models
Shivam Ratnakar, Sanjay Raghavendra · PDF
The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping · PDF
The Influence of Scaffolds on Coordination Scaling Laws in LLM Agents
Mariana Meireles, Rupali Bhati, Niklas Lauffer, Cameron Allen · PDF
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar · PDF
TOD-ProcBench: Benchmarking Complex Instruction-Following in Task-Oriented Dialogues
Sarik Ghazarian, Abhinav Gullapalli, Swair Shah, Anurag Beniwal, Nanyun Peng, Narayanan Sadagopan, Zhou Yu · PDF
ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark
Vaskar Nath, Pranav Vishnu Raja, Jane Yu, Claire Yoon, Sean M. Hendryx · PDF
Toward Community-Driven Agents for Machine Learning Engineering
Sijie Li, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang · PDF
Tracing Coordination Dynamics in Multi-Turn LLM Discussions
Angelina Parfenova, Jürgen Pfeffer, Alexander Denzler · PDF
Traxgen: Ground-Truth Trajectory Generation for AI Agent Evaluation
Maria Emilia Mazzolenis, Ruirui Zhang · PDF
User-Assistant Bias in LLMs
Xu Pan, Jingxuan Fan, Zidi Xiong, Ely Hahami, Jorin Overwiening, Ziqian Xie · PDF
Verlog: Context-lite Multi-turn Reinforcement Learning framework for Long-Horizon LLM Agents
Wentse Chen, Jiayu Chen, Hao Zhu, Jeff Schneider · PDF
VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning
Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou · PDF
WebGraphEval: Multi-Turn Trajectory Evaluation for Web Agents using Graph Representation
Yaoyao Qian, Yuanli Wang, Jinda Zhang, Yun Zong, Meixu Chen, Hanhan Zhou, Jindan Huang, Yifan Zeng, Xinyu Hu, Chan Hee Song, Danqing Zhang · PDF
WEBSERV: A Browser-Server Environment for Efficient Training of Reinforcement Learning-based Web Agents at Scale
Yuxuan Lu, Jing Huang, Hui Liu, Jiri Gesi, Yan Han, Shihan Fu, Tianqi Zheng, Dakuo Wang · PDF
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities
Wendong Bu, Yang Wu, Qifan Yu, Minghe Gao, Bingchen Miao, Zhenkui Zhang, Kaihang Pan, Yunfei Li, Mengze Li, Wei Ji, Juncheng Li, Siliang Tang, Yueting Zhuang · PDF
WOLF: Werewolf-based Observations for LLM Deception and Falsehoods
Mrinal Agarwal, Saad Rana, Theo Sundoro, Hermela Berhe, Spencer Kim, Vasu Sharma, Sean O'Brien, Kevin Zhu · PDF

Accepted papers (122)

☆$\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning

☆$\textit{The Traitors}$: Deception and Trust in Multi-Agent Language Model Simulations

☆A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations

☆A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

☆A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation

☆AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI

☆AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

☆AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs

☆Alignment via Competition: Emergent Alignment from Differently Misaligned Agents

☆Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting

☆Are LLMs Generalist Hanabi Agents?

☆AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation

☆AURA: A Diagnostic Framework for Tracking User Satisfaction of Interactive Planning Agents

☆Automating Deception: Scalable Multi-Turn LLM Jailbreaks

☆Benchmarking Correctness and Security in Multi-Turn Code Generation

☆Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

☆BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

☆BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks

☆CaRT: Teaching LLM Agents to Know When They Know Enough

☆CEDA: Cross-modal Evaluation through Debate Agents for Robust Hallucination Detection

☆Characterization and Detection of Incompleteness and Ambiguity in Multi-Turn Interactions with LLMs

☆ChatCLIDS: Simulating Persuasive AI Dialogues to Promote Closed-Loop Insulin Adoption in Type 1 Diabetes Care

☆Collaborative Prediction: Tractable Information Aggregation via Agreement

☆ConDABench: Interactive Evaluation of Language Models for Data Analysis

☆Conformity, Inertia, and Value Alignment in Multi-Turn LLM Deliberation

☆CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures

☆CRMWeaver: Building Powerful Business Agent via Agentic RL and Shared Memories

☆Customer-R1: personalized simulation of Human Behaviors via RL-based LLM Agent in Online Shopping

☆Delay-of-Gratification as a Multi-Agent Survival Micro-benchmark for Long-Horizon LLMs: Social Exposure, Personas, and Tool Use Budgets

☆DeLLMphi: A Multi-Turn Method for Multi-Agent Forecasting

☆Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

☆Disclosure Audits for LLM Agents

☆Do Large Language Models Defend Their Beliefs Consistently?

☆Efficient Reinforcement Learning for Optimizing Multi-turn Student Outcomes with LLM Tutors

☆ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

☆Estimating the Empowerment of Language Model Agents

☆ExploraTutor: A Dataset for Children’s Exploratory Dialogue by Integrating Multiple Educational theories

☆Exploring exploration with foundation agents in interactive environments

☆Fathom-Search-4B: Scaling DeepSearch Reasoning Capabilities via RL

☆Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions

☆FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management

☆Goal Alignment in LLM-Based User Simulators for Conversational AI

☆Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs

☆How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ -bench

☆How to Train Your LLM Web Agent: A Statistical Diagnosis

☆Improved Multi-Agent Collaboration with Multi-Turn Reinforcement Learning

☆Improving Language Agents through BREW: Bootstrapping expeRientially-learned Environmental knoWledge

☆Interleaved Reasoning for Large Language Models via Reinforcement Learning

☆It's LIT! Reliability-Optimized LLMs with Inspectable Tools

☆Language Models Rate Their Own Actions As Safer

☆Large Language Models Develop Novel Social Biases Through Adaptive Exploration

☆Learning to be Proactive from Missed User-Signals in Multi-turn Dialogues

☆Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

☆Let’s Try Again: Eliciting Multi-Turn Reasoning in Language Models via Simplistic Feedback

☆Leveraging In-Context Learning for Language Model Agents

☆LLM Rationalis? Measuring bargaining capabilities of AI negotiators

☆MAC: A Multi-Agent Framework for Interactive User Clarification in Multi-turn Conversations

☆MAREval: A Multi-Agent Framework for Evaluating Natural Language Recommendation Explanations

☆MELISSA: Multi-level Evaluation with LLM-based Integrated Self-Scrutiny and Auditing

☆MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

☆Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

☆Modeling and Predicting Multi-Turn Answer Instability in Large Language Models

☆Multi-Agent-as-Judge: Aligning LLM-Agent-Based Automated Evaluation with Multi-Dimensional Human Evaluation

☆Multi-Turn Human–LLM Interaction Through the Lens of a Two-Way Intelligibility Protocol

☆Multi-Turn LLM Systems for Diagnostic Decision-Making: Considerations, Biases, and Challenges

☆MultiScale Contextual Bandits for Long Term Objectives

☆ObjexMT: Objective Extraction and Metacognitive Calibration for LLM‑as‑a‑Judge under Multi‑Turn Jailbreaks

☆Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users

☆One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning

☆Open-Universe Assistance Games

☆OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

☆Optimizing for Persuasion Improves LLM Generalization: Evidence from Quality-Diversity Evolution of Debate Strategies

☆OrchDAG: Complex Tool Orchestration in Multi-Turn Interactions with Plan DAGs

☆Orchestrator: Active Inference for Multi-Agent Systems in Long-Horizon Tasks

☆ParetoMIL: Early Risk Detection in Dialogue under Weak Supervision

☆PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time

☆Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models

☆Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies

☆PrefDisco: Evaluating Proactive Personalization through Interactive Preference Discovery

$\mathbf{T^3}$: Reducing Belief Deviation in Reinforcement Learning for Active Reasoning

$\textit{The Traitors}$: Deception and Trust in Multi-Agent Language Model Simulations

A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation

AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs

Alignment via Competition: Emergent Alignment from Differently Misaligned Agents

Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting

Are LLMs Generalist Hanabi Agents?

AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation

AURA: A Diagnostic Framework for Tracking User Satisfaction of Interactive Planning Agents

Automating Deception: Scalable Multi-Turn LLM Jailbreaks

Benchmarking Correctness and Security in Multi-Turn Code Generation

Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks

CaRT: Teaching LLM Agents to Know When They Know Enough

CEDA: Cross-modal Evaluation through Debate Agents for Robust Hallucination Detection

Characterization and Detection of Incompleteness and Ambiguity in Multi-Turn Interactions with LLMs

ChatCLIDS: Simulating Persuasive AI Dialogues to Promote Closed-Loop Insulin Adoption in Type 1 Diabetes Care

Collaborative Prediction: Tractable Information Aggregation via Agreement

ConDABench: Interactive Evaluation of Language Models for Data Analysis

Conformity, Inertia, and Value Alignment in Multi-Turn LLM Deliberation

CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures

CRMWeaver: Building Powerful Business Agent via Agentic RL and Shared Memories

Customer-R1: personalized simulation of Human Behaviors via RL-based LLM Agent in Online Shopping

Delay-of-Gratification as a Multi-Agent Survival Micro-benchmark for Long-Horizon LLMs: Social Exposure, Personas, and Tool Use Budgets

DeLLMphi: A Multi-Turn Method for Multi-Agent Forecasting

Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

Disclosure Audits for LLM Agents

Do Large Language Models Defend Their Beliefs Consistently?

Efficient Reinforcement Learning for Optimizing Multi-turn Student Outcomes with LLM Tutors

ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

Estimating the Empowerment of Language Model Agents

ExploraTutor: A Dataset for Children’s Exploratory Dialogue by Integrating Multiple Educational theories

Exploring exploration with foundation agents in interactive environments

Fathom-Search-4B: Scaling DeepSearch Reasoning Capabilities via RL

Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions

FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management

Goal Alignment in LLM-Based User Simulators for Conversational AI

Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs

How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ -bench

How to Train Your LLM Web Agent: A Statistical Diagnosis

Improved Multi-Agent Collaboration with Multi-Turn Reinforcement Learning

Improving Language Agents through BREW: Bootstrapping expeRientially-learned Environmental knoWledge

Interleaved Reasoning for Large Language Models via Reinforcement Learning

It's LIT! Reliability-Optimized LLMs with Inspectable Tools

Language Models Rate Their Own Actions As Safer

Large Language Models Develop Novel Social Biases Through Adaptive Exploration

Learning to be Proactive from Missed User-Signals in Multi-turn Dialogues

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Let’s Try Again: Eliciting Multi-Turn Reasoning in Language Models via Simplistic Feedback

Leveraging In-Context Learning for Language Model Agents

LLM Rationalis? Measuring bargaining capabilities of AI negotiators

MAC: A Multi-Agent Framework for Interactive User Clarification in Multi-turn Conversations

MAREval: A Multi-Agent Framework for Evaluating Natural Language Recommendation Explanations

MELISSA: Multi-level Evaluation with LLM-based Integrated Self-Scrutiny and Auditing

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Modeling and Predicting Multi-Turn Answer Instability in Large Language Models

Multi-Agent-as-Judge: Aligning LLM-Agent-Based Automated Evaluation with Multi-Dimensional Human Evaluation

Multi-Turn Human–LLM Interaction Through the Lens of a Two-Way Intelligibility Protocol

Multi-Turn LLM Systems for Diagnostic Decision-Making: Considerations, Biases, and Challenges

MultiScale Contextual Bandits for Long Term Objectives

ObjexMT: Objective Extraction and Metacognitive Calibration for LLM‑as‑a‑Judge under Multi‑Turn Jailbreaks

Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users

One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning

Open-Universe Assistance Games

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

Optimizing for Persuasion Improves LLM Generalization: Evidence from Quality-Diversity Evolution of Debate Strategies

OrchDAG: Complex Tool Orchestration in Multi-Turn Interactions with Plan DAGs

Orchestrator: Active Inference for Multi-Agent Systems in Long-Horizon Tasks

ParetoMIL: Early Risk Detection in Dialogue under Weak Supervision

PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time

Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models

Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies

PrefDisco: Evaluating Proactive Personalization through Interactive Preference Discovery

Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs