NeurIPS 2025PastAgents

Workshop on Scaling Environments for Agents

SEA @ NeurIPS 2025

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 3, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (93)

Fetched from OpenReview (v2) on 2026-06-10.

A Multi-agent Reasoning Framework for Video Question Answering
Abhi Kamboj, Gaurav Kumar, Krista Holden, Madhumitha Saravanan, Pradyumna Narayana · PDF
Agent Context Protocols Enhance Collective Inference
Arjun Beniwal, Devansh Bhardwaj, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Karthik R Narasimhan, Ameet Deshpande, Vishvak Murahari · PDF
AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration
Harish Karthikeyan, Yue Guo, Udari Madhushani Sehwag, Leo de Castro, Antigoni Polychroniadou, Leo Ardon, Sumitra Ganesh · PDF
Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios
Hareeshwar Karthikeyan · PDF
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song · PDF
All Life is Problem Creation: Learning to Generate Environments that Maximize Performance Gain
Titas Anciukevičius, Yuhui Wang, Piotr Piękos, Li Nanbo, Wenyi Wang, Jürgen Schmidhuber · PDF
Are LLMs Generalist Hanabi Agents?
Mahesh Ramesh, Aswinkumar Ramkumar, Pavan Thodima, Kaousheik Jayakumar, Aniket Rege · PDF
Automated Specialization of Stateful Agent Systems
Myan Vu, Harrish Ayyanar, PANG JIANG, Anwiketh Reddy, Mayank Goel, Kevin Zhu · PDF
Beyond Fixed Tasks: Unsupervised Environment Design for Task-Level Pairs
Daniel Furelos-Blanco, Charles Pert, Frederik Kelbel, Alexander F Spies, Alessandra Russo, Michael D Dennis · PDF
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Agam Bhatia, Ying Li, Aditi Bhaskar, Mohammed Zaman, Noah Goodman · PDF
BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair
Xianghe Pang, Shuo Tang, Rui Ye, Yuwen Du, Yaxin Du, Siheng Chen · PDF
Characterizing Deep Research: A Benchmark and Formal Definition
Abhinav Java, Ashmit Khandelwal, Sukruta Prakash Midigeshi, Aaron Halfaker, Amit Deshpande, Navin Goyal, Ankur Gupta, Nagarajan Natarajan, Amit Sharma · PDF
ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning
Jie-Jing Shao, Bo-Wen Zhang, Xiao-Wen Yang, Baizhi Chen, Siyu Han, Wen-Da Wei, Guohao Cai, Zhenhua Dong, Lan-Zhe Guo, Yu-Feng Li · PDF
Co-Evolving Complexity: An Adversarial Framework for Automatic MARL Curricula
Brennen Hill · PDF
Code2MCP: Transforming Code Repositories into MCP Services
Chaoqian Ouyang, Ling Yue, Shimin Di, Libin Zheng, Shaowu Pan, Min-Ling Zhang · PDF
CoLLAB: A Framework for Designing Scalable Benchmarks for Agentic LLMs
Saaduddin Mahmud, Eugene Bagdasarian, Shlomo Zilberstein · PDF
Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models
Brennen Hill, Mant Koh En Wei, Jishnuanandh Thangavel · PDF
CUBE: Collaborative Multi-Agent Block-Pushing Environment for Collective Planning with LLM Agents
Hanqing Yang, Narjes Nourzad, Shiyu Chen, Carlee Joe-Wong · PDF
DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates
Yun-Shiuan Chuang, Ruixuan Tu, Chengtao Dai, Smit Vasani, Binwei Yao, Michael Henry Tessler, Sijia Yang, Dhavan V. Shah, Robert D. Hawkins, Junjie Hu, Timothy T. Rogers · PDF
DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments
Chiyu Zhang, Marc-Alexandre Côté, Michael Albada, Anush Sankaran, Jack W Stokes, Tong Wang, Amir H. Abdi, William Blum, Muhammad Abdul-Mageed · PDF
Enabling multi-agent collaboration in knowledge graph environments
Iñaki Arango, Ayush Noori, Lucas Vittor, Joaquin Polonuer, Marinka Zitnik · PDF
Enabling User-Created Multi-Agent Simulations: Interactive and Customizable 2D Environments to Study Team Dynamics with LLM Agents
Mohammed Almutairi, Charles Chiang, Haoze Guo, Nandini Banerjee, Maria Milkowski, Daniel Nguyen, Michael G Yankoski, Tim Weninger, Svitlana Volkova, Trenton W. Ford, Diego Gomez-Zara · PDF
EVOLVE-MEM: A Self-Adaptive Hierarchical Memory Architecture for Next-Generation Agentic AI Systems
Rishi Ashish Shah, Ujjwal Kakar, Shashvat Singhal, Dinesh K Vishwakarma · PDF
Examining the Vulnerability of Multi-Agent Medical Systems to Human Interventions for Clinical Reasoning
Benjamin Liu, Dillon Mehta, Rishi Malhotra, Adam Zobian, Yong Ying Tan, Samir Chopra, Daniella Rand, Natalie Pang, Abhiram Gudimella, Raghav Thallapragada, Derek Jiu, Prisha Shah, Kevin Zhu · PDF
Exploring Personality Trait Change of LLM-Based AI Systems
Yuhan Ma, Junjie Wang · PDF
Faithful Simulation of User–Agent–Environment Interactions for Scalable LLM Agent Evaluation
Aleksei Kudrinskii, Saibo Geng, Luca Beurer-Kellner, Marc Fischer · PDF
Fathom-Search-4B: Scaling DeepSearch Reasoning Capabilities via RL
Shreyas Singh, Kunal Singh, Pradeep Moturi · PDF
GEM: A Gym for Agentic LLMs
Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Haotian Xu, Simon Yu, Chenmien Tan, Shaopan Xiong, Weixun Wang, Bo Liu, Hao Zhu, Weiyan Shi, Diyi Yang, Wee Sun Lee, Min Lin · PDF
GLEE: A Unified Framework and Benchmark for Language-based Economic Environments
Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz · PDF
Go-Browse: Training Web Agents with Structured Exploration
Apurva Gandhi, Graham Neubig · PDF
GR-Agent: Adaptive Graph Reasoning Agent under Incomplete Knowledge
Dongzhuoran Zhou, Yuqicheng Zhu, Xiaxia Wang, Hongkuan Zhou, Jiaoyan Chen, Steffen Staab, Yuan He, Evgeny Kharlamov · PDF
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Guohao Li, Zhen Han, Volker Tresp · PDF
IndusGCC: A Data Benchmark and Evaluation Framework for GUI-Based General Computer Control in Industrial Automation
Xiaoran Yang, Yuyang Du, Kexin Chen, Soung Chang Liew, Jiamin Lu, Ziyu Guo, Xiaoyan Liu, Qun Yang, Shiqi XU, Xingyu Fan, Yuchen Pan, Taoyong Cui, Hongyu Deng, Boris Düdder, Jianzhang Pan, Qun Fang, Pheng-Ann Heng · PDF
Learning to Make Friends: Coaching LLM Agents toward Emergent Social Ties
Philipp J. Schneider, LIN TIAN, Marian-Andrei Rizoiu · PDF
Licence to Scale: A Microservice Simulation Environment for Benchmarking Agentic AI
Christopher Lohse, Adrian Selk, Amadou Ba, Jonas Wahl, Marco Ruffini · PDF
LLM Economist: Large Population Models and Mechanism Design in Multi-Agent Generative Simulacra
Seth Karten, Wenzhe Li, Zihan Ding, Samuel Kleiner, Yu Bai, Chi Jin · PDF
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
Yiming Wang, Da Yin, Yuedong Cui, Zhiqian Li, Ruichen Zheng, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang · PDF
Ludax: A GPU-Accelerated Domain Specific Language for Board Games
Graham Todd, Alexander George Padula, Dennis J. N. J. Soemers, Julian Togelius · PDF
MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization
Yichen Han, Bojun Liu, Zhengpeng zhou, Guanyu Liu, Zeng Zhang, Yang Yang, Wenli Wang, Isaac N Shi, Yunyan, Lewei He, TIANYU SHI · PDF
MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision
Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty · PDF
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow · PDF
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li · PDF
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
Darshan Girish Deshpande, Varun Prashant Gangal, Hersh Mehta, Jędrzej Rosłaniec, Anand Kannappan, Rebecca Qian, Peng Wang · PDF
MIRAI: Evaluating LLM Agents for International Event Forecasting
Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang · PDF
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji · PDF
Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation
Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang · PDF
Model Context Protocol for Vision Agents: Schema, Memory, and World Model Implications
Aditi Tiwari, Akshit Bhalla · PDF
Natural Language Grounded Reinforcement Learning for Clinical Decision-Making in Virtual Patient Simulations
Niyel Hassan, Benjamin Liu, Jason Tsai, Jeffrey K Jopling, Dana Lin, Edward Melcer, Cara Liebert · PDF
On the Importance of Task Complexity in Evaluating LLM-Based Multi-Agent Systems
Bohan Tang, Huidong Liang, Keyue Jiang, Xiaowen Dong · PDF
OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation
Ziyi Wang, Yuxuan Lu, Wenbo Li, Amirali Amini, Bo Sun, Yakov Bart, Weimin Lyu, Jiri Gesi, Tian Wang, Jing Huang, Yu Su, Upol Ehsan, Malihe Alikhani, Toby Jia-Jun Li, Lydia Chilton, Dakuo Wang · PDF
Paper2Video: Automatic Video Generation from Scientific Papers
Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou · PDF
Player-Coach Teamwork: Multi-agent Collaboration for Improving LLM Reasoning
Heewon Park, Minhae Kwon · PDF
PrivacyMAS: A Privacy-Preserving Multi-Agent System Framework
Maryam Fatima · PDF
Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents
Jacopo Teneggi, Tanya Marwah, Alberto Bietti, P. Douglas Renfrew, Vikram Khipple Mulligan, Siavash Golkar · PDF
PuzzleJAX: A Benchmark for Reasoning and Learning
Sam Earle, Graham Todd, Yuchen Li, Ahmed Khalifa, Zehua Jiang, Muhammad Umair Nasir, Andrzej Banburski-Fahey, Julian Togelius · PDF
RAISE: Reliable Agent Improvement via Simulated Experience
Sahar Omidi Shayegan, Joshua Meyer, Victor Shih, Sebastian Sosa, Tianyi Peng, Kostis Kaffes, Eugene Wu, Andi Partovi, Mehdi Jamei · PDF
RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users
Suyu Ye, Haojun Shi, Darren Shih, Hyokun Yun, Tanya G. Roosta, Tianmin Shu · PDF
ReMAC: Large Language Model-Driven Reward Design for Multi-Agent Manipulation Collaboration
Pengyi Li, Hongyao Tang, Yifu Yuan, Jianye HAO · PDF
Revisiting Boids for Emergent Intelligence via Multi-Agent Collaborative Tool-Building
Xisen Wang, Qi Zhang · PDF
Revisiting Uncertainty Estimation and Calibration of Large Language Models
Linwei Tao, Yi-Fan Yeh, Minjing Dong, Tao Huang, Jialin Yu, Philip Torr, Chang Xu · PDF
RPGBENCH: Evaluating Large Language Models as Role-Playing Game Engines
Pengfei Yu, Dongming Shen, Silin Meng, Jaewon Lee, Weisu Yin, Andrea Yaoyun Cui, Zhenlin Xu, Yi Zhu, Xingjian Shi, Mu Li, Alex Smola · PDF
Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey
Yuchen Huang, Sijia Li, Minghao LIU, Wei Liu, Zhiyuan Fan, Yi R. Fung · PDF
Scaling Open-Ended Reasoning to Predict the Future
Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping · PDF
SEA: Stateful Execution Environment for Conversational Big Data Analytics
Rohit Kumar, Ajay Anil Kumar · PDF
SEDM: Scalable Self-Evolving Distributed Memory for Agents
Haoran Xu, Jiacong Hu, ZHANG Ke, Lei Yu, Yuxin Tang, Xinyuan Song, Yiqun Duan, Lynn Ai, TIANYU SHI · PDF
See, Think, Act: Online Shopper Behavior Simulation with VLM Agents
Yimeng Zhang, Ziyi Wang, Yuxuan Lu, Simon Sinong Zhan, Jing Huang, Dakuo Wang · PDF
Shaping Smart Personal Assistants through Generative Interactive Environments for Scalable Design and Evaluation
Ziyi Xuan, Yiwen Wu, Vinod Namboodiri, Yu Yang · PDF
Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
Yimeng Zhang, Ziyi Wang, Yuxuan Lu, Simon Sinong Zhan, Dakuo Wang · PDF
Similar: A Step-Wise, Multi-Dimensional Reward Model for Virtual Agent Learning and Reasoning
Bingchen Miao, Yang Wu, Minghe Gao, Qifan Yu, Wendong Bu, Wenqiao Zhang, Yunfei Li, Siliang Tang, Tat-Seng Chua, Juncheng Li · PDF
SimuGen: Multi-modal Agentic Framework for Constructing Block Diagram-Based Simulation Models
Xinxing Ren, Qianbo Zang, Zekun Guo · PDF
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards
Hunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark · PDF
Steering Diffusion Policies with Value-Guided Denoising
Hanming Ye · PDF
The Influence of Scaffolds on Coordination Scaling Laws in LLM Agents
Mariana Meireles, Rupali Bhati, Niklas Lauffer, Cameron Allen · PDF
The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum
Brennen Hill · PDF
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar · PDF
Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning
Josefa Lia Stoisser, Marc Boubnovski Martell, Lawrence Phillips, Gianluca Mazzoni, Lea Mørch Harder, Philip Torr, Jesper Ferkinghoff-Borg, Kaspar Märtens, Julien Fauqueur · PDF
Traxgen: Ground-Truth Trajectory Generation for AI Agent Evaluation
Maria Emilia Mazzolenis, Ruirui Zhang · PDF
TutorTest: Evaluating Language Model-based Tutoring Policies Using Surrogate Tasks
Aishwarya Mandyam · PDF
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Tong Che, Dimitris N. Metaxas · PDF
UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs
Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach · PDF
UserBench: An Interactive Gym Environment for User-Centric Agents
Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Huan Wang · PDF
VendiRL: A Framework for Self-Supervised Reinforcement Learning of Diversely Diverse Skills
Erik M. Lintunen · PDF
Verifiable Chemical Reasoning through Tool-Calling Agentic Workflow
Gabrielle Gaudeau, Shinnosuke Tanaka, Defne Circi, Ian W Kennedy, Movina Moses, Mohab Elkaref · PDF
VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT
Zhuo Zhi, Qiangqiang Wu, Minghe Shen, Wenbo Li, Yinchuan Li, Kun Shao, Kaiwen Zhou · PDF
Vision-Language Models Unlock Task-Centric Latent Actions
Alexander Nikulin, Ilya Zisman, Albina Klepach, Denis Tarasov, Alexander Derevyagin, Andrei Polubarov, Lyubaykin Nikita, Vladislav Kurenkov · PDF
WebArena Verified: Reliable Evaluation for Web Agents
Amine El hattami, Megh Thakkar, Nicolas Chapados, Christopher Pal · PDF
What Limits Agentic Systems Efficiency?
Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman · PDF
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities
Wendong Bu, Yang Wu, Qifan Yu, Minghe Gao, Bingchen Miao, Zhenkui Zhang, Kaihang Pan, Yunfei Li, Mengze Li, Wei Ji, Juncheng Li, Siliang Tang, Yueting Zhuang · PDF
When Agents go Astray: Course-Correcting SWE Agents with PRMs
Shubham Gandhi, Jason Tsay, Jatin Ganhotra, Kiran Kate, Yara Rizk · PDF
When Developer Aid Becomes Security Debt: A Systematic Analysis of Insecure Behaviors in LLM Coding Agents
Matous Kozak, Roshanak Zilouchian Moghaddam, Kalpathy Sivaraman · PDF
You Don't Know Until You Click: Automated GUI Testing for Production-Ready Software Evaluation
Yutong Bian, Xianhao Lin, Yupeng Xie, Tianyang Liu, Mingchen Zhuge, Siyuan Lu, Haoming Tang, Jinlin Wang, Jiayi Zhang, Jiaqi Chen, Xiangru Tang, Yongxin Ni, Sirui Hong, Chenglin Wu · PDF
YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models
Lei Wang, Heyang Gao, Xiaohe Bo, Xu Chen, Ji-Rong Wen · PDF
Zephyrus: An Agentic Framework for Weather Science
Sumanth Varambally, Marshall Fisher, Jas Thakker, Yiwei Chen, Zhirui Xia, Ruijia Niu, Yasaman Jafari, Veeramakali Vignesh Manivannan, Zachary Novack, Luyu Han, Srikar Eranky, Salva Rühling Cachay, Taylor Berg-Kirkpatrick, Duncan Watson-Parris, Yian Ma, Rose Yu · PDF

Accepted papers (93)

☆A Multi-agent Reasoning Framework for Video Question Answering

☆Agent Context Protocols Enhance Collective Inference

☆AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration

☆Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios

☆AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

☆All Life is Problem Creation: Learning to Generate Environments that Maximize Performance Gain

☆Are LLMs Generalist Hanabi Agents?

☆Automated Specialization of Stateful Agent Systems

☆Beyond Fixed Tasks: Unsupervised Environment Design for Task-Level Pairs

☆BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

☆BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair

☆Characterizing Deep Research: A Benchmark and Formal Definition

☆ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

☆Co-Evolving Complexity: An Adversarial Framework for Automatic MARL Curricula

☆Code2MCP: Transforming Code Repositories into MCP Services

☆CoLLAB: A Framework for Designing Scalable Benchmarks for Agentic LLMs

☆Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

☆CUBE: Collaborative Multi-Agent Block-Pushing Environment for Collective Planning with LLM Agents

☆DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates

☆DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

☆Enabling multi-agent collaboration in knowledge graph environments

☆Enabling User-Created Multi-Agent Simulations: Interactive and Customizable 2D Environments to Study Team Dynamics with LLM Agents

☆EVOLVE-MEM: A Self-Adaptive Hierarchical Memory Architecture for Next-Generation Agentic AI Systems

☆Examining the Vulnerability of Multi-Agent Medical Systems to Human Interventions for Clinical Reasoning

☆Exploring Personality Trait Change of LLM-Based AI Systems

☆Faithful Simulation of User–Agent–Environment Interactions for Scalable LLM Agent Evaluation

☆Fathom-Search-4B: Scaling DeepSearch Reasoning Capabilities via RL

☆GEM: A Gym for Agentic LLMs

☆GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

☆Go-Browse: Training Web Agents with Structured Exploration

☆GR-Agent: Adaptive Graph Reasoning Agent under Incomplete Knowledge

☆GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

☆IndusGCC: A Data Benchmark and Evaluation Framework for GUI-Based General Computer Control in Industrial Automation

☆Learning to Make Friends: Coaching LLM Agents toward Emergent Social Ties

☆Licence to Scale: A Microservice Simulation Environment for Benchmarking Agentic AI

☆LLM Economist: Large Population Models and Mechanism Design in Multi-Agent Generative Simulacra

☆LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

☆Ludax: A GPU-Accelerated Domain Specific Language for Board Games

☆MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization

☆MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

☆MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

☆MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

☆MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

☆MIRAI: Evaluating LLM Agents for International Event Forecasting

☆Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

☆Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation

☆Model Context Protocol for Vision Agents: Schema, Memory, and World Model Implications

☆Natural Language Grounded Reinforcement Learning for Clinical Decision-Making in Virtual Patient Simulations

☆On the Importance of Task Complexity in Evaluating LLM-Based Multi-Agent Systems

☆OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

☆Paper2Video: Automatic Video Generation from Scientific Papers

☆Player-Coach Teamwork: Multi-agent Collaboration for Improving LLM Reasoning

☆PrivacyMAS: A Privacy-Preserving Multi-Agent System Framework

☆Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

☆PuzzleJAX: A Benchmark for Reasoning and Learning

☆RAISE: Reliable Agent Improvement via Simulated Experience

☆RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users

☆ReMAC: Large Language Model-Driven Reward Design for Multi-Agent Manipulation Collaboration

☆Revisiting Boids for Emergent Intelligence via Multi-Agent Collaborative Tool-Building

☆Revisiting Uncertainty Estimation and Calibration of Large Language Models

☆RPGBENCH: Evaluating Large Language Models as Role-Playing Game Engines

☆Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey

☆Scaling Open-Ended Reasoning to Predict the Future

☆SEA: Stateful Execution Environment for Conversational Big Data Analytics

☆SEDM: Scalable Self-Evolving Distributed Memory for Agents

☆See, Think, Act: Online Shopper Behavior Simulation with VLM Agents

☆Shaping Smart Personal Assistants through Generative Interactive Environments for Scalable Design and Evaluation

☆Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning

☆Similar: A Step-Wise, Multi-Dimensional Reward Model for Virtual Agent Learning and Reasoning

☆SimuGen: Multi-modal Agentic Framework for Constructing Block Diagram-Based Simulation Models

☆SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

☆Steering Diffusion Policies with Value-Guided Denoising

☆The Influence of Scaffolds on Coordination Scaling Laws in LLM Agents

☆The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum

☆Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

☆Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning

☆Traxgen: Ground-Truth Trajectory Generation for AI Agent Evaluation

☆TutorTest: Evaluating Language Model-based Tutoring Policies Using Surrogate Tasks

☆Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning

A Multi-agent Reasoning Framework for Video Question Answering

Agent Context Protocols Enhance Collective Inference

AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration

Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

All Life is Problem Creation: Learning to Generate Environments that Maximize Performance Gain

Are LLMs Generalist Hanabi Agents?

Automated Specialization of Stateful Agent Systems

Beyond Fixed Tasks: Unsupervised Environment Design for Task-Level Pairs

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair

Characterizing Deep Research: A Benchmark and Formal Definition

ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

Co-Evolving Complexity: An Adversarial Framework for Automatic MARL Curricula

Code2MCP: Transforming Code Repositories into MCP Services

CoLLAB: A Framework for Designing Scalable Benchmarks for Agentic LLMs

Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

CUBE: Collaborative Multi-Agent Block-Pushing Environment for Collective Planning with LLM Agents

DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates

DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

Enabling multi-agent collaboration in knowledge graph environments

Enabling User-Created Multi-Agent Simulations: Interactive and Customizable 2D Environments to Study Team Dynamics with LLM Agents

EVOLVE-MEM: A Self-Adaptive Hierarchical Memory Architecture for Next-Generation Agentic AI Systems

Examining the Vulnerability of Multi-Agent Medical Systems to Human Interventions for Clinical Reasoning

Exploring Personality Trait Change of LLM-Based AI Systems

Faithful Simulation of User–Agent–Environment Interactions for Scalable LLM Agent Evaluation

Fathom-Search-4B: Scaling DeepSearch Reasoning Capabilities via RL

GEM: A Gym for Agentic LLMs

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

Go-Browse: Training Web Agents with Structured Exploration

GR-Agent: Adaptive Graph Reasoning Agent under Incomplete Knowledge

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

IndusGCC: A Data Benchmark and Evaluation Framework for GUI-Based General Computer Control in Industrial Automation

Learning to Make Friends: Coaching LLM Agents toward Emergent Social Ties

Licence to Scale: A Microservice Simulation Environment for Benchmarking Agentic AI

LLM Economist: Large Population Models and Mechanism Design in Multi-Agent Generative Simulacra

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

Ludax: A GPU-Accelerated Domain Specific Language for Board Games

MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

MIRAI: Evaluating LLM Agents for International Event Forecasting

Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation

Model Context Protocol for Vision Agents: Schema, Memory, and World Model Implications

Natural Language Grounded Reinforcement Learning for Clinical Decision-Making in Virtual Patient Simulations

On the Importance of Task Complexity in Evaluating LLM-Based Multi-Agent Systems

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

Paper2Video: Automatic Video Generation from Scientific Papers

Player-Coach Teamwork: Multi-agent Collaboration for Improving LLM Reasoning

PrivacyMAS: A Privacy-Preserving Multi-Agent System Framework

Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

PuzzleJAX: A Benchmark for Reasoning and Learning

RAISE: Reliable Agent Improvement via Simulated Experience

RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users

ReMAC: Large Language Model-Driven Reward Design for Multi-Agent Manipulation Collaboration

Revisiting Boids for Emergent Intelligence via Multi-Agent Collaborative Tool-Building

Revisiting Uncertainty Estimation and Calibration of Large Language Models

RPGBENCH: Evaluating Large Language Models as Role-Playing Game Engines

Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey

Scaling Open-Ended Reasoning to Predict the Future

SEA: Stateful Execution Environment for Conversational Big Data Analytics

SEDM: Scalable Self-Evolving Distributed Memory for Agents

See, Think, Act: Online Shopper Behavior Simulation with VLM Agents

Shaping Smart Personal Assistants through Generative Interactive Environments for Scalable Design and Evaluation

Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning

Similar: A Step-Wise, Multi-Dimensional Reward Model for Virtual Agent Learning and Reasoning

SimuGen: Multi-modal Agentic Framework for Constructing Block Diagram-Based Simulation Models

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

Steering Diffusion Policies with Value-Guided Denoising

The Influence of Scaffolds on Coordination Scaling Laws in LLM Agents

The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning

Traxgen: Ground-Truth Trajectory Generation for AI Agent Evaluation

TutorTest: Evaluating Language Model-based Tutoring Policies Using Surrogate Tasks

Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs