ICML 2025PastOther

The Exploration in AI Today Workshop at ICML 2025

EXAIT@ICML 2025

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: Jun 1, 2025, 12:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (51)

Fetched from OpenReview (v2) on 2026-06-10.

A Diffusion Model to Shrink Proteins While Maintaining their Function
Ethan Baron, Alan Nawzad Amin, Ruben Weitzman, Debora Susan Marks, Andrew Gordon Wilson · PDF
Active Advantage-Aligned Online Reinforcement Learning with Offline Data
Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew Walter, Yuxin Chen · PDF
Align While Search: Belief-Guided Exploratory Inference for Test-Time World Alignment
Seohui Bae, Jeonghye Kim, Youngchul Sung, Woohyung Lim · PDF
Automated Data Selection for Efficient Cost Model Training to Optimize Sparse Matrix Kernels on Emerging Hardware Accelerators
Chamika Sudusinghe, Gerasimos Gerogiannis, Damitha Lenadora, Charles Block, Josep Torrellas, Charith Mendis · PDF
Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames
Ev Zisselman, Mirco Mutti, Shelly Francis-Meretzki, Elisei Shafer, Aviv Tamar · PDF
Branched Schrödinger Bridge Matching
Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee · PDF
Central Path Proximal Policy Optimization
Nikola Milosevic, Johannes Müller, Nico Scherf · PDF
Diffusion-Based Maximum Entropy Reinforcement Learning
Onur Celik, Zechu Li, Denis Blessing, Ge Li, Daniel Palenicek, Jan Peters, Georgia Chalvatzaki, Gerhard Neumann · PDF
Direct Regret Optimization in Bayesian Optimization
Fengxue Zhang, Yuxin Chen · PDF
DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
Leander Diaz-Bone, Marco Bagatella, Jonas Hübotter, Andreas Krause · PDF
Distances for Markov chains from sample streams
Sergio Calo, Anders Jonsson, Gergely Neu, Ludovic Schwartz, Javier Segovia-Aguas · PDF
Diversity By Design: Leveraging Distribution Matching for Offline Model-Based Optimization
Michael S Yao, James Gee, Osbert Bastani · PDF
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs
Amrith Setlur, Matthew Y. R. Yang, Charlie Victor Snell, Jeremiah Greer, Ian Wu, Virginia Smith, Max Simchowitz, Aviral Kumar · PDF
EVOLvE: Evaluating and Optimizing LLMs ForIn-Context Exploration
Allen Nie, Yi Su, Bo Chang, Jonathan Lee, Ed H. Chi, Quoc V Le, Minmin Chen · PDF
Exploration by Exploitation: Curriculum Learning for Reinforcement Learning Agents through Competence-Based Curriculum Policy Search
Tabitha Edith Lee, Nan Rosemary Ke, Sarvesh Patil, Annya Dahmani, Eunice Yiu, Esra'a Saleh, Alison Gopnik, Oliver Kroemer, Glen Berseth · PDF
Fleet of Agents: Coordinated Problem Solving with Large Language Models
Lars Henning Klein, Nearchos Potamitis, Roland Aydin, Robert West, Caglar Gulcehre, Akhil Arora · PDF
Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning
Riccardo De Santi, Marin Vlastelica, Ya-Ping Hsieh, Zebang Shen, Niao He, Andreas Krause · PDF
From Words to Rewards: Leveraging Natural Language for Reinforcement Learning
Belen Martin Urcelay, Andreas Krause, Giorgia Ramponi · PDF
G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning
Xiaojun Guo, Ang Li, Yifei Wang, Stefanie Jegelka, Yisen Wang · PDF
Greed is Good: A Unifying Perspective on Guided Generation
Zander W. Blasingame, Chen Liu · PDF
Improved Exploration in GFlownets via Enhanced Epistemic Neural Networks
Sajan Muhammad, Salem Lahlou · PDF
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM
Thang Duong, Minglai Yang, Chicheng Zhang · PDF
In-Context Learning for Pure Exploration
Alessio Russo, Ryan Welch, Aldo Pacchiano · PDF
Instance-Dependent Fixed-Budget Pure Exploration in Reinforcement Learning
Yeongjong Kim, Yeoneung Kim, Kwang-Sung Jun · PDF
Intent Factored Generation: Unleashing the Diversity in Your Language Model
Eltayeb Ahmed, Uljad Berdica, Martha Elliott, Danijela Horak, Jakob Nicolaus Foerster · PDF
Intrinsic Benefits of Categorical Distributional Loss: Uncertainty-aware Exploration in Reinforcement Learning towards Higher Moment Regularisations
Ke Sun, Yingnan Zhao, Enze Shi, Yafei Wang, Xiaodong Yan, Bei Jiang, Linglong Kong · PDF
Kevin: Multi-Turn RL for Generating CUDA Kernels
Carlo Baronio, Pietro Marsella, Ben Pan, Simon Guo, Silas Alberti · PDF
Llama-Nemotron: Efficient Reasoning Models
Soumye Singhal, Jiaqi Zeng, Alexander Bukharin, Yian Zhang, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Akhiad Bercovich, Itay Levy, Izik Golan, Mohammed Dabbah, Ran El-Yaniv, Somshubra Majumdar, Igor Gitman, Evelina Bakhturina, Jimmy J. Zhang, Bor-Yiing Su, Guyue Huang, Izzy Putterman, Mostofa Patwary, Oluwatobi Olabiyi, Olivier Delalleau, Bryan Catanzaro, Boris Ginsburg, Oleksii Kuchaiev, Tugrul Konuk · PDF
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu · PDF
No-Regret Safety: Balancing Tests and Misclassification in Logistic Bandits
Tavor Baharav, Spyros Dragazis, Aldo Pacchiano · PDF
Oracle-Efficient Adversarial Reinforcement Learning via Max-Following
Sikata Bela Sengupta, Zakaria Mhammedi, Teodor Vanislavov Marinov · PDF
Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors
Qiuyi Zhang, David Madras, Joshua Safyan · PDF
Provably Learning from Language Feedback
Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng · PDF
Reimagining Parameter Space Exploration with Diffusion Models
Lijun Zhang, Xiao Liu, Hui Guan · PDF
Reinforcement Learning with Action Chunking
Qiyang Li, Zhiyuan Zhou, Sergey Levine · PDF
Reinforcement Learning with Thompson Sampling: No-Regret Performance over Finite Horizons
Jasmine Bayrooti, Sattar Vakili, Amanda Prorok, Carl Henrik Ek · PDF
Rethinking Exploration In Asynchronous Bayesian Optimization: Standard Acquisition Is All You Need
Ben Riegler, James A C Odgers, Vincent Fortuin · PDF
Retrospective and Structurally Informed Exploration via Cross-task Successor Feature Similarity
Arya Ebrahimi, Jun Jin · PDF
Scalable and Efficient Exploration via Intrinsic Rewards in Continuous-time Dynamical Systems
Klemens Iten, Andreas Krause · PDF
See it to Place it: Evolving Macro Placements with Vision Language Models
Ikechukwu Uchendu, Vincent Zhuang, Wenjie Jiang, Kuang-Huei Lee, Ebrahim Songhori, Swati Goel, Karly Hou, Vijay Janapa Reddi · PDF
SOAPIA: Siamese-Guided Generation of Off Target-Avoiding Protein Interactions with High Target Affinity
Sophia Vincoff, Oscar Davis, Yinuo Zhang, Ismail Ilkan Ceylan, Alexander Tong, Joey Bose, Pranam Chatterjee · PDF
Sparse Optimistic Information Directed Sampling
Ludovic Schwartz, Hamish Flynn, Gergely Neu · PDF
Stabilizing protein fitness predictors via the PCS framework
Omer Ronen, Alex Y. Zhao, Ron Boger, Chengzhong Ye, Bin Yu · PDF
StemCell-GPT: A Specialized AI Agent For Human Stem Cell Engineering
Jingwen Hui, Freja Kjellaug Amalia Ekman, Hana Yousef Ghanim, Sridhar Selvaraj, Yuanhao Qu, Matthew Porteus, Le Cong · PDF
Strategic Vantage Selection for Learning Viewpoint-Agnostic Manipulation Policies
Sreevishakh Vasudevan, Som Sagar, Ransalu Senanayake · PDF
Testing LLM Understanding of Scientific Literature through Expert-Driven Question Answering: Insights from High-Temperature Superconductivity
Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia, Alexey Vlaskin, Christopher Co, Daniel J. Liebling, Scott Ellsworth, Matthew Abraham, Elizabeth Dorfman, N.P. Armitage, John M. Tranquada, Senthil Todadri, Antoine Georges, Subir Sachdev, Steven Kivelson, B. J. Ramshaw, Chunhan Feng, Olivier Gingras, Vadim Oganesyan, Michael Brenner, Subhashini Venugopalan, Eun-Ah Kim · PDF
The Effective Horizon Challenge
Cassidy Laidlaw, Daniel Khalil, Michelle Li, Laker Newhouse, Stuart Russell, Anca Dragan · PDF
The Road Not Taken: Hindsight Exploration for LLMs in Multi-Turn RL
Huaxiaoyue Wang, Sanjiban Choudhury · PDF
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
Jiaqi WANG, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou · PDF
Toward Efficient Exploration by Large Language Model Agents
Dilip Arumugam, Thomas L. Griffiths · PDF
Towards Unsupervised Multi-Agent Reinforcement Learning via Task-Agnostic Exploration
Riccardo Zamboni, Mirco Mutti, Marcello Restelli · PDF

Accepted papers (51)

☆A Diffusion Model to Shrink Proteins While Maintaining their Function

☆Active Advantage-Aligned Online Reinforcement Learning with Offline Data

☆Align While Search: Belief-Guided Exploratory Inference for Test-Time World Alignment

☆Automated Data Selection for Efficient Cost Model Training to Optimize Sparse Matrix Kernels on Emerging Hardware Accelerators

☆Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames

☆Branched Schrödinger Bridge Matching

☆Central Path Proximal Policy Optimization

☆Diffusion-Based Maximum Entropy Reinforcement Learning

☆Direct Regret Optimization in Bayesian Optimization

☆DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

☆Distances for Markov chains from sample streams

☆Diversity By Design: Leveraging Distribution Matching for Offline Model-Based Optimization

☆e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs

☆EVOLvE: Evaluating and Optimizing LLMs ForIn-Context Exploration

☆Exploration by Exploitation: Curriculum Learning for Reinforcement Learning Agents through Competence-Based Curriculum Policy Search

☆Fleet of Agents: Coordinated Problem Solving with Large Language Models

☆Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning

☆From Words to Rewards: Leveraging Natural Language for Reinforcement Learning

☆G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning

☆Greed is Good: A Unifying Perspective on Guided Generation

☆Improved Exploration in GFlownets via Enhanced Epistemic Neural Networks

☆Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM

☆In-Context Learning for Pure Exploration

☆Instance-Dependent Fixed-Budget Pure Exploration in Reinforcement Learning

☆Intent Factored Generation: Unleashing the Diversity in Your Language Model

☆Intrinsic Benefits of Categorical Distributional Loss: Uncertainty-aware Exploration in Reinforcement Learning towards Higher Moment Regularisations

☆Kevin: Multi-Turn RL for Generating CUDA Kernels

☆Llama-Nemotron: Efficient Reasoning Models

☆LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

☆No-Regret Safety: Balancing Tests and Misclassification in Logistic Bandits

☆Oracle-Efficient Adversarial Reinforcement Learning via Max-Following

☆Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors

☆Provably Learning from Language Feedback

☆Reimagining Parameter Space Exploration with Diffusion Models

☆Reinforcement Learning with Action Chunking

☆Reinforcement Learning with Thompson Sampling: No-Regret Performance over Finite Horizons

☆Rethinking Exploration In Asynchronous Bayesian Optimization: Standard Acquisition Is All You Need

☆Retrospective and Structurally Informed Exploration via Cross-task Successor Feature Similarity

☆Scalable and Efficient Exploration via Intrinsic Rewards in Continuous-time Dynamical Systems

☆See it to Place it: Evolving Macro Placements with Vision Language Models

☆SOAPIA: Siamese-Guided Generation of Off Target-Avoiding Protein Interactions with High Target Affinity

☆Sparse Optimistic Information Directed Sampling

☆Stabilizing protein fitness predictors via the PCS framework

☆StemCell-GPT: A Specialized AI Agent For Human Stem Cell Engineering

☆Strategic Vantage Selection for Learning Viewpoint-Agnostic Manipulation Policies

☆Testing LLM Understanding of Scientific Literature through Expert-Driven Question Answering: Insights from High-Temperature Superconductivity

☆The Effective Horizon Challenge

☆The Road Not Taken: Hindsight Exploration for LLMs in Multi-Turn RL

☆Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

☆Toward Efficient Exploration by Large Language Model Agents

☆Towards Unsupervised Multi-Agent Reinforcement Learning via Task-Agnostic Exploration

A Diffusion Model to Shrink Proteins While Maintaining their Function

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Align While Search: Belief-Guided Exploratory Inference for Test-Time World Alignment

Automated Data Selection for Efficient Cost Model Training to Optimize Sparse Matrix Kernels on Emerging Hardware Accelerators

Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames

Branched Schrödinger Bridge Matching

Central Path Proximal Policy Optimization

Diffusion-Based Maximum Entropy Reinforcement Learning

Direct Regret Optimization in Bayesian Optimization

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

Distances for Markov chains from sample streams

Diversity By Design: Leveraging Distribution Matching for Offline Model-Based Optimization

e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs

EVOLvE: Evaluating and Optimizing LLMs ForIn-Context Exploration

Exploration by Exploitation: Curriculum Learning for Reinforcement Learning Agents through Competence-Based Curriculum Policy Search

Fleet of Agents: Coordinated Problem Solving with Large Language Models

Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning

From Words to Rewards: Leveraging Natural Language for Reinforcement Learning

G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning

Greed is Good: A Unifying Perspective on Guided Generation

Improved Exploration in GFlownets via Enhanced Epistemic Neural Networks

Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM

In-Context Learning for Pure Exploration

Instance-Dependent Fixed-Budget Pure Exploration in Reinforcement Learning

Intent Factored Generation: Unleashing the Diversity in Your Language Model

Intrinsic Benefits of Categorical Distributional Loss: Uncertainty-aware Exploration in Reinforcement Learning towards Higher Moment Regularisations

Kevin: Multi-Turn RL for Generating CUDA Kernels

Llama-Nemotron: Efficient Reasoning Models

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

No-Regret Safety: Balancing Tests and Misclassification in Logistic Bandits

Oracle-Efficient Adversarial Reinforcement Learning via Max-Following

Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors

Provably Learning from Language Feedback

Reimagining Parameter Space Exploration with Diffusion Models

Reinforcement Learning with Action Chunking

Reinforcement Learning with Thompson Sampling: No-Regret Performance over Finite Horizons

Rethinking Exploration In Asynchronous Bayesian Optimization: Standard Acquisition Is All You Need

Retrospective and Structurally Informed Exploration via Cross-task Successor Feature Similarity

Scalable and Efficient Exploration via Intrinsic Rewards in Continuous-time Dynamical Systems

See it to Place it: Evolving Macro Placements with Vision Language Models

SOAPIA: Siamese-Guided Generation of Off Target-Avoiding Protein Interactions with High Target Affinity

Sparse Optimistic Information Directed Sampling

Stabilizing protein fitness predictors via the PCS framework

StemCell-GPT: A Specialized AI Agent For Human Stem Cell Engineering

Strategic Vantage Selection for Learning Viewpoint-Agnostic Manipulation Policies

Testing LLM Understanding of Scientific Literature through Expert-Driven Question Answering: Insights from High-Temperature Superconductivity

The Effective Horizon Challenge

The Road Not Taken: Hindsight Exploration for LLMs in Multi-Turn RL

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Toward Efficient Exploration by Large Language Model Agents

Towards Unsupervised Multi-Agent Reinforcement Learning via Task-Agnostic Exploration