ICML 2024PastReinforcement learning

ICML 2024 Workshop: Foundations of Reinforcement Learning and Control -- Connections and Perspectives

FoRLaC

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: May 30, 2024, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (72)

Fetched from OpenReview (v2) on 2026-06-10.

$\alpha$-Fair Contextual Bandits
Siddhant Chaudhary, Abhishek Sinha · PDF
A Best-of-both-worlds Algorithm for Bandits with Delayed Feedback with Robustness to Excessive Delays
Saeed Masoudian, Julian Zimmert, Yevgeny Seldin · PDF
A Policy Optimization Approach to the Solution of Unregularized Mean Field Games
Sihan Zeng, Sujay Bhatt, Alec Koppel, Sumitra Ganesh · PDF
A Pontryagin Perspective on Reinforcement Learning
Onno Eberhard, Claire Vernade, Michael Muehlebach · PDF
A safe exploration approach to constrained Markov decision processes
Tingting Ni, Maryam Kamgarpour · PDF
A Simple and Adaptive Learning Rate for FTRL in Online Learning with Minimax Regret of $\Theta(T^{2/3})$ and its Application to Best-of-Both-Worlds
Taira Tsuchiya, Shinji Ito · PDF
A Variational Formulation of Reinforcement Learning in Infinite-Horizon Markov Decision Processes
Tim G. J. Rudner · PDF
Adaptive Experimental Design for Policy Learning: Contextual Best Arm Identification
Masahiro Kato, Kyohei Okumura, Takuya Ishihara, Toru Kitagawa · PDF
Bandits with Abstention under Expert Advice
Stephen Pasteris, Alberto Rumi, Maximilian Thiessen, Shota Saito, Atsushi Miyauchi, Fabio Vitale, Mark Herbster · PDF
Bandits with Preference Feedback: A Stackelberg Game Perspective
Barna Pásztor, Parnian Kassraie, Andreas Krause · PDF
Bridging Distributional and Risk-Sensitive Reinforcement Learning: Balancing Statistical, Computational, and Risk Considerations
Hao Liang · PDF
Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage
Kishan Panaganti, Zaiyan Xu, Dileep Kalathil, Mohammad Ghavamzadeh · PDF
Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals
Ziyi Liu, Idan Attias, Daniel M. Roy · PDF
Certifying robustness to adaptive data poisoning
Avinandan Bose, Madeleine Udell, Laurent Lessard, Maryam Fazel, Krishnamurthy Dj Dvijotham · PDF
Chained Information-Theoretic Bounds and Tight Regret Rate for Linear Bandit Problems
Amaury Gouverneur, Borja Rodríguez Gálvez, Tobias Oechtering, Mikael Skoglund · PDF
Combining Neural Networks and Symbolic Regression for Analytical Lyapunov Function Discovery
Jie Feng, Haohan Zou, Yuanyuan Shi · PDF
Compatible Gradient Approximations for Actor-Critic Algorithms
Baturay Saglam, Dionysis Kalogerias · PDF
CPeSFA: Empowering SFs for Policy Learning and Transfer in Continuous Action Spaces
Yining LI, Tianpei Yang, Wei Guo, Jianye HAO, YAN ZHENG · PDF
DARE: The Deep Adaptive Regulator for Control of Uncertain Continuous-Time Systems
Harrison Waldon, Fayçal Drissi, Yannick Limmer, Uljad Berdica, Jakob Nicolaus Foerster, Alvaro Cartea · PDF
DeePC-Hunt: Data-enabled Predictive Control Hyperparameter Tuning via Differentiable Optimization
Michael Cummins, Alberto Padoan, Keith Moffat, John Lygeros, Florian Dorfler · PDF
Defending Against Unknown Corrupted Agents: Reinforcement Learning of Adversarially Robust Nash Equilibria
Andi Nika, Jonathan Nöther, Adish Singla, Goran Radanovic · PDF
Distributional Monte-Carlo Planning with Thompson Sampling in Stochastic Environments
Tuan Quang Dam, Brahim Driss, Odalric-Ambrym Maillard · PDF
Essentially Sharp Estimates on the Entropy Regularization Error in Discounted Markov Decision Processes
Johannes Müller, Semih Cayci · PDF
Event-Based Federated Q-Learning
Guner Dilsad ER, Michael Muehlebach · PDF
Exploring Integrality Grip for Mixed-integer Programming by MCTS Planning
Defeng Liu · PDF
Finite Sample Identification: From Frequency to Time Domain
Anastasios Tsiamis, Mohamed Abdalmoaty, Roy S. Smith, John Lygeros · PDF
Finite-time convergence to an $\epsilon$-efficient Nash equilibrium in potential games
Anna Maria Maddux, Reda Ouhamma, Maryam Kamgarpour · PDF
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution
Tim Seyde, Peter Werner, Wilko Schwarting, Markus Wulfmeier, Daniela Rus · PDF
Hierarchical Reinforcement Learning and Model Predictive Control for Strategic Motion Planning in Autonomous Racing
Rudolf Reiter, Jasper Hoffmann, Joschka Boedecker, Moritz Diehl · PDF
Hybrid Recurrent Models Support Emergent Descriptions for Hierarchical Planning and Control
Poppy Collis, Ryan Singh, Paul Kinghorn, Christopher Buckley · PDF
Identifiable latent bandits: Combining observational data and exploration for personalized healthcare
Ahmet Zahid Balcıoğlu, Emil Carlsson, Fredrik D. Johansson · PDF
Improved Algorithms for Contextual Dynamic Pricing
Matilde Tullii, Solenne Gaucher, Nadav Merlis, Vianney Perchet · PDF
Learning HJB Viscosity Solutions with PINNs for Continuous-Time Reinforcement Learning
Alena Shilova, Thomas Delliaux, Philippe Preux, Bruno Raffin · PDF
Learning Nash Equilibria in Zero-Sum Markov Games: A Single-Timescale Algorithm Under Weak Reachability
Reda Ouhamma, Maryam Kamgarpour · PDF
Learning to Explore with Lagrangians for Bandits under Unknown Constraints
Udvas Das, Debabrota Basu · PDF
Learning When to Trust the Expert for Guided Exploration in RL
Felix Schulz, Jasper Hoffmann, Yuan Zhang, Joschka Boedecker · PDF
Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
Cameron Allen, Aaron T. Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael Littman, George Konidaris · PDF
Model Based Diffusion for Trajectory Optimization
Chaoyi Pan, Zeji Yi, Guanya Shi, Guannan Qu · PDF
Multiple-policy Evaluation via Density Estimation
Yilei Chen, Aldo Pacchiano, Ioannis Paschalidis · PDF
NEORL: Efficient Exploration for Nonepisodic RL
Bhavya Sukhija, Lenart Treven, Florian Dorfler, Stelian Coros, Andreas Krause · PDF
Neural Dueling Bandits
Arun Verma, Zhongxiang Dai, Xiaoqiang Lin, Patrick Jaillet, Bryan Kian Hsiang Low · PDF
Non-ergodicity in reinforcement learning: robustness via ergodicity transformations
Dominik Baumann, Erfaun Noorani, James Price, Ole Peters, Colm Connaughton, Thomas B. Schön · PDF
Non-Linear $H_\infty$ Robustness Guarantees for Neural Network Policies
Daniel Urieli · PDF
On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization
Motahareh Sohrabi, Juan Ramirez, Tianyue H. Zhang, Simon Lacoste-Julien, Jose Gallego-Posada · PDF
On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
Nicholas H. Barbara, Ruigang Wang, Ian Manchester · PDF
Online Optimization of Closed-Loop Control Systems
Hao Ma, Melanie Zeilinger, Michael Muehlebach · PDF
Online Performance Optimization of Nonlinear Systems: A Gray-Box Approach
Zhiyu He, Michael Muehlebach, Saverio Bolognani, Florian Dorfler · PDF
Optimality of Stationary Policies in Risk-averse Total-reward MDPs with EVaR
Xihong Su, Marek Petrik, Julien Grand-Clément · PDF
Optimistic Information Directed Sampling
Gergely Neu, Matteo Papini, Ludovic Schwartz · PDF
Partial Structure Discovery is Sufficient for No-regret Learning in Causal Bandits
Muhammad Qasim Elahi, Mahsa Ghasemi, Murat Kocaoglu · PDF
Pink Noise LQR: How does Colored Noise affect the Optimal Policy in RL?
Jakob Hollenstein, Marko Zaric, Samuele Tosatto, Justus Piater · PDF
Power Mean Estimation in Stochastic Monte-Carlo Tree Search
Tuan Quang Dam, Odalric-Ambrym Maillard, Emilie Kaufmann · PDF
Preference Elicitation for Offline Reinforcement Learning
Alizée Pace, Bernhard Schölkopf, Gunnar Ratsch, Giorgia Ramponi · PDF
Randomized Confidence Bounds for Stochastic Partial Monitoring
Maxime Heuillet, Ola Ahmad, Audrey Durand · PDF
Recommender System Design via Online Feedback Optimization
Sanjay Chandrasekaran, Giulia De Pasquale, Giuseppe Belgioioso, Florian Dorfler · PDF
Recurrent Natural Policy Gradient for POMDPs
Semih Cayci, Atilla Eryilmaz · PDF
Reinforcement Learning of Adaptive Acquisition Policies for Inverse Problems
Gianluigi Silvestri, Fabio Valerio Massoli, Tribhuvanesh Orekondy, Afshin Abdi, Arash Behboodi · PDF
Reinforcement Learning with Lookahead Information
Nadav Merlis · PDF
Reinforcement Learning with Quasi-Hyperbolic Discounting
Eshwar S R, Nibedita Roy, Gugan Thoppe · PDF
Robust Best-of-Both-Worlds Gap Estimators Based on Importance-Weighted Sampling
Sarah Clusiau, Saeed Masoudian, Yevgeny Seldin · PDF
Safe online nonstochastic control from data
Sebastian Kerz, Armin Lederer, Marion Leibold, Dirk Wollherr · PDF
Safe Reinforcement Learning with Contrastive Risk Prediction
Hanping Zhang, Yuhong Guo · PDF
SMX: Sequential Monte Carlo Planning for Expert Iteration
Edan Toledo, Matthew Macfarlane, Donal John Byrne, Siddarth Singh, Paul Duckworth, Alexandre Laterre · PDF
Sum-Max Submodular Bandits
Stephen Pasteris, Alberto Rumi, Fabio Vitale, Nicolò Cesa-Bianchi · PDF
The Minimax Regret of Sequential Probability Assignment, Contextual Shtarkov Sums, and Contextual Normalized Maximum Likelihood
Ziyi Liu, Idan Attias, Daniel M. Roy · PDF
The Value of Reward Lookahead in Reinforcement Learning
Nadav Merlis, Dorian Baudry, Vianney Perchet · PDF
Tight Bounds for Online Convex Optimization with Adversarial Constraints
Abhishek Sinha, Rahul Vaze · PDF
Towards Empowerment Gain through Causal Structure Learning in Model-Based RL
Hongye Cao, Fan Feng, Meng Fang, Shaokang Dong, Jing Huo, Yang Gao · PDF
Truly No-Regret Learning in Constrained MDPs
Adrian Müller, Pragnya Alatur, Volkan Cevher, Giorgia Ramponi, Niao He · PDF
Uniform Last-Iterate Guarantee for Bandits and Reinforcement Learning
Junyan Liu, Yunfan Li, Ruosong Wang, Lin Yang · PDF
Variance-Dependent Regret Bounds for Nonstationary Linear Bandits
Zhiyong Wang, Jize Xie, Yi Chen, John C.S. Lui, Dongruo Zhou · PDF
When is Mean-Field Reinforcement Learning Tractable and Relevant?
Batuhan Yardim, Artur Goldman, Niao He · PDF

Accepted papers (72)

☆$\alpha$-Fair Contextual Bandits

☆A Best-of-both-worlds Algorithm for Bandits with Delayed Feedback with Robustness to Excessive Delays

☆A Policy Optimization Approach to the Solution of Unregularized Mean Field Games

☆A Pontryagin Perspective on Reinforcement Learning

☆A safe exploration approach to constrained Markov decision processes

☆A Simple and Adaptive Learning Rate for FTRL in Online Learning with Minimax Regret of $\Theta(T^{2/3})$ and its Application to Best-of-Both-Worlds

☆A Variational Formulation of Reinforcement Learning in Infinite-Horizon Markov Decision Processes

☆Adaptive Experimental Design for Policy Learning: Contextual Best Arm Identification

☆Bandits with Abstention under Expert Advice

☆Bandits with Preference Feedback: A Stackelberg Game Perspective

☆Bridging Distributional and Risk-Sensitive Reinforcement Learning: Balancing Statistical, Computational, and Risk Considerations

☆Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage

☆Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals

☆Certifying robustness to adaptive data poisoning

☆Chained Information-Theoretic Bounds and Tight Regret Rate for Linear Bandit Problems

☆Combining Neural Networks and Symbolic Regression for Analytical Lyapunov Function Discovery

☆Compatible Gradient Approximations for Actor-Critic Algorithms

☆CPeSFA: Empowering SFs for Policy Learning and Transfer in Continuous Action Spaces

☆DARE: The Deep Adaptive Regulator for Control of Uncertain Continuous-Time Systems

☆DeePC-Hunt: Data-enabled Predictive Control Hyperparameter Tuning via Differentiable Optimization

☆Defending Against Unknown Corrupted Agents: Reinforcement Learning of Adversarially Robust Nash Equilibria

☆Distributional Monte-Carlo Planning with Thompson Sampling in Stochastic Environments

☆Essentially Sharp Estimates on the Entropy Regularization Error in Discounted Markov Decision Processes

☆Event-Based Federated Q-Learning

☆Exploring Integrality Grip for Mixed-integer Programming by MCTS Planning

☆Finite Sample Identification: From Frequency to Time Domain

☆Finite-time convergence to an $\epsilon$-efficient Nash equilibrium in potential games

☆Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution

☆Hierarchical Reinforcement Learning and Model Predictive Control for Strategic Motion Planning in Autonomous Racing

☆Hybrid Recurrent Models Support Emergent Descriptions for Hierarchical Planning and Control

☆Identifiable latent bandits: Combining observational data and exploration for personalized healthcare

☆Improved Algorithms for Contextual Dynamic Pricing

☆Learning HJB Viscosity Solutions with PINNs for Continuous-Time Reinforcement Learning

☆Learning Nash Equilibria in Zero-Sum Markov Games: A Single-Timescale Algorithm Under Weak Reachability

☆Learning to Explore with Lagrangians for Bandits under Unknown Constraints

☆Learning When to Trust the Expert for Guided Exploration in RL

☆Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy

☆Model Based Diffusion for Trajectory Optimization

☆Multiple-policy Evaluation via Density Estimation

☆NEORL: Efficient Exploration for Nonepisodic RL

☆Neural Dueling Bandits

☆Non-ergodicity in reinforcement learning: robustness via ergodicity transformations

☆Non-Linear $H_\infty$ Robustness Guarantees for Neural Network Policies

☆On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization

☆On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks

☆Online Optimization of Closed-Loop Control Systems

☆Online Performance Optimization of Nonlinear Systems: A Gray-Box Approach

☆Optimality of Stationary Policies in Risk-averse Total-reward MDPs with EVaR

☆Optimistic Information Directed Sampling

☆Partial Structure Discovery is Sufficient for No-regret Learning in Causal Bandits

☆Pink Noise LQR: How does Colored Noise affect the Optimal Policy in RL?

☆Power Mean Estimation in Stochastic Monte-Carlo Tree Search

☆Preference Elicitation for Offline Reinforcement Learning

☆Randomized Confidence Bounds for Stochastic Partial Monitoring

☆Recommender System Design via Online Feedback Optimization

☆Recurrent Natural Policy Gradient for POMDPs

☆Reinforcement Learning of Adaptive Acquisition Policies for Inverse Problems

☆Reinforcement Learning with Lookahead Information

☆Reinforcement Learning with Quasi-Hyperbolic Discounting

☆Robust Best-of-Both-Worlds Gap Estimators Based on Importance-Weighted Sampling

☆Safe online nonstochastic control from data

☆Safe Reinforcement Learning with Contrastive Risk Prediction

☆SMX: Sequential Monte Carlo Planning for Expert Iteration

☆Sum-Max Submodular Bandits

☆The Minimax Regret of Sequential Probability Assignment, Contextual Shtarkov Sums, and Contextual Normalized Maximum Likelihood

☆The Value of Reward Lookahead in Reinforcement Learning

☆Tight Bounds for Online Convex Optimization with Adversarial Constraints

☆Towards Empowerment Gain through Causal Structure Learning in Model-Based RL

☆Truly No-Regret Learning in Constrained MDPs

☆Uniform Last-Iterate Guarantee for Bandits and Reinforcement Learning

☆Variance-Dependent Regret Bounds for Nonstationary Linear Bandits

☆When is Mean-Field Reinforcement Learning Tractable and Relevant?

$\alpha$-Fair Contextual Bandits

A Best-of-both-worlds Algorithm for Bandits with Delayed Feedback with Robustness to Excessive Delays

A Policy Optimization Approach to the Solution of Unregularized Mean Field Games

A Pontryagin Perspective on Reinforcement Learning

A safe exploration approach to constrained Markov decision processes

A Simple and Adaptive Learning Rate for FTRL in Online Learning with Minimax Regret of $\Theta(T^{2/3})$ and its Application to Best-of-Both-Worlds

A Variational Formulation of Reinforcement Learning in Infinite-Horizon Markov Decision Processes

Adaptive Experimental Design for Policy Learning: Contextual Best Arm Identification

Bandits with Abstention under Expert Advice

Bandits with Preference Feedback: A Stackelberg Game Perspective

Bridging Distributional and Risk-Sensitive Reinforcement Learning: Balancing Statistical, Computational, and Risk Considerations

Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage

Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals

Certifying robustness to adaptive data poisoning

Chained Information-Theoretic Bounds and Tight Regret Rate for Linear Bandit Problems

Combining Neural Networks and Symbolic Regression for Analytical Lyapunov Function Discovery

Compatible Gradient Approximations for Actor-Critic Algorithms

CPeSFA: Empowering SFs for Policy Learning and Transfer in Continuous Action Spaces

DARE: The Deep Adaptive Regulator for Control of Uncertain Continuous-Time Systems

DeePC-Hunt: Data-enabled Predictive Control Hyperparameter Tuning via Differentiable Optimization

Defending Against Unknown Corrupted Agents: Reinforcement Learning of Adversarially Robust Nash Equilibria

Distributional Monte-Carlo Planning with Thompson Sampling in Stochastic Environments

Essentially Sharp Estimates on the Entropy Regularization Error in Discounted Markov Decision Processes

Event-Based Federated Q-Learning

Exploring Integrality Grip for Mixed-integer Programming by MCTS Planning

Finite Sample Identification: From Frequency to Time Domain

Finite-time convergence to an $\epsilon$-efficient Nash equilibrium in potential games

Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution

Hierarchical Reinforcement Learning and Model Predictive Control for Strategic Motion Planning in Autonomous Racing

Hybrid Recurrent Models Support Emergent Descriptions for Hierarchical Planning and Control

Identifiable latent bandits: Combining observational data and exploration for personalized healthcare

Improved Algorithms for Contextual Dynamic Pricing

Learning HJB Viscosity Solutions with PINNs for Continuous-Time Reinforcement Learning

Learning Nash Equilibria in Zero-Sum Markov Games: A Single-Timescale Algorithm Under Weak Reachability

Learning to Explore with Lagrangians for Bandits under Unknown Constraints

Learning When to Trust the Expert for Guided Exploration in RL

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy

Model Based Diffusion for Trajectory Optimization

Multiple-policy Evaluation via Density Estimation

NEORL: Efficient Exploration for Nonepisodic RL

Neural Dueling Bandits

Non-ergodicity in reinforcement learning: robustness via ergodicity transformations

Non-Linear $H_\infty$ Robustness Guarantees for Neural Network Policies

On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization

On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks

Online Optimization of Closed-Loop Control Systems

Online Performance Optimization of Nonlinear Systems: A Gray-Box Approach

Optimality of Stationary Policies in Risk-averse Total-reward MDPs with EVaR

Optimistic Information Directed Sampling

Partial Structure Discovery is Sufficient for No-regret Learning in Causal Bandits

Pink Noise LQR: How does Colored Noise affect the Optimal Policy in RL?

Power Mean Estimation in Stochastic Monte-Carlo Tree Search

Preference Elicitation for Offline Reinforcement Learning

Randomized Confidence Bounds for Stochastic Partial Monitoring

Recommender System Design via Online Feedback Optimization

Recurrent Natural Policy Gradient for POMDPs

Reinforcement Learning of Adaptive Acquisition Policies for Inverse Problems

Reinforcement Learning with Lookahead Information

Reinforcement Learning with Quasi-Hyperbolic Discounting

Robust Best-of-Both-Worlds Gap Estimators Based on Importance-Weighted Sampling

Safe online nonstochastic control from data

Safe Reinforcement Learning with Contrastive Risk Prediction

SMX: Sequential Monte Carlo Planning for Expert Iteration

Sum-Max Submodular Bandits

The Minimax Regret of Sequential Probability Assignment, Contextual Shtarkov Sums, and Contextual Normalized Maximum Likelihood

The Value of Reward Lookahead in Reinforcement Learning

Tight Bounds for Online Convex Optimization with Adversarial Constraints

Towards Empowerment Gain through Causal Structure Learning in Model-Based RL

Truly No-Regret Learning in Constrained MDPs

Uniform Last-Iterate Guarantee for Bandits and Reinforcement Learning

Variance-Dependent Regret Bounds for Nonstationary Linear Bandits

When is Mean-Field Reinforcement Learning Tractable and Relevant?