NeurIPS 2024PastOptimization

OPT 2024: Optimization for Machine Learning

NeurIPS 2024 Workshop

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 28, 2024, 12:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (106)

Fetched from OpenReview (v2) on 2026-06-10.

$\mu$LO: Compute-Efficient Meta-Generalization of Learned Optimizers
Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky · PDF
A Continuous Variable Optimization method for the Quadratic Assignment Problem
Aron Vizkeleti, Timothee Leleu · PDF
A fast and efficient randomized quasi-Newton method
Danny Duan, Hanbaek Lyu · PDF
A Stochastic Algorithm for Sinkhorn Distance-Regularized Distributionally Robust Optimization
Yufeng Yang, Yi Zhou, Zhaosong Lu · PDF
A theoretical study of the $(L_0,L_1)$-smoothness condition in deep learning
Y Cooper · PDF
A Unified Convergence Theory for Large Language Model Efficient Fine-tuning
Zhanhong Jiang, Nastaran Saadati, Aditya Balu, Minh Pham, Joshua Russell Waite, Nasla Saleem, Chinmay Hegde, Soumik Sarkar · PDF
ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training
Adel Nabli, Louis Fournier, Pierre ERBACHER, Louis Serrano, Eugene Belilovsky, Edouard Oyallon · PDF
Adaptive Partitioning Schemes for Black-Box Optimization
Raja Sunkara, Ardhendu Tripathy · PDF
Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models
Zeman Li, Xinwei Zhang, Peilin Zhong, Yuan Deng, Meisam Razaviyayn, Vahab Mirrokni · PDF
AdEMAMix: Better and Faster Training with Older Gradients
Matteo Pagliardini, Pierre Ablin, David Grangier · PDF
Aggregating Data for Optimal and Private Learning
Sushant Agarwal, Yukti Makhija, Rishi Saket, Aravindan Raghuveer · PDF
Aligned Multi-Objective Optimization
Yonathan Efroni, Daniel Jiang, Ben Kretzu, Jalaj Bhandari, Zheqing Zhu, Karen Ullrich · PDF
Amplitude Modulated Riemannian Optimization for QAP
Timothee Leleu, Aron Vizkeleti, Sam Reifenstein · PDF
An Elementary Predictor Obtaining 2\sqrt{T} Distance to Calibration
Eshwar Ram Arunachaleswaran, Natalie Collina, Aaron Roth, Mirah Shi · PDF
Applications of fractional calculus in learned optimization
Teodor Alexandru Szente, James Harrison, Mihai Zanfir, Cristian Sminchisescu · PDF
Batch size invariant Adam
Xi Wang, Laurence Aitchison · PDF
BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks
Amrutha Varshini Ramesh, Vignesh Ganapathiraman, Issam H. Laradji, Mark Schmidt · PDF
Communication-efficient Algorithms Under Generalized Smoothness Assumptions
Sarit Khirirat, Abdurakhmon Sadiev, Artem Riabinin, Eduard Gorbunov, Peter Richtárik · PDF
Communication-Efficient Loss Minimization over Heterogeneous Data with Federated Hierarchical Ensemble Aggregation via Distillation
Sayantan Chowdhury, Ben Liang, Ali Tizghadam, Ilijc Albanese · PDF
Connections between Schedule-Free SGD, Accelerated SGD Variants, and Weight Averaging
Depen Morwani, Nikhil Vyas, Hanlin Zhang, Sham M. Kakade · PDF
Consensus Based Optimization Accelerates Gradient Descent
Anagha Satish, Ricardo Baptista, Franca Hoffmann · PDF
Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks
Louis Fournier, Edouard Oyallon · PDF
DADA: Dual Averaging with Distance Adaptation
Mohammad Moshtaghifar, Anton Rodomanov, Daniil Vankov, Sebastian U Stich · PDF
Deconstructing What Makes a Good Optimizer for Language Models
Rosie Zhao, Depen Morwani, David Brandfonbrener, Nikhil Vyas, Sham M. Kakade · PDF
Dense Backpropagation Improves Routing for Sparsely-Gated Mixture-of-Experts
Ashwinee Panda, Vatsal Baherwani, Zain Sarwar, Benjamin Thérien, Stephen Rawls, Sambit Sahu, Supriyo Chakraborty, Tom Goldstein · PDF
Differentially Private Random Block Coordinate Descent
Arto Maranjyan, Abdurakhmon Sadiev, Peter Richtárik · PDF
Dimensionality Reduction Techniques for Global Bayesian Optimisation
Luo Long, Coralia Cartis, Paz Fink Shustin · PDF
Discrete-Continuous Variational Optimization with Local Gradients
Jonathan H Warrell, Francesco Alesiani, Cameron Smith, Anja Mösch, Martin Renqiang Min · PDF
DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction
Xinwei Zhang, Zhiqi Bu, Borja Balle, Mingyi Hong, Meisam Razaviyayn, Vahab Mirrokni · PDF
Distributionally Robust Linear Regression With Block Lewis Weights
Naren Sarayu Manoj, Kumar Kshitij Patel · PDF
Don't Be So Positive: Negative Step Sizes in Second-Order Methods
Betty Shea, Mark Schmidt · PDF
Dual Feature Reduction for the Sparse-Group Lasso and its Adaptive Variant
Fabio Feser, Marina Evangelou · PDF
Dueling in the Dark: An Efficient and Optimal Mirror Descent Approach for Online Optimization with Adversarial Preferences
Aadirupa Saha, Yonathan Efroni, Barry-John Theobald · PDF
Efficient Levenberg-Marquardt for SLAM
Amir Belder, Refael Vivanti · PDF
Estimating Vote Choice in U.S. Elections with Approximate Poisson-Binomial Logistic Regression
Nic Fishman, Evan Rosenman · PDF
Extra-Gradient and Optimistic Gradient Descent Converge in Iterates Faster than $O(1/\sqrt{T})$ in All Monotone Lipschitz Variational Inequalities
Kimon Antonakopoulos · PDF
Fast Convergence of Softmax Policy Mirror Ascent for Bandits & Tabular MDPs
Reza Asad, Reza Babanezhad Harikandeh, Issam H. Laradji, Nicolas Le Roux, Sharan Vaswani · PDF
Fast decentralized gradient tracking for federated learning with local updates: From mini to minimax optimization
Chris Junchi Li · PDF
From Gradient Clipping to Normalization for Heavy Tailed SGD
Florian Hübler, Ilyas Fatkhullin, Niao He · PDF
Glocal Smoothness: Line Search can really help!
Curtis Fox, Mark Schmidt · PDF
Graph Neural Networks for Hyperparameter Inference in Ising Solvers
Edward Jiang, Sam Reifenstein, Milin Doppalapudi, Timothee Leleu · PDF
Hierarchical Simplicity Bias of Neural Networks
Zhehang Du · PDF
High Dimensional First Order Mini-Batch Algorithms on Quadratic Problems
Andrew Nicholas Cheng, Kiwon Lee, Courtney Paquette · PDF
How Does Critical Batch Size Scale in Pre-training?
Hanlin Zhang, Depen Morwani, Nikhil Vyas, Jingfeng Wu, Difan Zou, Udaya Ghai, Dean Foster, Sham M. Kakade · PDF
Improving Deep Learning Speed and Performance through Synaptic Neural Balance
Antonios Alexos, Ian Domingo, Pierre Baldi · PDF
In the Search for Optimal Portfolios of Counterstrategies in the Large Imperfect Information Games
Karolina Drabent, David Milec, Ondrej Kubicek, Viliam Lisý · PDF
Incentivizing Truthful Collaboration in Heterogeneous Federated Learning
Dimitar Chakarov, Nikita Tsoy, Kristian Minchev, Nikola Konstantinov · PDF
Intuitive Analysis of the Quantization based Optimization : From establishing a SDE to Quantum Mechanical Perspective
Jinwuk Seok, Changsik Cho · PDF
Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials
August Y Chen, Ayush Sekhari, Karthik Sridharan · PDF
Learning Morphisms with Gauss-Newton Approximation for Growing Networks
Neal Gregory Lawton, Aram Galstyan, Greg Ver Steeg · PDF
Linear Attention Sequence Parallelism
Weigao Sun, Zhen Qin, Dong Li, Xuyang Shen, Yu Qiao, Yiran Zhong · PDF
Lion's sign noise can make training more stable
Simon Elistratov, Andrey Podivilov, Timofei Iuzhakov, Dmitry Vetrov · PDF
Local Curvature Descent: Squeezing More Curvature out of Standard and Polyak Gradient Descent
Peter Richtárik, Simone Maria Giancola, Dymitr Lubczyk, Robin Yadav · PDF
LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression
Laurent Condat, Arto Maranjyan, Peter Richtárik · PDF
Memory Efficient Adaptive Stochastic Optimization via Subset-Norm
Thien Hang Nguyen, Huy Nguyen · PDF
Memory-Efficient Large Language Model (LLM) Training and Fine-Tuning via Gradient Subspace Tracking
Sahar Rajabi, Sirisha Rambhatla · PDF
MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times
Arto Maranjyan, Omar Shaikh Omar, Peter Richtárik · PDF
Modularity aided consistent attributed graph clustering via coarsening
Samarth Bhatia, Yukti Makhija, Manoj Kumar, Sandeep Kumar · PDF
Multi Objective Regionalized Bayesian Optimization via Entropy Search
Thomas James, Sinnu Thomas · PDF
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time
Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou · PDF
Multimodal Federated Learning with Model Personalization
Ratun Rahman, Dinh C.Nguyen · PDF
Neural Entropic Multimarginal Optimal Transport
Dor Tsur, Ziv Goldfeld, Kristjan Greenewald, Haim H. Permuter · PDF
Neural Networks with Complex-Valued Weights Have No Spurious Local Minima
Xingtu Liu · PDF
Nonlinear tomographic reconstruction via nonsmooth optimization
Vasileios Charisopoulos, Rebecca Willett · PDF
Nonmonotone Line Searches Operate at the Edge of Stability
Curtis Fox, Leonardo Galli, Mark Schmidt, Holger Rauhut · PDF
Normalization Matters for Optimization Performance on Graph Neural Networks
Alan Milligan, Frederik Kunstner, Hamed Shirzad, Mark Schmidt, Danica J. Sutherland · PDF
Old Optimizer, New Norm: An Anthology
Jeremy Bernstein, Laker Newhouse · PDF
On the Convergence of DP-SGD with Adaptive Clipping
Egor Shulgin, Peter Richtárik · PDF
On the Convergence of FedProx with Extrapolation and Inexact Prox
Hanmin Li, Peter Richtárik · PDF
On the Crucial Role of Initialization for Matrix Factorization
Bingcong Li, Liang Zhang, Aryan Mokhtari, Niao He · PDF
On the Hardness of Meaningful Local Guarantees in Nonsmooth Nonconvex Optimization
Guy Kornowski, Swati Padmanabhan, Ohad Shamir · PDF
On the Hypomonotone Class of Variational Inequalities
Khaled Alomar, Tatjana Chavdarova · PDF
On the Inherent Privacy of Two Point Zeroth Order Projected Gradient Descent
Devansh Gupta, Meisam Razaviyayn, Vatsal Sharan · PDF
Online Nonconvex Bilevel Optimization with Bregman Divergences
Jason Bohne, David S Rosenberg, Gary Kazantsev, Pawel Polak · PDF
Optimal Transport for Probabilistic Circuits
Adrian Ciotinga, YooJung Choi · PDF
Optimizing Attention
Hanno Ackermann, Hong Cai, Markus Nagel, Leyla Mirvakhabova, Farhad G. Zanjani, Fatih Porikli · PDF
Partially Observed Trajectory Inference using Optimal Transport and a Dynamics Prior
Anming Gu, Edward Chien, Kristjan Greenewald · PDF
Path Integral Optimiser: Global Optimisation via Neural Schrödinger-Föllmer Diffusion
Max McGuinness, Eirik Fladmark, Francisco Vargas · PDF
Personalized Federated Learning via Low-Rank Matrix Factorization
Ali Dadras, Sebastian U Stich, Alp Yurtsever · PDF
Policy Optimization for Strictly Batch Imitation Learning
Rishabh Agrawal, Nathan Dahlin, Rahul Jain, Ashutosh Nayyar · PDF
Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training
Hiroki Naganuma, Xinzhi Zhang, Man-Chung Yue, Ioannis Mitliagkas, Russell J. Hewett, Philipp Andre Witte, Yin Tat Lee · PDF
Remove Symmetries to Control Model Expressivity and Improve Optimization
Liu Ziyin, Yizhou Xu, Isaac L. Chuang · PDF
Revisiting the Initial Steps in Adaptive Gradient Descent Optimization
Abulikemu Abuduweili, Changliu Liu · PDF
Role of Parametrization in Learning Dynamics of Recurrent Neural Networks
Adwait Datar, Chinmay Datar, Zahra Monfared, Felix Dietrich · PDF
Scalable Second-Order Optimization Algorithms for Minimizing Low-rank Functions
Edward Tansley, Coralia Cartis · PDF
Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks
Shikai Qiu, Atish Agarwala, Jeffrey Pennington, Lechao Xiao · PDF
Second-Order Forward-Mode Automatic Differentiation for Optimization
Adam D. Cobb, Atilim Gunes Baydin, Barak A. Pearlmutter, Susmit Jha · PDF
SICNN: Sparsity-induced Input Convex Neural Network for Optimal Transport
Peter Chen, Yue Xie, Qingpeng Zhang · PDF
Simple and Scalable Federated Learning with Uncertainty via Improved Variational Online Newton
Shivam Pal, Aishwarya Gupta, Saqib Sarwar, Piyush Rai · PDF
SOAP: Improving and Stabilizing Shampoo using Adam
Nikhil Vyas, Depen Morwani, Rosie Zhao, Itai Shapira, David Brandfonbrener, Lucas Janson, Sham M. Kakade · PDF
Solving hidden monotone variational inequalities with surrogate losses
Ryan D'Orazio, Danilo Vucetic, Zichu Liu, Junhyung Lyle Kim, Ioannis Mitliagkas, Gauthier Gidel · PDF
SPAM: Stochastic Proximal Point Method with Momentum Variance Reduction for Nonconvex Cross-Device Federated Learning
Avetik Karagulyan, Egor Shulgin, Abdurakhmon Sadiev, Peter Richtárik · PDF
Spurious Stationarity and Hardness Results for Mirror Descent
He Chen, Jiajin Li, Anthony Man-Cho So · PDF
Statistical Inference in Latent Convex Objectives with Stream Data
Rohan Chauhan, Emmanouil-Vasileios Vlatakis-Gkaragkounis, Michael I. Jordan · PDF
Stochastic Proximal Point Methods for Monotone Inclusions under Expected Similarity
Abdurakhmon Sadiev, Laurent Condat, Peter Richtárik · PDF
Stochastic Quasi-Variational Inequalities: Convergence Analysis Beyond Strong Monotonicity
Zeinab Alizadeh, Afrooz Jalilzadeh · PDF
Structured Regularization on the SPD Manifold
Andrew Nicholas Cheng, Melanie Weber · PDF
Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition
Robert Joseph George, David Pitt, Jiawei Zhao, Jean Kossaifi, Cheng Luo, Yuandong Tian, Anima Anandkumar · PDF
The Crucial Role of Samplers in Online Direct Preference Optimization
Ruizhe Shi, Runlong Zhou, Simon Shaolei Du · PDF
The Dimension Strikes Back with Gradients: Generalization of Gradient Methods in Stochastic Convex Optimization
Matan Schliserman, Uri Sherman, Tomer Koren · PDF
Tight Lower Bounds and Improved Convergence in Performative Prediction
Pedram Khorsandi, Rushil Gupta, Mehrnaz Mofakhami, Simon Lacoste-Julien, Gauthier Gidel · PDF
u-$\mu$P: The Unit-Scaled Maximal Update Parametrization
Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Yuri Prince, Björn Deiseroth, Andres Felipe Cruz-Salinas, Carlo Luschi, Samuel Weinbach, Douglas Orr · PDF
Uncoupled and Convergent Learning in Monotone Games under Bandit Feedback
Jing Dong, Baoxiang Wang, Yaoliang Yu · PDF
Understanding Adam Requires Better Rotation Dependent Assumptions
Tianyue H. Zhang, Lucas Maes, Alexia Jolicoeur-Martineau, Ioannis Mitliagkas, Damien Scieur, Simon Lacoste-Julien, Charles Guille-Escuret · PDF
WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average
Louis Fournier, Adel Nabli, Masih Aminbeidokhti, Marco Pedersoli, Eugene Belilovsky, Edouard Oyallon · PDF
Weak to Strong Learning from Aggregate Labels
Yukti Makhija, Rishi Saket · PDF

Accepted papers (106)

☆$\mu$LO: Compute-Efficient Meta-Generalization of Learned Optimizers

☆A Continuous Variable Optimization method for the Quadratic Assignment Problem

☆A fast and efficient randomized quasi-Newton method

☆A Stochastic Algorithm for Sinkhorn Distance-Regularized Distributionally Robust Optimization

☆A theoretical study of the $(L_0,L_1)$-smoothness condition in deep learning

☆A Unified Convergence Theory for Large Language Model Efficient Fine-tuning

☆ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training

☆Adaptive Partitioning Schemes for Black-Box Optimization

☆Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models

☆AdEMAMix: Better and Faster Training with Older Gradients

☆Aggregating Data for Optimal and Private Learning

☆Aligned Multi-Objective Optimization

☆Amplitude Modulated Riemannian Optimization for QAP

☆An Elementary Predictor Obtaining 2\sqrt{T} Distance to Calibration

☆Applications of fractional calculus in learned optimization

☆Batch size invariant Adam

☆BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks

☆Communication-efficient Algorithms Under Generalized Smoothness Assumptions

☆Communication-Efficient Loss Minimization over Heterogeneous Data with Federated Hierarchical Ensemble Aggregation via Distillation

☆Connections between Schedule-Free SGD, Accelerated SGD Variants, and Weight Averaging

☆Consensus Based Optimization Accelerates Gradient Descent

☆Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks

☆DADA: Dual Averaging with Distance Adaptation

☆Deconstructing What Makes a Good Optimizer for Language Models

☆Dense Backpropagation Improves Routing for Sparsely-Gated Mixture-of-Experts

☆Differentially Private Random Block Coordinate Descent

☆Dimensionality Reduction Techniques for Global Bayesian Optimisation

☆Discrete-Continuous Variational Optimization with Local Gradients

☆DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction

☆Distributionally Robust Linear Regression With Block Lewis Weights

☆Don't Be So Positive: Negative Step Sizes in Second-Order Methods

☆Dual Feature Reduction for the Sparse-Group Lasso and its Adaptive Variant

☆Dueling in the Dark: An Efficient and Optimal Mirror Descent Approach for Online Optimization with Adversarial Preferences

☆Efficient Levenberg-Marquardt for SLAM

☆Estimating Vote Choice in U.S. Elections with Approximate Poisson-Binomial Logistic Regression

☆Extra-Gradient and Optimistic Gradient Descent Converge in Iterates Faster than $O(1/\sqrt{T})$ in All Monotone Lipschitz Variational Inequalities

☆Fast Convergence of Softmax Policy Mirror Ascent for Bandits & Tabular MDPs

☆Fast decentralized gradient tracking for federated learning with local updates: From mini to minimax optimization

☆From Gradient Clipping to Normalization for Heavy Tailed SGD

☆Glocal Smoothness: Line Search can really help!

☆Graph Neural Networks for Hyperparameter Inference in Ising Solvers

☆Hierarchical Simplicity Bias of Neural Networks

☆High Dimensional First Order Mini-Batch Algorithms on Quadratic Problems

☆How Does Critical Batch Size Scale in Pre-training?

☆Improving Deep Learning Speed and Performance through Synaptic Neural Balance

☆In the Search for Optimal Portfolios of Counterstrategies in the Large Imperfect Information Games

☆Incentivizing Truthful Collaboration in Heterogeneous Federated Learning

☆Intuitive Analysis of the Quantization based Optimization : From establishing a SDE to Quantum Mechanical Perspective

☆Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials

☆Learning Morphisms with Gauss-Newton Approximation for Growing Networks

☆Linear Attention Sequence Parallelism

☆Lion's sign noise can make training more stable

☆Local Curvature Descent: Squeezing More Curvature out of Standard and Polyak Gradient Descent

☆LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression

☆Memory Efficient Adaptive Stochastic Optimization via Subset-Norm

☆Memory-Efficient Large Language Model (LLM) Training and Fine-Tuning via Gradient Subspace Tracking

☆MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

☆Modularity aided consistent attributed graph clustering via coarsening

☆Multi Objective Regionalized Bayesian Optimization via Entropy Search

☆Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

☆Multimodal Federated Learning with Model Personalization

☆Neural Entropic Multimarginal Optimal Transport

☆Neural Networks with Complex-Valued Weights Have No Spurious Local Minima

☆Nonlinear tomographic reconstruction via nonsmooth optimization

☆Nonmonotone Line Searches Operate at the Edge of Stability

☆Normalization Matters for Optimization Performance on Graph Neural Networks

☆Old Optimizer, New Norm: An Anthology

☆On the Convergence of DP-SGD with Adaptive Clipping

☆On the Convergence of FedProx with Extrapolation and Inexact Prox

☆On the Crucial Role of Initialization for Matrix Factorization

☆On the Hardness of Meaningful Local Guarantees in Nonsmooth Nonconvex Optimization

☆On the Hypomonotone Class of Variational Inequalities

☆On the Inherent Privacy of Two Point Zeroth Order Projected Gradient Descent

☆Online Nonconvex Bilevel Optimization with Bregman Divergences

☆Optimal Transport for Probabilistic Circuits

☆Optimizing Attention

☆Partially Observed Trajectory Inference using Optimal Transport and a Dynamics Prior

☆Path Integral Optimiser: Global Optimisation via Neural Schrödinger-Föllmer Diffusion

☆Personalized Federated Learning via Low-Rank Matrix Factorization

$\mu$LO: Compute-Efficient Meta-Generalization of Learned Optimizers

A Continuous Variable Optimization method for the Quadratic Assignment Problem

A fast and efficient randomized quasi-Newton method

A Stochastic Algorithm for Sinkhorn Distance-Regularized Distributionally Robust Optimization

A theoretical study of the $(L_0,L_1)$-smoothness condition in deep learning

A Unified Convergence Theory for Large Language Model Efficient Fine-tuning

ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training

Adaptive Partitioning Schemes for Black-Box Optimization

Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models

AdEMAMix: Better and Faster Training with Older Gradients

Aggregating Data for Optimal and Private Learning

Aligned Multi-Objective Optimization

Amplitude Modulated Riemannian Optimization for QAP

An Elementary Predictor Obtaining 2\sqrt{T} Distance to Calibration

Applications of fractional calculus in learned optimization

Batch size invariant Adam

BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks

Communication-efficient Algorithms Under Generalized Smoothness Assumptions

Communication-Efficient Loss Minimization over Heterogeneous Data with Federated Hierarchical Ensemble Aggregation via Distillation

Connections between Schedule-Free SGD, Accelerated SGD Variants, and Weight Averaging

Consensus Based Optimization Accelerates Gradient Descent

Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks

DADA: Dual Averaging with Distance Adaptation

Deconstructing What Makes a Good Optimizer for Language Models

Dense Backpropagation Improves Routing for Sparsely-Gated Mixture-of-Experts

Differentially Private Random Block Coordinate Descent

Dimensionality Reduction Techniques for Global Bayesian Optimisation

Discrete-Continuous Variational Optimization with Local Gradients

DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction

Distributionally Robust Linear Regression With Block Lewis Weights

Don't Be So Positive: Negative Step Sizes in Second-Order Methods

Dual Feature Reduction for the Sparse-Group Lasso and its Adaptive Variant

Dueling in the Dark: An Efficient and Optimal Mirror Descent Approach for Online Optimization with Adversarial Preferences

Efficient Levenberg-Marquardt for SLAM

Estimating Vote Choice in U.S. Elections with Approximate Poisson-Binomial Logistic Regression

Extra-Gradient and Optimistic Gradient Descent Converge in Iterates Faster than $O(1/\sqrt{T})$ in All Monotone Lipschitz Variational Inequalities

Fast Convergence of Softmax Policy Mirror Ascent for Bandits & Tabular MDPs

Fast decentralized gradient tracking for federated learning with local updates: From mini to minimax optimization

From Gradient Clipping to Normalization for Heavy Tailed SGD

Glocal Smoothness: Line Search can really help!

Graph Neural Networks for Hyperparameter Inference in Ising Solvers

Hierarchical Simplicity Bias of Neural Networks

High Dimensional First Order Mini-Batch Algorithms on Quadratic Problems

How Does Critical Batch Size Scale in Pre-training?

Improving Deep Learning Speed and Performance through Synaptic Neural Balance

In the Search for Optimal Portfolios of Counterstrategies in the Large Imperfect Information Games

Incentivizing Truthful Collaboration in Heterogeneous Federated Learning

Intuitive Analysis of the Quantization based Optimization : From establishing a SDE to Quantum Mechanical Perspective

Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials

Learning Morphisms with Gauss-Newton Approximation for Growing Networks

Linear Attention Sequence Parallelism

Lion's sign noise can make training more stable

Local Curvature Descent: Squeezing More Curvature out of Standard and Polyak Gradient Descent

LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression

Memory Efficient Adaptive Stochastic Optimization via Subset-Norm

Memory-Efficient Large Language Model (LLM) Training and Fine-Tuning via Gradient Subspace Tracking

MindFlayer: Efficient Asynchronous Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

Modularity aided consistent attributed graph clustering via coarsening

Multi Objective Regionalized Bayesian Optimization via Entropy Search

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

Multimodal Federated Learning with Model Personalization

Neural Entropic Multimarginal Optimal Transport

Neural Networks with Complex-Valued Weights Have No Spurious Local Minima

Nonlinear tomographic reconstruction via nonsmooth optimization

Nonmonotone Line Searches Operate at the Edge of Stability

Normalization Matters for Optimization Performance on Graph Neural Networks

Old Optimizer, New Norm: An Anthology

On the Convergence of DP-SGD with Adaptive Clipping

On the Convergence of FedProx with Extrapolation and Inexact Prox

On the Crucial Role of Initialization for Matrix Factorization

On the Hardness of Meaningful Local Guarantees in Nonsmooth Nonconvex Optimization

On the Hypomonotone Class of Variational Inequalities

On the Inherent Privacy of Two Point Zeroth Order Projected Gradient Descent

Online Nonconvex Bilevel Optimization with Bregman Divergences

Optimal Transport for Probabilistic Circuits

Optimizing Attention

Partially Observed Trajectory Inference using Optimal Transport and a Dynamics Prior

Path Integral Optimiser: Global Optimisation via Neural Schrödinger-Föllmer Diffusion

Personalized Federated Learning via Low-Rank Matrix Factorization

Policy Optimization for Strictly Batch Imitation Learning