NeurIPS 2025PastOptimization

OPT 2025: Optimization for Machine Learning

NeurIPS 2025 Workshop

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 3, 2025, 12:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (132)

Fetched from OpenReview (v2) on 2026-06-10.

\textsc{LeonArDBO}: Fast and Prior-Driven Bayesian Optimization without Surrogate Modeling
Efe Mert Karagözlü, Conor Igoe, Barnabas Poczos, Jeff Schneider · PDF
A Monte Carlo Approach to Nonsmooth Convex Optimization via Proximal Splitting Algorithms
Nicholas Di, Eric Chi, Samy Wu Fung · PDF
A Non-Convex Method for Polynomial Manifold Learning
Param Mody, Elina Robeva · PDF
A Simplified Analysis of SGD for Linear Regression with Weight Averaging
Alexandru Meterez, Depen Morwani, Costin-Andrei Oncescu, Jingfeng Wu, Cengiz Pehlevan, Sham M. Kakade · PDF
A stochastic Lagrangian-based method for nonconvex empirical risk minimization with nonlinear constraints
Dimitri Papadimitriou · PDF
A Theoretical Analysis for CUR Decomposition based Active Learning and Feature Selection
Zhong Chen, Chen Zhao, Yi He · PDF
A Unified Noise-Curvature View of Loss of Trainability
Gunbir Singh Baveja, Alex Lewandowski, Mark Schmidt · PDF
Achieving First-Order Statistical Improvements in Data-Driven Optimization
Henry Lam, Tianyu Wang · PDF
AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates
Minxin Zhang, Yuxuan Liu, Hayden Schaeffer · PDF
Adaptive acceleration without strong convexity priors or restarts
Joao V. Cavalcanti, Laurent Lessard, Ashia C. Wilson · PDF
Algorithm design and sharper bounds for improving bandits
Avrim Blum, Marten Garicano, Kavya Ravichandran, Dravyansh Sharma · PDF
Aligning Distributionally Robust Optimization with Practical Deep Learning Needs
Dmitrii Feoktistov, Igor Ignashin, Andrey Veprikov, Nikita Borovko, Aleksandr Bogdanov, Savelii Chezhegov, Aleksandr Beznosikov · PDF
Aligning Theory with Practice for Muon-type Optimizers: A Layer-wise Framework
Artem Riabinin, Egor Shulgin, Kaja Gruntkowska, Peter Richtárik · PDF
Analysis of Schedule Free Non-Convex Optimization
Connor Brown, Ahmed Khaled, Chi Jin · PDF
Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization
Fangzhao Zhang, Mert Pilanci · PDF
Asymptotic and Finite-Time Guarantees for Langevin-Based Temperature Annealing in InfoNCE
Faris Chaudhry · PDF
Atlas – Rethinking Optimizer Design for Stability and Speed
Janos Horvath · PDF
Augmented Normalization: Differentiating the Generalized Geometric Median
Tyler King, Ser-Nam Lim · PDF
Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs
Shmulik Markovich-Golan, Daniel Ohayon, Itay Niv, Yair Hanani · PDF
Balanced Locality-Sensitive Hashing for Online Data Selection
Hoang Phan, Yijun Dong, Andrew Gordon Wilson, Qi Lei · PDF
BatchNorm Layers have an Outsized Effect on Adversarial Robustness
Noam Zeise, Tiffany Joyce Vlaar · PDF
Benefits of Learning Rate Annealing for Tuning-Robustness in Stochastic Optimization
Amit Attia, Tomer Koren · PDF
Block-Diagonal K-FAC: A Trade-off Between Curvature Information and Resource Efficiency
Mingzhe Yu, Osamu Tatebe · PDF
Can SGD Handle Heavy-Tailed Noise?
Ilyas Fatkhullin, Florian Hübler, Guanghui Lan · PDF
Can We Estimate The Entropy Of Arbitrary Distributions Known Up To A Normalization Constant?
Safa Messaoud, Skander Charni, Elaa Bouazza, Ali Pourghasemi Fatideh, Halima Bensmail · PDF
Cautious Optimism: A Meta-Algorithm for Near-Constant Regret in General Games
Ashkan Soleymani, Georgios Piliouras, Gabriele Farina · PDF
Central Limit Theorems for Asynchronous Averaged Q-Learning
Xingtu Liu · PDF
Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping
Jinwoo Baek · PDF
Communication Efficient LLM Pre-training with SparseLoCo
Amir Sarfi, Benjamin Thérien, Joel Lidin, Eugene Belilovsky · PDF
Connecting Membership Inference Privacy and Generalization through Instance-Wise Measurements
Leah Woldemariam, Anna Scaglione · PDF
Convergence for Discrete Parameter Update Schemes
Paul W Wilson, Fabio Zanasi, George Anthony Constantinides · PDF
Convex Neural Networks For Robust ASR Language Detection
Miria Feng, Mert Pilanci · PDF
Curriculum-Learning PIELMs for Hemodynamic Flows
Vikas Dwivedi, Monica Sigovan, Sixou Bruno · PDF
Data Generation without Function Estimation
Hadi Daneshmand, Ashkan Soleymani · PDF
Data Geometry Determines Generalization Below the Edge-of-Stability
Tongtong Liang, Alex Cloninger, Rahul Parhi, Yu-Xiang Wang · PDF
Data Source Adaptive Online Learning under Heteroscedastic Noise
Amith Bhat Hosadurga Anand, Aadirupa Saha, Thomas Kleine Buening, Haipeng Luo · PDF
Data-Aware Training Quality Monitoring and Certification for Deep Learning
Farhang Yeganegi, Arian Eamaz, Mojtaba Soltanalian · PDF
Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation
Kaoru Otsuka, Yuki Takezawa, Makoto Yamada · PDF
Designing Algorithms for Entropic Optimal Transport from an Optimisation Perspective
Vishwak Srinivasan, Qijia Jiang · PDF
Distributionally Robust Nash Equilibria via Variational Inequalities
Zeinab Alizadeh, Azadeh Farsi, Afrooz Jalilzadeh · PDF
Distributionally Robust Optimization via Diffusion Ambiguity Modeling
JIAQI WEN, Jianyi Yang · PDF
Domain-Aware Scaling Laws Uncover Data Synergy
Kimia Hamidieh, Lester Mackey, David Alvarez-Melis · PDF
DRO: A Python Library for Distributionally Robust Optimization in Machine Learning
Jiashuo Liu, Tianyu Wang, Henry Lam, Hongseok Namkoong, Jose Blanchet · PDF
DSGD-AC: controlled consensus errors improve generalization in decentralized training
Zesen Wang, Mikael Johansson · PDF
EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients
He-Yen Hsieh, Hong Wang, H. T. Kung · PDF
Efficient Algorithms for Combinatorial-Bandits with Monotonicity
Aniket Wagde, Aadirupa Saha · PDF
Efficient Training of CNN Ensembles via Feature-Prioritized Boosting
Biyi Fang, Truong Vo, Jean Utke, Diego Klabjan · PDF
EMA Without the Lag: Bias-Corrected Iterate Averaging Schemes
Adam Block, Cyril Zhang · PDF
Empirical-Bayes XTFC for Inverse Parameter Estimation
Vikas Dwivedi, Monica Sigovan, Sixou Bruno · PDF
Entropy Meets Importance: A Unified Head Importance–Entropy Score for Stable and Efficient Transformer Pruning
MINSIK CHOI, Hyegang Son, Joohun Hyun, Seokmin Kim, Young Geun Kim · PDF
Error Feedback for Muon and Friends
Kaja Gruntkowska, Alexander Gaponov, Zhirayr Tovmasyan, Peter Richtárik · PDF
Evolution of the Spectral Dimension of Transformer Activations
Andy Zeyi Liu, Elliot Paquette, John Sous · PDF
Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers
Eric Tillmann Bill, Cristian Perez Jensen · PDF
Extending $\mu$P: Spectral Conditions for Feature Learning Across Optimizers
akshita gupta, Marieme Ngom, Sam Foreman, Venkatram Vishwanath · PDF
FairPO: Fair Preference Optimization for Multi-Label Learning
Soumen Kumar Mondal, Prateek Chanda, Akshit Varmora, Ganesh Ramakrishnan · PDF
Fast decentralized gradient tracking for federated learning with local updates
Chris Junchi Li · PDF
Faster Gradient Methods for Highly-smooth Stochastic Bilevel Optimization
Lesi Chen, Junru Li, El Mahdi Chayti, Jingzhao Zhang · PDF
Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update
Abdulla Jasem Almansoori, Maria Ivanova, Andrey Veprikov, Aleksandr Beznosikov, Samuel Horváth, Martin Takáč · PDF
Feature Learning as a Virtual Covariance Learning
Taehun Cha, Donghun Lee · PDF
FineAMP: Optimization-Based Automatic Mixed Precision Quantization for Efficient Diffusion Model Inference
Burak Bartan, Ruizhong Qiu, Rafael Esteves, Yuwei Ren, Weiliang Will Zeng, An Chen · PDF
First Provable Guarantees for Practical Private FL: Beyond Restrictive Assumptions
Egor Shulgin, Grigory Malinovsky, Sarit Khirirat, Peter Richtárik · PDF
Flat Minima and Generalization: Insights from Stochastic Convex Optimization
Matan Schliserman, Shira Vansover-Hager, Tomer Koren · PDF
Foundations of Top-$k$ Decoding for Language Models
Georgy Noarov, Soham Mallick, Tao Wang, Sunay Joshi, Yan Sun, Yangxinyu Xie, Mengxin Yu, Edgar Dobriban · PDF
From Emergence to Intention: A Statistical Inductive Bias for Tractable Optimization in Multi-Agent Coordination
Brennen Hill, Mant Koh En Wei, Jishnuanandh Thangavel · PDF
Gradient Descent’s Last Iterate is Often (slightly) Suboptimal
Guy Kornowski, Ohad Shamir · PDF
Graph-theoretic perspectives on splitting methods for sparse optimal transport
Jacob Lindbäck, Mikael Johansson · PDF
Grassmannian Optimization Drives Generationlization in Overparameterized DNN
Changfeng Wang · PDF
Hessian Spectrum is Constant Across Minimizers in Regularized Deep Scalar Factorization
Anıl Kamber, Rahul Parhi · PDF
Hessian-Dependent Sample Complexity in Zeroth-Order Stochastic Optimization: Nonconvex Support Sampling Is Necessary for Optimality
Mengtian Hong, Jason D. Lee, Qian Yu · PDF
High-dimensional isotropic scaling dynamics of Muon and SGD
Guangyuan Wang, Elliot Paquette, Atish Agarwala · PDF
HiSo: Efficient Federated Zeroth-Order Optimization via Hessian-Informed Acceleration and Scalar-Only Communication
Zhe Li, Bicheng Ying, Zidong Liu, Chaosheng Dong, Haibo Yang · PDF
How Does Layer Normalization Improve Deep $Q$-learning?
Braham Snyder, Hadi Daneshmand, Chen-Yu Wei · PDF
HyperPALoRA: Parameter-Efficient Pareto Hypernetworks via Preference-Based Diverse Low-Rank Adaptations
Ashmita Bhattacharya, Malyaban Bal · PDF
Hyperparameter-Free Auto-Scaled Gradient Normalization via Global Standard Deviation Dynamics
Vincent-Daniel Yun · PDF
Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime
Beomhan Baek, Minhak Song, Chulhee Yun · PDF
Implicit Bias of Polyak and Line-Search Step Sizes on Linear Classification with Separable Data
Chen Fan, Reza Babanezhad Harikandeh, Christos Thrampoulidis, Mark Schmidt, Sharan Vaswani · PDF
Incentivizing Permissionless Distributed Learning of LLMs
Joel Lidin, Amir Sarfi, Evangelos Pappas, Samuel Dare, Eugene Belilovsky, Jacob steeves · PDF
Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression
Tingkai Yan, Haodong Wen, Binghui Li, Kairong Luo, Wenguang Chen, Kaifeng Lyu · PDF
Learning by solving differential equations
Benoit Dherin, Michael Munn, Hanna Mazzawi, Michael Wunder, Sourabh Medapati, Javier Gonzalvo · PDF
Lipschitz Optimization via Weighted Sampling Based on Expected Potential Maximizers Reduction
Hideyuki Masui, Koki Nakane, Renshi Nagasawa · PDF
LOTION: Smoothing the Optimization Landscape for Quantized Training
Mujin Kwun, Depen Morwani, Huangyuan Su, Stephanie Gil, Nikhil Anand, Sham M. Kakade · PDF
M+Adam: Stable Low-Precision Training with Combined Adam--Madam Updates
Xiaoyuan Liang, Sebastian Loeschcke, Mads Toftrup, Anima Anandkumar · PDF
Multi-Timescale Gradient Sliding for Distributed Optimization
Junhui Zhang, Patrick Jaillet · PDF
Muon Optimizes Under Spectral Norm Constraints
Lizhang Chen, Jonathan Li, qiang liu · PDF
New Optimization Methods for Very Large Scale SVMs
Yifan Kang, Yarui Cao, Kai Liu · PDF
On Optimizing Large Scale Multi-Class Logistic Regression
Yifan Kang, Yarui Cao, Kai Liu · PDF
On Riemannian Gradient Descent Algorithm using gradient averaging
Saugata Purkayastha, Sukannya Purkayastha · PDF
On the Benefits of Weight Normalization for Overparameterized Matrix Sensing
Yudong Wei, Liang Zhang, Bingcong Li, Niao He · PDF
On the Finite-Sample Bias of Minimizing Expected Wasserstein Loss Between Empirical Distributions
Cheongjae Jang, Yung-Kyun Noh · PDF
On the Limits of Momentum in Decentralized and Federated Optimization
Riccardo Zaccone, Sai Praneeth Karimireddy, Carlo Masone · PDF
On the Potential of the Four-Point Model for Studying the Role of Optimization in Robustness to Spurious Correlations
Mahdi Ghaznavi, Hesam Asadollahzadeh · PDF
On the Rollout-Training Mismatch in Modern RL Systems
Feng Yao, Liyuan Liu, Dinghuai Zhang, Chengyu Dong, Jingbo Shang, Jianfeng Gao · PDF
One-Sided Matrix Completion from Ultra-Sparse Samples
Hongyang R. Zhang, Zhenshuo Zhang, Huy Nguyen, Guanghui Lan · PDF
OptiBridge: Multi-Scale Multi-Shift Bridging for Conditioning Optimization Landscapes
Farnaz Salehi Sadaghiani, Mojtaba Soltanalian · PDF
Optimal Implicit Bias in Linear Regression
K Nithin Varma, Babak Hassibi · PDF
Optimized Statistical Ranking is All You Need for Robust Coreset Selection in Efficient Transformer-Based Spam Detection
Aisha Hamad Hassan, Tushar Shinde · PDF
OrthoGrad Improves Neural Calibration
C. Evans Hedges · PDF
Parameter-Agnostic Error Feedback Enhanced With Hessian-Corrected Momentum
Abdurakhmon Sadiev, Yury Demidovich, Grigory Malinovsky, Igor Sokolov, Sarit Khirirat, Peter Richtárik · PDF
Partial Parameter Updates for Efficient Distributed Training
Anastasiia Filippova, Angelos Katharopoulos, David Grangier, Ronan Collobert · PDF
PEARL-Prox: Proximal Algorithm for Resolving Player Drift in Multiplayer Federated Learning
TaeHo Yoon, Nicolas Loizou · PDF
Per-Group Distributionally Robust Optimization (Per-GDRO) with Learnable Ambiguity Set Sizes via Bilevel Optimization
Seobeom Jung, Woojae Lee, Jihun Hamm, Jangho Park · PDF
PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts
Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni · PDF
Policy Gradient Methods Converge Globally in Imperfect-Information Extensive-Form Games
Fivos Kalogiannis, Gabriele Farina · PDF
Primal-dual hybrid algorithms for chi-squared regularized Optimal Transport: statistical-computational trade-offs and applications to Wasserstein Barycenters
Denys Ruban, Augusto Gerolin · PDF
Projected Compression
Maciej Stefaniak, Michał Krutul, Mikołaj Dziok, Jan Małaśnicki, Maciej Pióro, Jakub Krajewski, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jan Ludziejewski · PDF
Provable Benefit of Sign Descent: A Minimal Model Under Heavy-Tail Class Imbalance
Robin Yadav, Shuo Xie, Tianhao Wang, Zhiyuan Li · PDF
Quantum Non-Linear Bandit Optimization
Zakaria Shams Siam, Chaowen Guan, Chong Liu · PDF
Quantum Optimal Transport: Regularization and Algorithms
Pavlo Pelikh, Augusto Gerolin · PDF
Quasi-Newton Methods for Federated Learning with Error Feedback
Yanlin Wu, Dmitry Kamzolov, Martin Takáč · PDF
Regularizing the Entropy Landscape of Self-Attention: Towards a Soft Inductive Bias in LLMs
Nandan Kumar Jha, Brandon Reagen · PDF
Revisiting Stochastic Proximal Point Methods: Generalized Smoothness and Similarity
Zhirayr Tovmasyan, Grigory Malinovsky, Laurent Condat, Peter Richtárik · PDF
Revisiting the Geometrically Decaying Step Size: Linear Convergence for Smooth or Non-Smooth Functions
Jihun Kim · PDF
Sharpness-Aware Minimization with Z-Score Gradient Filtering
Vincent-Daniel Yun · PDF
Simultaneous Fine-Tuning and Pruning of LLMs
Finn Reinecke, Jörg K.H. Franke, Frank Hutter, Michael Hefenbrock · PDF
Sparse Adversarial Perturbation-Driven Scalable Coreset Optimization
Tushar Shinde, Manasa Madabhushi · PDF
Spiking Brain Compression: Exploring One-Shot Post-Training Pruning and Quantization for Spiking Neural Networks
Lianfeng Shi, Ao Li, Benjamin Ward-Cherrier · PDF
Stackelberg Learning from Human Feedback: Preference Optimization as a Sequential Game
Barna Pásztor, Thomas Kleine Buening, Andreas Krause · PDF
Stochastic Neural Tangent Kernel: Revisiting the NTK For SGD
Bhavesh Kumar, Dan Mikulincer · PDF
Switching Gradient Methods for Constrained Federated Optimization
Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi · PDF
The Hebbian Forward-Forward Algorithm
Andrii Krutsylo · PDF
The Hidden Cost of Approximation in Online Mirror Descent
Ofir Schlisselberg, Uri Sherman, Tomer Koren, Yishay Mansour · PDF
The Limits of large learning rates: A Case Study in Single Index Models
Bhavesh Kumar, Libin Zhu · PDF
Toward the First Optimization Framework for Low-Rank Adaptation
Grigory Malinovsky, Umberto Michieli, Hasan Abed Al Kader Hammoud, Taha Ceritli, Hayder Elesedy, Mete Ozay, Peter Richtárik · PDF
Towards Characterizing the Complexity of Riemannian Online Convex Optimization
Hibiki Fukushima, Hiroshi Hirai, Shinji Ito · PDF
Towards Quantifying the Hessian Structure of Neural Networks
Zhaorui Dong, Yushun Zhang, Jianfeng Yao, Ruoyu Sun · PDF
Towards Robust Unroll Generalization in Learned Optimizers
Xiaolong Huang, Benjamin Thérien, Eugene Belilovsky · PDF
Understanding and Improving Shampoo via Kullback–Leibler Minimization
Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger Baker Grosse · PDF
Weight Decay may matter more than µP for Learning Rate Transfer in Practice
Atli Kosson, Jeremy Welborn, Yang Liu, Martin Jaggi, Xi Chen · PDF
What really matters in matrix-whitening optimizers?
Kevin Frans, Pieter Abbeel, Sergey Levine · PDF
Who to Trust? Aggregating Client Knowledge in Logit-Based Federated Learning
Viktor Kovalchuk, Nikita Kotelevskii, Maxim Panov, Samuel Horváth, Martin Takáč · PDF
Why Does Stochastic Gradient Descent Slow Down in Low-Precision Training?
Vincent-Daniel Yun · PDF
Zero-Infinity GAN: Stable Dynamics and Implicit Bias of Extragradient
Kyungjae Lee, Donghwan Kim · PDF

Accepted papers (132)

☆\textsc{LeonArDBO}: Fast and Prior-Driven Bayesian Optimization without Surrogate Modeling

☆A Monte Carlo Approach to Nonsmooth Convex Optimization via Proximal Splitting Algorithms

☆A Non-Convex Method for Polynomial Manifold Learning

☆A Simplified Analysis of SGD for Linear Regression with Weight Averaging

☆A stochastic Lagrangian-based method for nonconvex empirical risk minimization with nonlinear constraints

☆A Theoretical Analysis for CUR Decomposition based Active Learning and Feature Selection

☆A Unified Noise-Curvature View of Loss of Trainability

☆Achieving First-Order Statistical Improvements in Data-Driven Optimization

☆AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates

☆Adaptive acceleration without strong convexity priors or restarts

☆Algorithm design and sharper bounds for improving bandits

☆Aligning Distributionally Robust Optimization with Practical Deep Learning Needs

☆Aligning Theory with Practice for Muon-type Optimizers: A Layer-wise Framework

☆Analysis of Schedule Free Non-Convex Optimization

☆Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization

☆Asymptotic and Finite-Time Guarantees for Langevin-Based Temperature Annealing in InfoNCE

☆Atlas – Rethinking Optimizer Design for Stability and Speed

☆Augmented Normalization: Differentiating the Generalized Geometric Median

☆Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs

☆Balanced Locality-Sensitive Hashing for Online Data Selection

☆BatchNorm Layers have an Outsized Effect on Adversarial Robustness

☆Benefits of Learning Rate Annealing for Tuning-Robustness in Stochastic Optimization

☆Block-Diagonal K-FAC: A Trade-off Between Curvature Information and Resource Efficiency

☆Can SGD Handle Heavy-Tailed Noise?

☆Can We Estimate The Entropy Of Arbitrary Distributions Known Up To A Normalization Constant?

☆Cautious Optimism: A Meta-Algorithm for Near-Constant Regret in General Games

☆Central Limit Theorems for Asynchronous Averaged Q-Learning

☆Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping

☆Communication Efficient LLM Pre-training with SparseLoCo

☆Connecting Membership Inference Privacy and Generalization through Instance-Wise Measurements

☆Convergence for Discrete Parameter Update Schemes

☆Convex Neural Networks For Robust ASR Language Detection

☆Curriculum-Learning PIELMs for Hemodynamic Flows

☆Data Generation without Function Estimation

☆Data Geometry Determines Generalization Below the Edge-of-Stability

☆Data Source Adaptive Online Learning under Heteroscedastic Noise

☆Data-Aware Training Quality Monitoring and Certification for Deep Learning

☆Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation

☆Designing Algorithms for Entropic Optimal Transport from an Optimisation Perspective

☆Distributionally Robust Nash Equilibria via Variational Inequalities

☆Distributionally Robust Optimization via Diffusion Ambiguity Modeling

☆Domain-Aware Scaling Laws Uncover Data Synergy

☆DRO: A Python Library for Distributionally Robust Optimization in Machine Learning

☆DSGD-AC: controlled consensus errors improve generalization in decentralized training

☆EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients

☆Efficient Algorithms for Combinatorial-Bandits with Monotonicity

☆Efficient Training of CNN Ensembles via Feature-Prioritized Boosting

☆EMA Without the Lag: Bias-Corrected Iterate Averaging Schemes

☆Empirical-Bayes XTFC for Inverse Parameter Estimation

☆Entropy Meets Importance: A Unified Head Importance–Entropy Score for Stable and Efficient Transformer Pruning

☆Error Feedback for Muon and Friends

☆Evolution of the Spectral Dimension of Transformer Activations

☆Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers

☆Extending $\mu$P: Spectral Conditions for Feature Learning Across Optimizers

☆FairPO: Fair Preference Optimization for Multi-Label Learning

☆Fast decentralized gradient tracking for federated learning with local updates

☆Faster Gradient Methods for Highly-smooth Stochastic Bilevel Optimization

☆Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update

☆Feature Learning as a Virtual Covariance Learning

☆FineAMP: Optimization-Based Automatic Mixed Precision Quantization for Efficient Diffusion Model Inference

☆First Provable Guarantees for Practical Private FL: Beyond Restrictive Assumptions

☆Flat Minima and Generalization: Insights from Stochastic Convex Optimization

☆Foundations of Top-$k$ Decoding for Language Models

☆From Emergence to Intention: A Statistical Inductive Bias for Tractable Optimization in Multi-Agent Coordination

☆Gradient Descent’s Last Iterate is Often (slightly) Suboptimal

☆Graph-theoretic perspectives on splitting methods for sparse optimal transport

☆Grassmannian Optimization Drives Generationlization in Overparameterized DNN

☆Hessian Spectrum is Constant Across Minimizers in Regularized Deep Scalar Factorization

☆Hessian-Dependent Sample Complexity in Zeroth-Order Stochastic Optimization: Nonconvex Support Sampling Is Necessary for Optimality

☆High-dimensional isotropic scaling dynamics of Muon and SGD

☆HiSo: Efficient Federated Zeroth-Order Optimization via Hessian-Informed Acceleration and Scalar-Only Communication

☆How Does Layer Normalization Improve Deep $Q$-learning?

☆HyperPALoRA: Parameter-Efficient Pareto Hypernetworks via Preference-Based Diverse Low-Rank Adaptations

☆Hyperparameter-Free Auto-Scaled Gradient Normalization via Global Standard Deviation Dynamics

☆Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

☆Implicit Bias of Polyak and Line-Search Step Sizes on Linear Classification with Separable Data

☆Incentivizing Permissionless Distributed Learning of LLMs

☆Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression

☆Learning by solving differential equations

\textsc{LeonArDBO}: Fast and Prior-Driven Bayesian Optimization without Surrogate Modeling

A Monte Carlo Approach to Nonsmooth Convex Optimization via Proximal Splitting Algorithms

A Non-Convex Method for Polynomial Manifold Learning

A Simplified Analysis of SGD for Linear Regression with Weight Averaging

A stochastic Lagrangian-based method for nonconvex empirical risk minimization with nonlinear constraints

A Theoretical Analysis for CUR Decomposition based Active Learning and Feature Selection

A Unified Noise-Curvature View of Loss of Trainability

Achieving First-Order Statistical Improvements in Data-Driven Optimization

AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates

Adaptive acceleration without strong convexity priors or restarts

Algorithm design and sharper bounds for improving bandits

Aligning Distributionally Robust Optimization with Practical Deep Learning Needs

Aligning Theory with Practice for Muon-type Optimizers: A Layer-wise Framework

Analysis of Schedule Free Non-Convex Optimization

Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization

Asymptotic and Finite-Time Guarantees for Langevin-Based Temperature Annealing in InfoNCE

Atlas – Rethinking Optimizer Design for Stability and Speed

Augmented Normalization: Differentiating the Generalized Geometric Median

Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs

Balanced Locality-Sensitive Hashing for Online Data Selection

BatchNorm Layers have an Outsized Effect on Adversarial Robustness

Benefits of Learning Rate Annealing for Tuning-Robustness in Stochastic Optimization

Block-Diagonal K-FAC: A Trade-off Between Curvature Information and Resource Efficiency

Can SGD Handle Heavy-Tailed Noise?

Can We Estimate The Entropy Of Arbitrary Distributions Known Up To A Normalization Constant?

Cautious Optimism: A Meta-Algorithm for Near-Constant Regret in General Games

Central Limit Theorems for Asynchronous Averaged Q-Learning

Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping

Communication Efficient LLM Pre-training with SparseLoCo

Connecting Membership Inference Privacy and Generalization through Instance-Wise Measurements

Convergence for Discrete Parameter Update Schemes

Convex Neural Networks For Robust ASR Language Detection

Curriculum-Learning PIELMs for Hemodynamic Flows

Data Generation without Function Estimation

Data Geometry Determines Generalization Below the Edge-of-Stability

Data Source Adaptive Online Learning under Heteroscedastic Noise

Data-Aware Training Quality Monitoring and Certification for Deep Learning

Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation

Designing Algorithms for Entropic Optimal Transport from an Optimisation Perspective

Distributionally Robust Nash Equilibria via Variational Inequalities

Distributionally Robust Optimization via Diffusion Ambiguity Modeling

Domain-Aware Scaling Laws Uncover Data Synergy

DRO: A Python Library for Distributionally Robust Optimization in Machine Learning

DSGD-AC: controlled consensus errors improve generalization in decentralized training

EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients

Efficient Algorithms for Combinatorial-Bandits with Monotonicity

Efficient Training of CNN Ensembles via Feature-Prioritized Boosting

EMA Without the Lag: Bias-Corrected Iterate Averaging Schemes

Empirical-Bayes XTFC for Inverse Parameter Estimation

Entropy Meets Importance: A Unified Head Importance–Entropy Score for Stable and Efficient Transformer Pruning

Error Feedback for Muon and Friends

Evolution of the Spectral Dimension of Transformer Activations

Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers

Extending $\mu$P: Spectral Conditions for Feature Learning Across Optimizers

FairPO: Fair Preference Optimization for Multi-Label Learning

Fast decentralized gradient tracking for federated learning with local updates

Faster Gradient Methods for Highly-smooth Stochastic Bilevel Optimization

Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update

Feature Learning as a Virtual Covariance Learning

FineAMP: Optimization-Based Automatic Mixed Precision Quantization for Efficient Diffusion Model Inference

First Provable Guarantees for Practical Private FL: Beyond Restrictive Assumptions

Flat Minima and Generalization: Insights from Stochastic Convex Optimization

Foundations of Top-$k$ Decoding for Language Models

From Emergence to Intention: A Statistical Inductive Bias for Tractable Optimization in Multi-Agent Coordination

Gradient Descent’s Last Iterate is Often (slightly) Suboptimal

Graph-theoretic perspectives on splitting methods for sparse optimal transport

Grassmannian Optimization Drives Generationlization in Overparameterized DNN

Hessian Spectrum is Constant Across Minimizers in Regularized Deep Scalar Factorization

Hessian-Dependent Sample Complexity in Zeroth-Order Stochastic Optimization: Nonconvex Support Sampling Is Necessary for Optimality

High-dimensional isotropic scaling dynamics of Muon and SGD

HiSo: Efficient Federated Zeroth-Order Optimization via Hessian-Informed Acceleration and Scalar-Only Communication

How Does Layer Normalization Improve Deep $Q$-learning?

HyperPALoRA: Parameter-Efficient Pareto Hypernetworks via Preference-Based Diverse Low-Rank Adaptations

Hyperparameter-Free Auto-Scaled Gradient Normalization via Global Standard Deviation Dynamics

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Implicit Bias of Polyak and Line-Search Step Sizes on Linear Classification with Separable Data

Incentivizing Permissionless Distributed Learning of LLMs

Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression

Learning by solving differential equations

Lipschitz Optimization via Weighted Sampling Based on Expected Potential Maximizers Reduction