ICML 2024PastEfficiencyOptimization

2nd Workshop on Advancing Neural Network Training: Computational Efficiency, Scalability, and Resource Optimization (WANT@ICML 2024)

WANT@ICML 2024

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: Jun 3, 2024, 12:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (42)

Fetched from OpenReview (v2) on 2026-06-10.

Accelerating Best-of-N via Speculative Rejection
Ruiqi Zhang, Momin Haider, Ming Yin, Jiahao Qiu, Mengdi Wang, Peter Bartlett, Andrea Zanette · PDF
AdaMeM: Memory Efficient Momentum for Adafactor
Nikhil Vyas, Depen Morwani, Sham M. Kakade · PDF
Adaptive Model Pruning in Federated Learning through Loss Exploration
Christian Internò, Elena Raponi, Niki van Stein, Thomas Bäck, Markus Olhofer, Yaochu Jin, Barbara Hammer · PDF
Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies
Brian R. Bartoldson, James Diffenderfer, Konstantinos Parasyris, Bhavya Kailkhura · PDF
An Analytical Approach to Enhancing DNN Efficiency and Accuracy Using Approximate Multiplication
Salar Shakibhamedan, Anice Jahanjoo, Amin Aminifar, Nima Amirafshar, Nima TaheriNejad, Axel Jantsch · PDF
Asynchronous Local-SGD Training for Language Modeling
Bo Liu, Rachita Chhaparia, Arthur Douillard, Satyen Kale, Andrei Alex Rusu, Jiajun Shen, Arthur Szlam, MarcAurelio Ranzato · PDF
Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates
Cristian Meo, Ksenia Sycheva, Anirudh Goyal, Justin Dauwels · PDF
Boolean Logic for Low-Energy Deep Learning
Van Minh Nguyen, Cristian Ocampo, Aymen Askri, Ba-Hien Tran · PDF
Can LLMs Enhance Performance Prediction for Deep Learning Models?
Karthick Panner Selvam, Phitchaya Mangpo Phothilimthana, Sami Abu-El-Haija, Bryan Perozzi, Mats Brorsson · PDF
Class-aware Initialization of Early Exits for Pre-training Large Language Models
Alperen Gormez, Erdem Koyuncu · PDF
Coarse-to-Fine Semi-Structured Pruning of Graph Convolutional Networks for Skeleton-based Recognition
Hichem Sahbi · PDF
Communication Efficient Federated Learning with Differentiated Aggregation
Peyman Gholami, Hulya Seferoglu · PDF
DASH: Warm-Starting Neural Network Training Without Loss of Plasticity Under Stationarity
Baekrok Shin, Junsoo Oh, Hanseul Cho, Chulhee Yun · PDF
DiLoCo: Distributed Low-Communication Training of Language Models
Arthur Douillard, Qixuan Feng, Andrei Alex Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, MarcAurelio Ranzato, Arthur Szlam, Jiajun Shen · PDF
DrJAX: Scalable and Differentiable MapReduce Primitives in JAX
J Keith Rush, Zachary Charles, Zachary Garrett, Sean Augenstein, Nicole Elyse Mitchell · PDF
ECO: Efficient Computational Optimization for Exact Machine Unlearning in Deep Neural Networks
Yu-Ting Huang, Pei-Yuan Wu, Chuan-Ju Wang · PDF
Effective Layer Pruning Through Similarity Metric Perspective
Ian Pons, Bruno Yamamoto, Anna Helena Reali Costa, Artur Jordao · PDF
Efficient Adaptive Federated Optimization
Su Hyeong Lee, Sidharth Sharma, Manzil Zaheer, Tian Li · PDF
Efficient Document Ranking with Learnable Late Interactions
Himanshu Jain, Ziwei Ji, Ankit Singh Rawat, Andreas Veit, Sadeep Jayasumana, Sashank J. Reddi, Aditya Krishna Menon, Felix Yu · PDF
Enhancing Fine-grained Multi-modal Alignment via Adapters: A Parameter-Efficient Training Framework for Referring Image Segmentation
Zunnan Xu, Jiaqi Huang, Ting Liu, Yong Liu, Haonan Han, Kehong Yuan, Xiu Li · PDF
Fisher-aware Quantization for DETR Detectors with Critical-category Objectives
Huanrui Yang, Yafeng Huang, Zhen Dong, Denis A Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Yuan Du, Kurt Keutzer, Shanghang Zhang · PDF
Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough
Konstantin Dobler, Gerard de Melo · PDF
Liouna: Biologically Plausible Learning for Efficient Pre-Training of Transferrable Deep Models
Fady Rezk, Antreas Antoniou, Henry Gouk, Timothy Hospedales · PDF
LoQT: Low Rank Adapters for Quantized Training
Sebastian Bugge Loeschcke, Mads Toftrup, Michael Kastoryano, Serge Belongie, Vésteinn Snæbjarnarson · PDF
Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs
Ashwinee Panda, Berivan Isik, Xiangyu Qi, Sanmi Koyejo, Tsachy Weissman, Prateek Mittal · PDF
Lowering PyTorch's Memory Consumption for Selective Differentiation
Samarth Bhatia, Felix Dangel · PDF
Memory and Bandwidth are All You Need for Fully Sharded Data Parallel
Jiangtao Wang, Jan Ebert, Oleg Filatov, Stefan Kesselheim · PDF
Model-Agnostic Graph Dataset Compression with the Tree Mover’s Distance
Mika Sarkin Jain, Stefanie Jegelka, Ishani Karmarkar, Luana Ruiz, Ellen Vitercik · PDF
MoReDrop: Dropout without Dropping
Li Jiang, Duo Li, Yichuan Ding, Xue Liu, Victor Wai Kin Chan · PDF
Multi-objective Differentiable Neural Architecture Search
Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Samuel Dooley, Josif Grabocka, Frank Hutter · PDF
Optimistic Asynchrony Control: Achieving Synchronous Convergence With Asynchronous Throughput for Embedding Model Training
Roger Waleffe, Jason Mohoney · PDF
Resolving Discrepancies in Compute-Optimal Scaling of Language Models
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon · PDF
Resource-constrained Neural Architecture Search on Language Models: A Case Study
Andreas Paraskeva, Joao Pedro Reis, Suzan Verberne, Jan N. van Rijn · PDF
SatDiffMoE: A Mixture of Estimation Method for Satellite Image Super-resolution with Latent Diffusion Models
Zhaoxu Luo, Bowen Song, Liyue Shen · PDF
Scalify: scale propagation for efficient low-precision LLM training
Paul Balanca, Samuel Hosegood, Carlo Luschi, Andrew W Fitzgibbon · PDF
Single Train Multi Deploy on Topology Search Spaces using Kshot-Hypernet
Jingyue Zhuge, Christian Mayr, Anand Subramoney, David Kappel · PDF
SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors
Vijay Lingam, Atula Tejaswi Neerkaje, Aditya Vavre, Aneesh Shetty, Gautham Krishna Gudur, Joydeep Ghosh, Eunsol Choi, Alex Dimakis, Aleksandar Bojchevski, sujay sanghavi · PDF
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
Zhengqing Yuan, Zhaoxu Li, Weiran Huang, Yanfang Ye, Lichao Sun · PDF
Towards Efficient and Scalable Training of Differentially Private Deep Learning
Sebastian Rodriguez Beltran, Marlon Tobaben, Niki Andreas Loppi, Antti Honkela · PDF
u-μP: The Unit-Scaled Maximal Update Parametrization
Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Yuri Prince, Björn Deiseroth, Andres Felipe Cruz-Salinas, Carlo Luschi, Samuel Weinbach, Douglas Orr · PDF
Variational Stochastic Gradient Descent for Deep Neural Networks
Haotian Chen, Anna Kuzina, Babak Esmaeili, Jakub M. Tomczak · PDF
Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity
Wentao Guo, Jikai Long, Yimeng Zeng, Zirui Liu, Xinyu Yang, Yide Ran, Jacob R. Gardner, Osbert Bastani, Christopher De Sa, Xiaodong Yu, Beidi Chen, Zhaozhuo Xu · PDF

Accepted papers (42)

☆Accelerating Best-of-N via Speculative Rejection

☆AdaMeM: Memory Efficient Momentum for Adafactor

☆Adaptive Model Pruning in Federated Learning through Loss Exploration

☆Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies

☆An Analytical Approach to Enhancing DNN Efficiency and Accuracy Using Approximate Multiplication

☆Asynchronous Local-SGD Training for Language Modeling

☆Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates

☆Boolean Logic for Low-Energy Deep Learning

☆Can LLMs Enhance Performance Prediction for Deep Learning Models?

☆Class-aware Initialization of Early Exits for Pre-training Large Language Models

☆Coarse-to-Fine Semi-Structured Pruning of Graph Convolutional Networks for Skeleton-based Recognition

☆Communication Efficient Federated Learning with Differentiated Aggregation

☆DASH: Warm-Starting Neural Network Training Without Loss of Plasticity Under Stationarity

☆DiLoCo: Distributed Low-Communication Training of Language Models

☆DrJAX: Scalable and Differentiable MapReduce Primitives in JAX

☆ECO: Efficient Computational Optimization for Exact Machine Unlearning in Deep Neural Networks

☆Effective Layer Pruning Through Similarity Metric Perspective

☆Efficient Adaptive Federated Optimization

☆Efficient Document Ranking with Learnable Late Interactions

☆Enhancing Fine-grained Multi-modal Alignment via Adapters: A Parameter-Efficient Training Framework for Referring Image Segmentation

☆Fisher-aware Quantization for DETR Detectors with Critical-category Objectives

☆Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough

☆Liouna: Biologically Plausible Learning for Efficient Pre-Training of Transferrable Deep Models

☆LoQT: Low Rank Adapters for Quantized Training

☆Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

☆Lowering PyTorch's Memory Consumption for Selective Differentiation

☆Memory and Bandwidth are All You Need for Fully Sharded Data Parallel

☆Model-Agnostic Graph Dataset Compression with the Tree Mover’s Distance

☆MoReDrop: Dropout without Dropping

☆Multi-objective Differentiable Neural Architecture Search

☆Optimistic Asynchrony Control: Achieving Synchronous Convergence With Asynchronous Throughput for Embedding Model Training

☆Resolving Discrepancies in Compute-Optimal Scaling of Language Models

☆Resource-constrained Neural Architecture Search on Language Models: A Case Study

☆SatDiffMoE: A Mixture of Estimation Method for Satellite Image Super-resolution with Latent Diffusion Models

☆Scalify: scale propagation for efficient low-precision LLM training

☆Single Train Multi Deploy on Topology Search Spaces using Kshot-Hypernet

☆SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors

☆TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

☆Towards Efficient and Scalable Training of Differentially Private Deep Learning

☆u-μP: The Unit-Scaled Maximal Update Parametrization

☆Variational Stochastic Gradient Descent for Deep Neural Networks

☆Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity

Accelerating Best-of-N via Speculative Rejection

AdaMeM: Memory Efficient Momentum for Adafactor

Adaptive Model Pruning in Federated Learning through Loss Exploration

Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies

An Analytical Approach to Enhancing DNN Efficiency and Accuracy Using Approximate Multiplication

Asynchronous Local-SGD Training for Language Modeling

Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates

Boolean Logic for Low-Energy Deep Learning

Can LLMs Enhance Performance Prediction for Deep Learning Models?

Class-aware Initialization of Early Exits for Pre-training Large Language Models

Coarse-to-Fine Semi-Structured Pruning of Graph Convolutional Networks for Skeleton-based Recognition

Communication Efficient Federated Learning with Differentiated Aggregation

DASH: Warm-Starting Neural Network Training Without Loss of Plasticity Under Stationarity

DiLoCo: Distributed Low-Communication Training of Language Models

DrJAX: Scalable and Differentiable MapReduce Primitives in JAX

ECO: Efficient Computational Optimization for Exact Machine Unlearning in Deep Neural Networks

Effective Layer Pruning Through Similarity Metric Perspective

Efficient Adaptive Federated Optimization

Efficient Document Ranking with Learnable Late Interactions

Enhancing Fine-grained Multi-modal Alignment via Adapters: A Parameter-Efficient Training Framework for Referring Image Segmentation

Fisher-aware Quantization for DETR Detectors with Critical-category Objectives

Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough

Liouna: Biologically Plausible Learning for Efficient Pre-Training of Transferrable Deep Models

LoQT: Low Rank Adapters for Quantized Training

Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

Lowering PyTorch's Memory Consumption for Selective Differentiation

Memory and Bandwidth are All You Need for Fully Sharded Data Parallel

Model-Agnostic Graph Dataset Compression with the Tree Mover’s Distance

MoReDrop: Dropout without Dropping

Multi-objective Differentiable Neural Architecture Search

Optimistic Asynchrony Control: Achieving Synchronous Convergence With Asynchronous Throughput for Embedding Model Training

Resolving Discrepancies in Compute-Optimal Scaling of Language Models

Resource-constrained Neural Architecture Search on Language Models: A Case Study

SatDiffMoE: A Mixture of Estimation Method for Satellite Image Super-resolution with Latent Diffusion Models

Scalify: scale propagation for efficient low-precision LLM training

Single Train Multi Deploy on Topology Search Spaces using Kshot-Hypernet

SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Towards Efficient and Scalable Training of Differentially Private Deep Learning

u-μP: The Unit-Scaled Maximal Update Parametrization

Variational Stochastic Gradient Descent for Deep Neural Networks

Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity