ICML 2025PastEfficiencyML systemsLarge language models

ES-FoMo III: 3rd Workshop on Efficient Systems for Foundation Models

Name: ES-FoMo III: 3rd Workshop on Efficient Systems for Foundation Models (ES-FoMo)
Start: Jul 19, 2025

ES-FoMo

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Unverified seed entry. Some fields are estimates — confirm everything on the official website before planning a submission.

Submission deadline: May 27, 2025, 11:59 UTC
SEED estimate of the historical deadline — verify
Workshop day: Jul 19, 2025
Submission portal: OpenReview
Notes: SEED DATA — name/website from the OpenReview venue record; workshop date estimated — verify.

Accepted papers (146)

Fetched from OpenReview (v2) on 2026-06-10.

$\mu$-MoE: Test-Time Pruning as Micro-Grained Mixture-of-Experts
Toshiaki Koike-Akino, Jing Liu, Ye Wang · PDF
A Minimalist Optimizer Design for LLM Pretraining
Athanasios Glentis, Jiaxiang Li, Andi Han, Mingyi Hong · PDF
A Survey on Prompt Tuning
Zongqian Li, Yixuan Su, Nigel Collier · PDF
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models
Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma · PDF
Accelerated Test-Time Scaling with Model-Free Speculative Sampling
Woomin Song, Saket Dingliwal, Sai Muralidhar Jayanthi, Bhavana Ganesh, Jinwoo Shin, Aram Galstyan, Sravan Babu Bodapati · PDF
Accelerating Linear Attention Design by Unifying Forward & Backward Propagation
Zhen Qin, Xuyang Shen, Dong Li, Yiran Zhong · PDF
Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts
Haizhong Zheng, Yang Zhou, Brian R. Bartoldson, Bhavya Kailkhura, Fan Lai, Jiawei Zhao, Beidi Chen · PDF
Adaptive Backbone Selection for Efficient and Real-Time Vision Inference
Syed Amir Hamza, Alexander Jesser · PDF
Adaptive Self-improvement LLM Agentic System for ML Library Development
Genghan Zhang, Weixin Liang, Olivia Hsu, Kunle Olukotun · PDF
An Efficient Row-Based Sparse Fine-Tuning with Low Quantization Error
Cen-Jhih Li, Aditya Bhaskara · PDF
Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
Shuchen Xue, Tianyu Xie, Tianyang Hu, Zijin Feng, Jiacheng Sun, Kenji Kawaguchi, Zhenguo Li, Zhi-Ming Ma · PDF
AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
Wei Fu, Jiaxuan Gao, Shusheng Xu, Zhiyu Mei, Chen Zhu, Xujie Shen, Chuyi He, Guo Wei, Jun Mei, WANG JIASHU, Tongkai Yang, Binhang Yuan, Yi Wu · PDF
Autoregressive Language Modeling by Compressed Sequence Mixing
Jatin Prakash, Aahlad Manas Puli, Rajesh Ranganath · PDF
AWP: Activation-aware Weight Pruning and Quantization with Projected Gradient Descent
Jing Liu, Toshiaki Koike-Akino, Ye Wang, Hassan Mansour, Matthew Brand · PDF
Balancing LoRA Performance and Efficiency with Simple Shard Sharing
Jiale Kang, Qingyu Yin · PDF
Batch-Max: Higher LLM Throughput using Larger Batch Sizes and KV Cache Compression
Michael R. Metel, Boxing Chen, Mehdi Rezagholizadeh · PDF
Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis
Gholamali Aminian, Idan Shenfeld, Amir R. Asadi, Ahmad Beirami, Youssef Mroueh · PDF
Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training
Vaibhav Singh, Paul Janson, Paria Mehrbod, Adam Ibrahim, Irina Rish, Eugene Belilovsky, Benjamin Thérien · PDF
BlockBPE: Parallel BPE Tokenization
Amos You · PDF
BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
Xuechen Zhang, Zijian Huang, Yingcong Li, Chenshun Ni, Jiasi Chen, Samet Oymak · PDF
Byzantine-Resilient Zero-Order Optimization for Scalable Federated Fine-Tuning of Large Language Models
Maximilian Egger, Mayank Bakshi, Rawad Bitar · PDF
Cache Saver: A Modular Framework for Efficient, Affordable, and Reproducible LLM Inference
Nearchos Potamitis, Lars Henning Klein, Chongyang Xu, Attreyee Mukherjee, Bardia Mohammadi, Niket Tandon, Laurent Bindschaedler, Akhil Arora · PDF
CarbonGearRL: Precision-Elastic, Carbon-Aware Scheduling for Foundation-Model Training
Thomas Y Chen · PDF
Cartridges: Lightweight and general-purpose long context representations via self-study
Sabri Eyuboglu, Ryan Saul Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Ruoyu Liu, Atri Rudra, James Y. Zou, Azalia Mirhoseini, Christopher Re · PDF
Chipmunk: Training-Free Acceleration of Diffusion Transformers with Dynamic Column-Sparse Deltas
Austin Silveria, Soham V. Govande, Daniel Y Fu · PDF
CoDM: A Co-design Framework for Efficient Sparse Diffusion Models
Xiaolong Wu, Xiang Gao, Xiyun Song, Zongfang Lin, Heather Yu, David Gu · PDF
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers
Woomin Song, Sai Muralidhar Jayanthi, Srikanth Ronanki, Kanthashree Mysore Sathyendra, Jinwoo Shin, Aram Galstyan, Shubham Katiyar, Sravan Babu Bodapati · PDF
Compressing Large Language Models to Any Size Without Re-Computation
Martin Genzel, Patrick Putzky, Pengfei Zhao, Sebastian Schulze, Mattes Mollenhauer, Robert Seidel, Stefan Dietzel, Thomas Wollmann · PDF
ConMeZO: Adaptive Directional Sampling for Gradient-Free Finetuning of Language Models
Lejs Deen Behric, Liang Zhang, Bingcong Li, Kiran Koshy Thekumparampil · PDF
Context-lite Multi-turn Reinforcement Learning for LLM Agents
Wentse Chen, Jiayu Chen, Hao Zhu, Jeff Schneider · PDF
Continuous Autoregressive Generation with Mixture of Gaussians
Alex Quach, Tsun-Hsuan Wang, Ramin Hasani, Mathias Lechner, Alexander Amini · PDF
Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching
Qizheng Zhang, Michael Wornow, Kunle Olukotun · PDF
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
Siyan Zhao, Devaansh Gupta, Qinqing Zheng, Aditya Grover · PDF
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, yelong shen · PDF
DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
Yuheng Wu, Jianwen Xie, Denghui Zhang, Zhaozhuo Xu · PDF
Demystifying Language Model Forgetting with Low-rank Example Associations
Xisen Jin, Xiang Ren · PDF
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness
Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Ser-Nam Lim, Rajiv Ramnath · PDF
Early Attentive Sparsification Accelerates Neural Speech Transcription
Zifei Xu, Sayeh Sharify, Hesham Mostafa, Tristan J Webb, Wanzin Yazar, Xin Wang · PDF
Efficient and Accurate KV-cache Management for Long-Sequence LLMs
Yuzhen Mao, Qitong Wang, Martin Ester, Ke Li · PDF
Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs
Guoliang He, Youhe Jiang, Wencong Xiao, Jiang Kaihua, Shuguang Wang, Jun Wang, Du Zixian, Zhuo Jiang, Xinlei Zhang, Binhang Yuan, Eiko Yoneki · PDF
Efficient Temporal Tokenization for Mobility Prediction with Large Language Models
Haoyu He, Haozheng Luo, Yan Chen, Qi R. Wang · PDF
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile
Hangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang · PDF
Exchangeability in Neural Network Architectures and its Application to Dynamic Pruning
Pu Luke Yi, Tianlang Chen, Yifan Yang, Sara Achour · PDF
Exploring Diffusion Transformer Designs via Grafting
Keshigeyan Chandrasegaran, Michael Poli, Daniel Y Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei · PDF
Fed-SB: A Silver Bullet for Extreme Communication Efficiency and Performance in (Private) Federated LoRA Fine-Tuning
Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Lav R. Varshney, Praneeth Vepakomma · PDF
Flexi-LoRA: Efficient LoRA Finetuning with Input-Adaptive Dynamic Ranks
Zongqian Li, Yixuan Su, Han Zhou, Zihao Fu, Nigel Collier · PDF
Foreign Sparse Attention: Effective Distillation into Sparse Attention
Vijaykaarti Sundarapandiyan, Tom Goldstein, Ashwinee Panda · PDF
FPTQuant: Function-Preserving Transforms for LLM Quantization
Boris van Breugel, Yelysei Bondarenko, Paul N. Whatmough, Markus Nagel · PDF
FrugalRAG: Learning to retrieve and reason for multi-hop QA
Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan, Amit Sharma · PDF
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping · PDF
GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization
Martin Andrews, Sam Witteveen · PDF
Graph Signal Processing Meets Mamba2: Adaptive Filter Bank via Delta Modulation
Yehjin Shin, Seojin Kim, Noseong Park · PDF
Guided Speculative Inference for Efficient Test-Time Alignment of LLMs
Jonathan Geuter, Youssef Mroueh, David Alvarez-Melis · PDF
HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations
Marco Federici, Riccardo Del Chiaro, Boris van Breugel, Paul N. Whatmough, Markus Nagel · PDF
Hardware-Efficient Attention for Fast Decoding
Ted Zadouri, Hubert Strauss, Tri Dao · PDF
How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?
Tuan Anh Tran, Duy Minh Ho Nguyen, Hoai-Chau Tran, Michael Barz, Khoa D Doan, Roger Wattenhofer, Vien Anh Ngo, Mathias Niepert, Daniel Sonntag, Paul Swoboda · PDF
How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach
Ayeong Lee, Ethan Che, Tianyi Peng · PDF
InterLoRA: An Adaptive LoRA Structure Based on The Mechanistic Interpretability of Transformer
Jihao Gu, Zelin Wang, Yibo Zhang, Ping Gong, Zhisong Bie · PDF
Is Visual Prompting the Right Setup for Knowledge Transfer in new Foundation Models?
Niclas Hergenröther, Antonio Orvieto · PDF
Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers
Sarthak Mittal, Divyat Mahajan, Guillaume Lajoie, Mohammad Pezeshki · PDF
JSONSchemaBench: Evaluating Constrained Decoding with LLMs on Efficiency, Coverage and Quality
Saibo Geng, Hudson Cooper, Michal Moskal, Samuel Jenkins, Julian Berman, Nathan Ranchin, Robert West, Eric Horvitz, Harsha Nori · PDF
Kevin: Multi-Turn RL for Generating CUDA Kernels
Carlo Baronio, Pietro Marsella, Ben Pan, Simon Guo, Silas Alberti · PDF
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song · PDF
Language System: A Lightweight Ranking Framework for Language Models
Chenheng Zhang, Tianqi Du, Jizhe Zhang, Mingqing Xiao, Yifei Wang, Yisen Wang, Zhouchen Lin · PDF
Large Reasoning Models Know How to Think Efficiently
Zeyu XING, Xing Li, Huiling Zhen, Xianzhi Yu, Mingxuan Yuan, Sinno Jialin Pan · PDF
LATTICE: Learning to Efficiently Compress the Memory
Mahdi Karami, Vahab Mirrokni · PDF
Learning Adaptive Parallel Reasoning with Language Models
Jiayi Pan, Xiuyu Li, Long Lian, Charlie Victor Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr · PDF
Learning to Discover Abstractions for LLM Reasoning
Yuxiao Qu, Anikait Singh, Yoonho Lee, Amrith Setlur, Ruslan Salakhutdinov, Chelsea Finn, Aviral Kumar · PDF
Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection
Shivam Chandhok, Qian Yang, Oscar Mañas, Kanishk Jain, Aishwarya Agrawal, Leonid Sigal · PDF
LOGAH: Initialize Large Transformers via Small Graph HyperNetworks
Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu · PDF
LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification
Penghui Yang, Cunxiao Du, Fengzhuo Zhang, Haonan Wang, Tianyu Pang, Chao Du, Bo An · PDF
LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs
Reza Arabpour, Haitz Sáez de Ocáriz Borde, Anastasis Kratsios · PDF
LoRA Merging with SVD: Understanding Interference and Preserving Performance
Dennis Tang, Prateek Yadav, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal · PDF
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement
Xuechen Zhang, Zijian Huang, Chenshun Ni, Ziyang Xiong, Jiasi Chen, Samet Oymak · PDF
Mamba Drafters for Speculative Decoding
Daewon Choi, Seunghyuk Oh, Saket Dingliwal, Jihoon Tack, Kyuyoung Kim, Woomin Song, Seojin Kim, Insu Han, Jinwoo Shin, Aram Galstyan, Shubham Katiyar, Sravan Babu Bodapati · PDF
MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models
Mugilan Ganesan, Shane Segal, Ankur Aggarwal, Nish Sinnadurai, Sean Lie, Vithursan Thangarasa · PDF
MatMuls are Enough for Efficient and Performant Linear-Time Attention
Andrew Argatkiny, Ilya Makarov · PDF
Mitigating Over-Smoothing in Mamba2 via Spectral Domain Analysis
Seojin Kim, Yehjin Shin, Noseong Park · PDF
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Thinking
Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Aaron Courville, Se-Young Yun · PDF
Model Parallelism With Subnetwork Data Parallelism
Vaibhav Singh, Zafir Khalid, Eugene Belilovsky, Edouard Oyallon · PDF
MTraining: Efficient Distributed Training for Ultra-Long Contexts via Dynamic Sparse Attention
Wenxuan Li, Chengruidong Zhang, Huiqiang Jiang, Yucheng Li, Yuqing Yang, Lili Qiu · PDF
Mu-Parametrization for Mixture of Experts
Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski · PDF
MuLoCo: Muon is a practical inner optimizer for DiLoCo
Benjamin Thérien, Xiaolong Huang, Irina Rish, Eugene Belilovsky · PDF
Multi-stream Sequence Learning
Mohamed Elsayed, A. Rupam Mahmood · PDF
Multi-student Diffusion Distillation for Better One-step Generators
Yanke Song, Jonathan Lorraine, Weili Nie, Karsten Kreis, James Lucas · PDF
Next-Token Prediction Should be Ambiguity-Sensitive : A Meta-Learing Perspective
Leo Gagnon, Eric Elmoznino, Sarthak Mittal, Tom Marty, Tejas Kasetty, Dhanya Sridhar, Guillaume Lajoie · PDF
One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning
Ritesh Goru, Shanay Mehta, Prateek Jain · PDF
Optimal Formats for Weight Quantisation
Douglas Orr, Luka Ribar, Carlo Luschi · PDF
Outlier-Free Genomic Foundation Models for Resource-Efficient Training and Low-Bit Inference
Chenghao Qiu, Haozheng Luo, Maojiang Su, Zhihan Zhou, Zoe Mehta, Guo Ye, Jerry Yao-Chieh Hu, Han Liu · PDF
Overcoming Long-Context Limitations of State-Space Models via Context-Dependent Sparse Attention
Zhihao Zhan, Jianan Zhao, Zhaocheng Zhu, Jian Tang · PDF
Partition Generative Modeling: Masked Modeling Without Masks
Justin Deschenaux, Lan Tran, Caglar Gulcehre · PDF
PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts
Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni · PDF
PiKV: KV Cache Management System for MoE Architecture
Dong Liu, Yanxuan Yu, Ben Lengerich, Ying Nian Wu, Xuhong Wang · PDF
pLSTM: parallelizable Linear Source Transition Mark networks
Korbinian Pöppel, Richard Freinschlag, Thomas Schmied, Wei Lin, Sepp Hochreiter · PDF
PoLAR: Polar-Decomposed Low-Rank Adapter Representation
Kai Lion, Liang Zhang, Bingcong Li, Niao He · PDF
PoTPTQ: A Two-step Power-of-Two Post-training for LLMs
Xinyu Wang, Vahid Partovi Nia, Peng Lu, Jerry Huang, Xiao-Wen Chang, Boxing Chen, Yufei Cui · PDF
Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models
Aneesh Muppidi, Katrina Brown, Rana Shahout · PDF
Privacy Isn’t Free: Benchmarking the Systems Cost of Privacy-Preserving ML
Nnaemeka Casmir Obiefuna, Samuel Oladayo Oyeneye, Similoluwa Odunaiya, Iremide Blessing Oyelaja, Steven Kolawole · PDF
Private Zeroth-Order Optimization with Public Data
Xuchen Gong, Tian Li · PDF
Proof-of-Concept for Private Local-to-Cloud LLM Chat via Trusted Execution Environments
Avanika Narayan, Dan Biderman, Christopher Re · PDF
PT-MoE: An Efficient Finetuning Framework for Integrating Mixture-of-Experts into Prompt Tuning
Zongqian Li, Yixuan Su, Nigel Collier · PDF
Q-Adam-mini: Memory-Efficient 8-bit Quantized Optimizer for Large Language Model Training
Yizhou Han, Chaohao Yang, Congliang Chen, Xingjian Wang, Ruoyu Sun · PDF
QuarterMap: Efficient Post-Training Token Pruning for Visual State Space Models
Tien-Yu Chi, Hung-Yueh Chiang, Diana Marculescu, Kai-Chiang Wu · PDF
Quartet: Native FP4 Training Can Be Optimal for Large Language Models
Roberto L. Castro, Andrei Panferov, Rush Tabesh, Jiale Chen, Oliver Sieberling, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh · PDF
Radio: Rate–Distortion Optimization for Large Language Model Compression
Sean I. Young · PDF
Resource-efficient Inference with Foundation Model Programs
Lunyiu Nie, Zhimin Ding, Kevin Yu, Marco Cheung, Chris Jermaine, Swarat Chaudhuri · PDF
Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs
Beomsik Cho, Jaehyung Kim · PDF
SageAttention2++: A More Efficient Implementation of SageAttention2
Jintao Zhang, Xiaoming Xu, Jia wei, Haofeng Huang, Pengle Zhang, Chendong Xiang, Jun Zhu, Jianfei Chen · PDF
SARA: Selective and Adaptive Retrieval-augmented Generation with Context Compression
Yiqiao Jin, Kartik Sharma, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar · PDF
Scaling Fine-Grained MoE Beyond 50B Parameters: Empirical Evaluation and Practical Insights
Jakub Krajewski, Marcin Chochowski, Daniel Korzekwa · PDF
Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling
Mónika Farsang, Ramin Hasani, Radu Grosu · PDF
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
Jonas Geiping, Sean Michael McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein · PDF
SD$^2$: Self-Distilled Sparse Drafters
Mike Lasby, Nish Sinnadurai, Valavan Manohararajah, Sean Lie, Yani Ioannou, Vithursan Thangarasa · PDF
Shrinking the Generation-Verification Gap with Weak Verifiers
Jon Saad-Falcon, E. Kelly Buchanan, Mayee F Chen, Tzu-Heng Huang, Brendan McLaughlin, Tanvir Bhathal, Shang Zhu, Ben Athiwaratkun, Frederic Sala, Scott Linderman, Azalia Mirhoseini, Christopher Re · PDF
SortedRL: Accelerating RL Training for LLMs through Online Length-aware Scheduling
Yiqi Zhang, Huiqiang Jiang, Xufang Luo, Zhihe Yang, Chengruidong Zhang, Yifei Shen, Dongsheng Li, Yuqing Yang, Lili Qiu, Yang You · PDF
SpecCoT: Accelerating Chain-of-Thought Reasoning through Speculative Exploration
Junhan Shi, Yijia Zhu, Zhenning Shi, Dan Zhao, Qing Li, Yong Jiang · PDF
SPECS: Faster Test-Time Scaling through Speculative Drafts
Mert Cemri, Nived Rajaraman, Rishabh Tiwari, Xiaoxuan Liu, Kurt Keutzer, Ion Stoica, Kannan Ramchandran, Ahmad Beirami, Ziteng Sun · PDF
Speeding up Speculative Decoding via Sequential Approximate Verification
Meiyu Zhong, Noel Teku, Ravi Tandon · PDF
Steering LLM Reasoning Through Bias-Only Adaptation
Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov · PDF
Tail-Optimized Caching for LLM Inference
Wenxin Zhang, Yueying Li, Tianyi Peng, Ciamac C. Moallemi · PDF
Tensor Product Attention Is All You Need
Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew C Yao · PDF
The Road Not Taken: Hindsight Exploration for LLMs in Multi-Turn RL
Huaxiaoyue Wang, Sanjiban Choudhury · PDF
Thinformer: Guaranteed Attention Approximation via Low-Rank Thinning
Annabelle Michael Carrell, Albert Gong, Abhishek Shetty, Raaz Dwivedi, Lester Mackey · PDF
Think Clearly: Improving Reasoning via Redundant Token Pruning
Daewon Choi, Jimin Lee, Jihoon Tack, Woomin Song, Saket Dingliwal, Sai Muralidhar Jayanthi, Bhavana Ganesh, Jinwoo Shin, Aram Galstyan, Sravan Babu Bodapati · PDF
ThinkingViT: Nested Thinking Vision Transformer for Elastic Inference
Ali Hojjat, Janek Haberer, Soren Pirk, Olaf Landsiedel · PDF
Tiny Reward Models
Sarah Pan · PDF
TinyServe: Query-Aware Cache Selection for Efficient LLM Inference
Dong Liu, Yanxuan Yu · PDF
TMA-Adaptive FP8 Grouped GEMM: Eliminating Padding Requirements in Low-Precision Training and Inference on Hopper
Suzhongling, Rong Fu, Weihan Cao, Jianfei Gao, Minxi Jin, PeiZhilin, Hui Wang · PDF
TORCHSIM: High Fidelity Runtime and Memory Estimation for Distributed Training
Sanket Purandare, Emma Yang, Andrew Zhao, Qitong Wang, Wei Feng, Alban Desmaison, Andrew Gu, Tianyu Liu, Less Wright, Gokul Nadathur, Stratos Idreos · PDF
Toward Dataset Distillation for Regression Problems
Jamie Mahowald, Ravi Srinivasan, Zhangyang Wang · PDF
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models
Jiecheng Zhou, Ding Tang, Rong Fu, Boni Hu, Haoran Xu, Yi Wang, Suzhongling, Liang Liu, PeiZhilin, Hengjie Li, Xingcheng Zhang, Weiming Zhang · PDF
Towards Large Scale Training on Apple Silicon
Tycho F. A. van der Ouderaa, Mohamed Baioumy, Matt Beton, Seth Howes, Gelu Vrabie, Alex Cheema · PDF
Towards Understanding Orthogonalization in Muon
Valentyn Boreiko, Zhiqi Bu, Sheng Zha · PDF
Towards Understanding Self-Pretraining for Sequence Classification
Omar Coser, Antonio Orvieto · PDF
Training Language Models to Reason Efficiently
Daman Arora, Andrea Zanette · PDF
Training-free LLM Verification via Recycling Few-shot Examples
Dongseok Lee, JIMYUNG HONG, Dongyoung Kim, Jaehyung Kim · PDF
Training-Free Semantic Deferrals for Open-Ended LLM Cascades
Duncan Soiffer, Steven Kolawole, Virginia Smith · PDF
Ultra-Efficient and Effective Large Language Models with Multi-Boolean Architectures
Ba-Hien Tran, Van Minh Nguyen · PDF
Unbounded Memory and Consistent Imagination via Unified Diffusion–SSM World Models
Jia-Hua Lee, Bor-Jiun Lin, Wei-Fang Sun, Chun-Yi Lee · PDF
Unified Scaling Laws for Compressed Representations
Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh · PDF
Vision Language Model Distillation Using Partial Information Decomposition
Stephen D. Liang · PDF
VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs
Raghavv Goel, Sudhanshu Agrawal, Mukul Gagrani, Junyoung Park, Yifan Zao, He Zhang, Tian Liu, Yiping Yang, Xin Yuan, Jiuyuan Lu, Christopher Lott, Mingu Lee · PDF
VScan: A Two-Stage Visual Token Reduction Framework for Accelerating Large Vision-Language Models
Ce Zhang, Kaixin Ma, Tianqing Fang, Wenhao Yu, Hongming Zhang, Zhisong Zhang, Yaqi Xie, Katia P. Sycara, Haitao Mi, Dong Yu · PDF
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference
Sihan Chen, Dan Zhao, Jongwoo Ko, Colby Banbury, Huiping Zhuang, Luming Liang, Tianyi Chen · PDF
Zero-Shot Conversion to Monarch-Structured Attention
Can Yaras, Alec S. Xu, Pierre Abillama, Changwoo Lee, Laura Balzano · PDF
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
Saibo Geng, Nathan Ranchin, Yunzhen Yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West · PDF

Accepted papers (146)

☆$\mu$-MoE: Test-Time Pruning as Micro-Grained Mixture-of-Experts

☆A Minimalist Optimizer Design for LLM Pretraining

☆A Survey on Prompt Tuning

☆ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models

☆Accelerated Test-Time Scaling with Model-Free Speculative Sampling

☆Accelerating Linear Attention Design by Unifying Forward & Backward Propagation

☆Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts

☆Adaptive Backbone Selection for Efficient and Real-Time Vision Inference

☆Adaptive Self-improvement LLM Agentic System for ML Library Development

☆An Efficient Row-Based Sparse Fine-Tuning with Low Quantization Error

☆Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture

☆AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

☆Autoregressive Language Modeling by Compressed Sequence Mixing

☆AWP: Activation-aware Weight Pruning and Quantization with Projected Gradient Descent

☆Balancing LoRA Performance and Efficiency with Simple Shard Sharing

☆Batch-Max: Higher LLM Throughput using Larger Batch Sizes and KV Cache Compression

☆Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis

☆Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training

☆BlockBPE: Parallel BPE Tokenization

☆BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning

☆Byzantine-Resilient Zero-Order Optimization for Scalable Federated Fine-Tuning of Large Language Models

☆Cache Saver: A Modular Framework for Efficient, Affordable, and Reproducible LLM Inference

☆CarbonGearRL: Precision-Elastic, Carbon-Aware Scheduling for Foundation-Model Training

☆Cartridges: Lightweight and general-purpose long context representations via self-study

☆Chipmunk: Training-Free Acceleration of Diffusion Transformers with Dynamic Column-Sparse Deltas

☆CoDM: A Co-design Framework for Efficient Sparse Diffusion Models

☆Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers

☆Compressing Large Language Models to Any Size Without Re-Computation

☆ConMeZO: Adaptive Directional Sampling for Gradient-Free Finetuning of Language Models

☆Context-lite Multi-turn Reinforcement Learning for LLM Agents

☆Continuous Autoregressive Generation with Mixture of Gaussians

☆Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

☆d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

☆Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

☆DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic

☆Demystifying Language Model Forgetting with Low-rank Example Associations

☆DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness

☆Early Attentive Sparsification Accelerates Neural Speech Transcription

☆Efficient and Accurate KV-cache Management for Long-Sequence LLMs

☆Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

☆Efficient Temporal Tokenization for Mobility Prediction with Large Language Models

☆Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

☆Exchangeability in Neural Network Architectures and its Application to Dynamic Pruning

☆Exploring Diffusion Transformer Designs via Grafting

☆Fed-SB: A Silver Bullet for Extreme Communication Efficiency and Performance in (Private) Federated LoRA Fine-Tuning

☆Flexi-LoRA: Efficient LoRA Finetuning with Input-Adaptive Dynamic Ranks

☆Foreign Sparse Attention: Effective Distillation into Sparse Attention

☆FPTQuant: Function-Preserving Transforms for LLM Quantization

☆FrugalRAG: Learning to retrieve and reason for multi-hop QA

☆GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

☆GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization

☆Graph Signal Processing Meets Mamba2: Adaptive Filter Bank via Delta Modulation

☆Guided Speculative Inference for Efficient Test-Time Alignment of LLMs

☆HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

☆Hardware-Efficient Attention for Fast Decoding

☆How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?

☆How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach

☆InterLoRA: An Adaptive LoRA Structure Based on The Mechanistic Interpretability of Transformer

☆Is Visual Prompting the Right Setup for Knowledge Transfer in new Foundation Models?

☆Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers

☆JSONSchemaBench: Evaluating Constrained Decoding with LLMs on Efficiency, Coverage and Quality

☆Kevin: Multi-Turn RL for Generating CUDA Kernels

☆KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

☆Language System: A Lightweight Ranking Framework for Language Models

☆Large Reasoning Models Know How to Think Efficiently

☆LATTICE: Learning to Efficiently Compress the Memory

☆Learning Adaptive Parallel Reasoning with Language Models

☆Learning to Discover Abstractions for LLM Reasoning

☆Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

☆LOGAH: Initialize Large Transformers via Small Graph HyperNetworks

☆LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification

☆LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs

☆LoRA Merging with SVD: Understanding Interference and Preserving Performance

☆Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement

☆Mamba Drafters for Speculative Decoding

☆MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models

☆MatMuls are Enough for Efficient and Performant Linear-Time Attention

☆Mitigating Over-Smoothing in Mamba2 via Spectral Domain Analysis

☆Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Thinking

$\mu$-MoE: Test-Time Pruning as Micro-Grained Mixture-of-Experts

A Minimalist Optimizer Design for LLM Pretraining

A Survey on Prompt Tuning

ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models

Accelerated Test-Time Scaling with Model-Free Speculative Sampling

Accelerating Linear Attention Design by Unifying Forward & Backward Propagation

Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts

Adaptive Backbone Selection for Efficient and Real-Time Vision Inference

Adaptive Self-improvement LLM Agentic System for ML Library Development

An Efficient Row-Based Sparse Fine-Tuning with Low Quantization Error

Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture

AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Autoregressive Language Modeling by Compressed Sequence Mixing

AWP: Activation-aware Weight Pruning and Quantization with Projected Gradient Descent

Balancing LoRA Performance and Efficiency with Simple Shard Sharing

Batch-Max: Higher LLM Throughput using Larger Batch Sizes and KV Cache Compression

Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis

Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training

BlockBPE: Parallel BPE Tokenization

BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning

Byzantine-Resilient Zero-Order Optimization for Scalable Federated Fine-Tuning of Large Language Models

Cache Saver: A Modular Framework for Efficient, Affordable, and Reproducible LLM Inference

CarbonGearRL: Precision-Elastic, Carbon-Aware Scheduling for Foundation-Model Training

Cartridges: Lightweight and general-purpose long context representations via self-study

Chipmunk: Training-Free Acceleration of Diffusion Transformers with Dynamic Column-Sparse Deltas

CoDM: A Co-design Framework for Efficient Sparse Diffusion Models

Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers

Compressing Large Language Models to Any Size Without Re-Computation

ConMeZO: Adaptive Directional Sampling for Gradient-Free Finetuning of Language Models

Context-lite Multi-turn Reinforcement Learning for LLM Agents

Continuous Autoregressive Generation with Mixture of Gaussians

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic

Demystifying Language Model Forgetting with Low-rank Example Associations

DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness

Early Attentive Sparsification Accelerates Neural Speech Transcription

Efficient and Accurate KV-cache Management for Long-Sequence LLMs

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

Efficient Temporal Tokenization for Mobility Prediction with Large Language Models

Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

Exchangeability in Neural Network Architectures and its Application to Dynamic Pruning

Exploring Diffusion Transformer Designs via Grafting

Fed-SB: A Silver Bullet for Extreme Communication Efficiency and Performance in (Private) Federated LoRA Fine-Tuning

Flexi-LoRA: Efficient LoRA Finetuning with Input-Adaptive Dynamic Ranks

Foreign Sparse Attention: Effective Distillation into Sparse Attention

FPTQuant: Function-Preserving Transforms for LLM Quantization

FrugalRAG: Learning to retrieve and reason for multi-hop QA

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization

Graph Signal Processing Meets Mamba2: Adaptive Filter Bank via Delta Modulation

Guided Speculative Inference for Efficient Test-Time Alignment of LLMs

HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

Hardware-Efficient Attention for Fast Decoding

How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?

How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach

InterLoRA: An Adaptive LoRA Structure Based on The Mechanistic Interpretability of Transformer

Is Visual Prompting the Right Setup for Knowledge Transfer in new Foundation Models?

Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers

JSONSchemaBench: Evaluating Constrained Decoding with LLMs on Efficiency, Coverage and Quality

Kevin: Multi-Turn RL for Generating CUDA Kernels

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

Language System: A Lightweight Ranking Framework for Language Models

Large Reasoning Models Know How to Think Efficiently

LATTICE: Learning to Efficiently Compress the Memory

Learning Adaptive Parallel Reasoning with Language Models

Learning to Discover Abstractions for LLM Reasoning

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

LOGAH: Initialize Large Transformers via Small Graph HyperNetworks

LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification

LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs

LoRA Merging with SVD: Understanding Interference and Preserving Performance

Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement

Mamba Drafters for Speculative Decoding

MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models

MatMuls are Enough for Efficient and Performant Linear-Time Attention

Mitigating Over-Smoothing in Mamba2 via Spectral Domain Analysis

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Thinking

Model Parallelism With Subnetwork Data Parallelism