NeurIPS 2025PastLarge language models

AI That Keeps Up: NeurIPS 2025 Workshop on Continual and Compatible Foundation Model Updates

CCFM

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 3, 2025, 16:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (34)

Fetched from OpenReview (v2) on 2026-06-10.

Balancing Synthetic Data and Replay for Enhancing Task-Specific Capabilities
Urs Spiegelhalter, Jörg K.H. Franke, Frank Hutter · PDF
Continual Learning of Domain Knowledge from Human Feedback in Text-to-SQL
Thomas Cook, Kelly Patel, Sivapriya Vellaichamy, Saba Rahimi, Zhen Zeng, Sumitra Ganesh · PDF
Continual Pre-training of MoEs: How robust is your router?
Benjamin Thérien, Charles-Étienne Joseph, Zain Sarwar, Ashwinee Panda, Anirban Das, Shi-Xiong Zhang, Stephen Rawls, Sambit Sahu, Eugene Belilovsky, Irina Rish · PDF
Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection
Mohammad Mahdi Moradi, Hossam Amer, Sudhir Mudur, Weiwei Zhang, Yang Liu, Walid Ahmed · PDF
CurLL: Curriculum Learning of Language Models
Pavan Kalyan Tankala, Shubhra Mishra, Satya Lokam, Navin Goyal · PDF
Curriculum Learning as Transport: Training Along Wasserstein Geodesics
Changho Shin, David Alvarez-Melis · PDF
Do Language Models Robustly Acquire New Knowledge?
Harshay Shah, Badih Ghazi, Yangsibo Huang, Ravi Kumar, Da Yu, Chiyuan Zhang · PDF
ELLA: Efficient Lifelong Learning for Adapters in Large Language Models
Shristi Das Biswas, Yue Zhang, Anwesan Pal, Radhika Bhargava, Kaushik Roy · PDF
Embedding‑to‑Prefix: Continual Personalization with Large Language Models
Bernd Huber, Ghazal Fazelnia, Andreas Damianou, Sebastian Peleato, Maksym Lefarov, Praveen Chandar, Marco De Nadai, Mounia Lalmas, Paul N. Bennett · PDF
EWC-Guided Diffusion Replay for Exemplar-Free Continual Learning in Medical Imaging
Anoushka Harit, William Prew, Zhongtian Sun, Florian Markowetz · PDF
Exploring Continual Distillation of Teachers from Different Domains
Nicolas Michel, Maorong Wang, Jiangpeng He, Toshihiko Yamasaki · PDF
Exploring The Effectiveness of Test Time Learning In LLMs for Long Contexts
Nizar Islah, Irina Rish, Eilif B. Muller · PDF
Harnessing Quantum Principles for Parameter-Efficient Continual Learning
Xiaobing Yu, Weiwei Ma, Jin Yang, Peijie Qiu, Xiao Wu, Pan Xiao, Xiaofeng Liu · PDF
HyperAdapt: Simple High-Rank Adaptation
Abel Gurung, Joseph Campbell · PDF
Information-Geometric Perspectives on Merging Variational Foundation Models
Nour Jamoussi, Giuseppe Serra, Photios A. Stavrou, Marios Kountouris · PDF
IPA: An Information-Preserving Input Projection Framework for Model Adaptation
Yuan Yin, Shashanka Venkataramanan, Tuan-Hung Vu, Andrei Bursuc, Matthieu Cord · PDF
Mapping Post-Training Forgetting in Language Models at Scale
Jackson Harmon, Andreas Hochlehnert, Matthias Bethge, Ameya Prabhu · PDF
Per-Axis Weight Deltas for Frequent Model Updates
Stefan Kuyumdzhiev, Radostin Cholakov · PDF
Pre-training Limited Memory Language Models with Internal and External Knowledge
Linxi Zhao, Sofian Zalouk, Christian Belardi, Justin Lovelace, Jin Peng Zhou, Kilian Q Weinberger, Yoav Artzi, Jennifer J. Sun · PDF
Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness
Lang Xiong, Nishant Bhargava, Jeremy Chang, Jianhang Hong, Haihao Liu, Vasu Sharma, Kevin Zhu · PDF
PTPP-Aware Adaptation Scaling Laws: Predicting Domain-Adaptation Performance at Unseen Pre-Training Budgets
Etienne Goffinet, Shane Bergsma, Avraham Sheinin, Natalia Vassilieva, Preslav Nakov, Gurpreet Gosal · PDF
Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs
Jacob Portes, Connor Jennings, Erica Ji Yuen, Sasha Doubov, Michael Carbin · PDF
Revisiting Warm-Start Training: No Generalization Loss under Standard Training Schemes
Hongjoon Ahn, Jinu Hyeon, Hyeonseop Shin, Taesup Moon · PDF
RL's Razor: Why On-Policy Reinforcement Learning Forgets Less
Idan Shenfeld, Jyothish Pari, Pulkit Agrawal · PDF
Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization
Filip Sondej, Yushi Yang, Mikolaj Kniejski, Marcel Windys · PDF
Sample-Efficient Parametric Learning from Natural Language
Parth Asawa, Alex Dimakis, Matei Zaharia · PDF
Sculpting [CLS] Features for Foundation Model-Based Class-Incremental Learning
Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren · PDF
Slim Adaptation Modules: A Simple yet Strong Baseline for Continual Foundation Models
Elif Ceren Gok Yildirim, Murat Onur Yildirim, Joaquin Vanschoren · PDF
Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
Jonas Hübotter, Patrik Wolf, Aleksandr Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur · PDF
TEMPiRL: Foundational Compounding Temporal Drift Theory for Temporal-Graph Adaptation in Large Language Models
Arnav Sharma, Karthik Srikumar · PDF
Unlearning That Lasts: Utility-Preserving, Robust, and almost Irreversible Forgetting in LLMs
Naman Deep Singh, Maximilian Müller, Francesco Croce, Matthias Hein · PDF
Vocabulary Customization for Efficient Domain‑Specific LLM Deployment
Christian Herold, Michael Kozielski, Nicholas Santavas, Yannick Versley, Shahram Khadivi · PDF
When Data Falls Short: Grokking Below the Critical Threshold
Vaibhav Singh, Eugene Belilovsky, Rahaf Aljundi · PDF
When Less is More: 8-bit Quantization Improves Continual Learning in Large Language Models
Michael Shihong Zhang, Rishi Adi Ruia, Arnav Kewalram, Saathvik Dharmapuram, Utkarsh Sharma, Kevin Zhu · PDF

Accepted papers (34)

☆Balancing Synthetic Data and Replay for Enhancing Task-Specific Capabilities

☆Continual Learning of Domain Knowledge from Human Feedback in Text-to-SQL

☆Continual Pre-training of MoEs: How robust is your router?

☆Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection

☆CurLL: Curriculum Learning of Language Models

☆Curriculum Learning as Transport: Training Along Wasserstein Geodesics

☆Do Language Models Robustly Acquire New Knowledge?

☆ELLA: Efficient Lifelong Learning for Adapters in Large Language Models

☆Embedding‑to‑Prefix: Continual Personalization with Large Language Models

☆EWC-Guided Diffusion Replay for Exemplar-Free Continual Learning in Medical Imaging

☆Exploring Continual Distillation of Teachers from Different Domains

☆Exploring The Effectiveness of Test Time Learning In LLMs for Long Contexts

☆Harnessing Quantum Principles for Parameter-Efficient Continual Learning

☆HyperAdapt: Simple High-Rank Adaptation

☆Information-Geometric Perspectives on Merging Variational Foundation Models

☆IPA: An Information-Preserving Input Projection Framework for Model Adaptation

☆Mapping Post-Training Forgetting in Language Models at Scale

☆Per-Axis Weight Deltas for Frequent Model Updates

☆Pre-training Limited Memory Language Models with Internal and External Knowledge

☆Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness

☆PTPP-Aware Adaptation Scaling Laws: Predicting Domain-Adaptation Performance at Unseen Pre-Training Budgets

☆Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs

☆Revisiting Warm-Start Training: No Generalization Loss under Standard Training Schemes

☆RL's Razor: Why On-Policy Reinforcement Learning Forgets Less

☆Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

☆Sample-Efficient Parametric Learning from Natural Language

☆Sculpting [CLS] Features for Foundation Model-Based Class-Incremental Learning

☆Slim Adaptation Modules: A Simple yet Strong Baseline for Continual Foundation Models

☆Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

☆TEMPiRL: Foundational Compounding Temporal Drift Theory for Temporal-Graph Adaptation in Large Language Models

☆Unlearning That Lasts: Utility-Preserving, Robust, and almost Irreversible Forgetting in LLMs

☆Vocabulary Customization for Efficient Domain‑Specific LLM Deployment

☆When Data Falls Short: Grokking Below the Critical Threshold

☆When Less is More: 8-bit Quantization Improves Continual Learning in Large Language Models

Balancing Synthetic Data and Replay for Enhancing Task-Specific Capabilities

Continual Learning of Domain Knowledge from Human Feedback in Text-to-SQL

Continual Pre-training of MoEs: How robust is your router?

Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection

CurLL: Curriculum Learning of Language Models

Curriculum Learning as Transport: Training Along Wasserstein Geodesics

Do Language Models Robustly Acquire New Knowledge?

ELLA: Efficient Lifelong Learning for Adapters in Large Language Models

Embedding‑to‑Prefix: Continual Personalization with Large Language Models

EWC-Guided Diffusion Replay for Exemplar-Free Continual Learning in Medical Imaging

Exploring Continual Distillation of Teachers from Different Domains

Exploring The Effectiveness of Test Time Learning In LLMs for Long Contexts

Harnessing Quantum Principles for Parameter-Efficient Continual Learning

HyperAdapt: Simple High-Rank Adaptation

Information-Geometric Perspectives on Merging Variational Foundation Models

IPA: An Information-Preserving Input Projection Framework for Model Adaptation

Mapping Post-Training Forgetting in Language Models at Scale

Per-Axis Weight Deltas for Frequent Model Updates

Pre-training Limited Memory Language Models with Internal and External Knowledge

Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness

PTPP-Aware Adaptation Scaling Laws: Predicting Domain-Adaptation Performance at Unseen Pre-Training Budgets

Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs

Revisiting Warm-Start Training: No Generalization Loss under Standard Training Schemes

RL's Razor: Why On-Policy Reinforcement Learning Forgets Less

Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

Sample-Efficient Parametric Learning from Natural Language

Sculpting [CLS] Features for Foundation Model-Based Class-Incremental Learning

Slim Adaptation Modules: A Simple yet Strong Baseline for Continual Foundation Models

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

TEMPiRL: Foundational Compounding Temporal Drift Theory for Temporal-Graph Adaptation in Large Language Models

Unlearning That Lasts: Utility-Preserving, Robust, and almost Irreversible Forgetting in LLMs

Vocabulary Customization for Efficient Domain‑Specific LLM Deployment

When Data Falls Short: Grokking Below the Critical Threshold

When Less is More: 8-bit Quantization Improves Continual Learning in Large Language Models