ICLR 2025PastLarge language modelsDatasets

ICLR 2025 Workshop on Navigating and Addressing Data Problems for Foundation Models

ICLR 2025 Workshop Data Problems

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 8, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (85)

Fetched from OpenReview (v2) on 2026-06-10.

$f$-SCRUB: Unbounded Machine Unlearning Via $f$-divergences
Amirhossein Bagheri, Radmehr Karimian, Gholamali Aminian · PDF
A Missing Testbed for LLM Pre-Training Membership Inference Attacks
Mingjian Jiang, Ken Ziyu Liu, Sanmi Koyejo · PDF
A Versatile Influence Function for Data Attribution with Non-Decomposable Loss
Junwei Deng, Weijing Tang, Jiaqi W. Ma · PDF
Abg-SciQA: A dataset for Understanding and Resolving Ambiguity in Scientific Questions
Tiejin Chen, Kuan-Ru Liou, Mithun Shivakoti, Aaryan Gaur, Pragya Kumari, Meiqi Guo, Hua Wei · PDF
ADSO: Adaptive Data Mixture & Scale Optimization. A Multi-Scale Multi-Fidelity Bayesian Optimization Approach.
Andrew Wei Tung Siah, Haozhe Chen, C. Daniel Guetta, Tianyi Peng, Hongseok Namkoong, Tzu-Ching Yen · PDF
Adversarial Attacks on Data Attribution
Xinhe Wang, Pingbang Hu, Junwei Deng, Jiaqi W. Ma · PDF
Aioli: A Unified Optimization Framework for Language Model Data Mixing
Mayee F Chen, Michael Y. Hu, Nicholas Lourie, Kyunghyun Cho, Christopher Re · PDF
Approximations to worst-case data dropping: unmasking failure modes
Jenny Y. Huang, David R. Burt, Yunyi Shen, Tin D. Nguyen, Tamara Broderick · PDF
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein · PDF
BenchAgents: Automated Benchmark Creation with Agent Interaction
Natasha Butt, Varun Chandrasekaran, Neel Joshi, Besmira Nushi, Vidhisha Balachandran · PDF
Beyond ordinary Lipschitz constraints: Differentially Private optimization with TNC
Difei Xu, Meng Ding, Zihang Xiang, Jinhui Xu, Di Wang · PDF
Blind Baselines Beat Membership Inference Attacks for Foundation Models
Debeshee Das, Jie Zhang, Florian Tramèr · PDF
Building Bridges, Not Walls: Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution
Shichang Zhang, Tessa Han, Usha Bhalla, Himabindu Lakkaraju · PDF
Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning
Wanyun Xie, Francesco Tonin, Volkan Cevher · PDF
Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations
Manuel Quintero, William T. Stephenson, Advik Shreekumar, Tamara Broderick · PDF
Context-Guided Responsible Data Augmentation with Diffusion Models
Khawar Islam, NAVEED AKHTAR · PDF
Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance
Sachin Goyal, Christina Baek, J Zico Kolter, Aditi Raghunathan · PDF
Contrastive Private Data Synthesis via Weighted Multi-PLM Fusion
Tianyuan Zou, Yang Liu, Peng Li, Yufei Xiong, Jianqing Zhang, Jingjing Liu, Ye Ouyang, Xiaozhou Ye, Yaqin Zhang · PDF
D3: A Large Dataset for Training Code Language Models to Act Diff-by-Diff
Ulyana Piterbarg, Kanishk Gandhi, Lerrel Pinto, Noah Goodman, Rob Fergus · PDF
Data Efficient Pre-training for Language Models: An Empirical Study of Compute Efficiency and Linguistic Competence
Andreas Paraskeva, Max Johannes van Duijn, Maarten de Rijke, Suzan Verberne, Jan N. van Rijn · PDF
Data Mixing Can Induce Phase Transitions in Knowledge Acquisition
Xinran Gu, Kaifeng Lyu, Jiazheng Li, Jingzhao Zhang · PDF
Data-Efficient Supervised Fine-Tuning of Language Models Using Optimal Design
Rohan Deb, Kiran Koshy Thekumparampil, Kousha Kalantari, Gaurush Hiranandani, Shoham Sabach, Branislav Kveton · PDF
Defending LVLMs Against Vision Attacks through Partial-Perception Supervision
Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong · PDF
Demystifying Long Chain-of-Thought Reasoning in LLMs
Edward Yeo, Yuxuan Tong, Xinyao Niu, Graham Neubig, Xiang Yue · PDF
Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model
Zinan Lin, Tadas Baltrusaitis, Sergey Yekhanin · PDF
Diversity Measurement and Subset Selection for Instruction Tuning Datasets
Peiqi Wang, Yikang Shen, Zhen Guo, Matthew Stallone, Yoon Kim, Polina Golland, Rameswar Panda · PDF
Domain-Specific Benchmarking of Vision-Language Models: A Task Augmentation Framework Using Metadata
Tim Rädsch, Leon Mayer, Simon Pavicic, Ali Emre Kavur, Marcel Knopp, Barış Öztürk, Klaus Maier-Hein, Paul F Jaeger, Fabian Isensee, Annika Reinke, Lena Maier-hein · PDF
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks
Zhiliang Chen, Gregory Kang Ruey Lau, Chuan-Sheng Foo, Bryan Kian Hsiang Low · PDF
Editable Concept Bottleneck Models
Lijie Hu, Chenyang Ren, Zhengyu Hu, Hongbin Lin, Cheng-Long Wang, Zhen Tan, Weimin Lyu, Jingfeng Zhang, Hui Xiong, Di Wang · PDF
Enhancing Interpretability in Generative AI Through Search-Based Data Influence Analysis
Theodoros Aivalis, Iraklis A. Klampanos, Antonis Troumpoukis, Joemon M. Jose · PDF
Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
Bettina Messmer, Vinko Sabolčec, Martin Jaggi · PDF
Explaining Length Bias in LLM-Based Preference Evaluations
Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Zhengyu Chen, Hui Xiong · PDF
From Fairness to Truthfulness: Rethinking Data Valuation Design
Dongyang Fan, Tyler J. Rotello, Sai Praneeth Karimireddy · PDF
Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
Simon Park, Abhishek Panigrahi, Yun Cheng, Dingli Yu, Anirudh Goyal, Sanjeev Arora · PDF
How much of my dataset did you use? Quantitative Data Usage Inference in Machine Learning
Yao Tong, Jiayuan Ye, Sajjad Zarifzadeh, Reza Shokri · PDF
Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities
Qirun Dai, Dylan Zhang, Jiaqi W. Ma, Hao Peng · PDF
Improving Multimodal Large Language Models in Low-Resource Language Contexts
Yufei Gao, Feijiaying, Guohang Yan, Yunshi Lan · PDF
Information-theoretic Quantification of Inherent Discrimination Bias in Training Data for Supervised Learning
Sokrat Aldarmini, Mohamed S Nafea · PDF
Investigating Memorization in Video Diffusion Models
Chen Chen, Enhuai Liu, Daochang Liu, Mubarak Shah, Chang Xu · PDF
KGGen: Text To Knowledge Graph
Belinda Mo, Kyssen Yu, Joshua Kazdan, Proud Mpala, Lisa Yu, Chris Cundy, Charilaos Kanatsoulis, Sanmi Koyejo · PDF
Language Model Preference Evaluation with Multiple Weak Evaluators
Zhengyu Hu, Jieyu Zhang, Zhihan Xiong, Alexander Ratner, Hui Xiong, Ranjay Krishna · PDF
Lightweight Dataset Pruning without Full Training via Example Difficulty and Prediction Uncertainty
Yeseul Cho, Baekrok Shin, Changmin Kang, Chulhee Yun · PDF
LoBAM: LoRA-Based Backdoor Attack on Model Merging
Ming Yin, Jingyang Zhang, Jingwei Sun, Minghong Fang, Hai Helen Li, Yiran Chen · PDF
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
Shengkang Wang, Hongzhan Lin, Ziyang Luo, Zhen Ye, Guang Chen, Jing Ma · PDF
MMA: Benchmarking Multi-Modal Large Language Model in Ambiguity Contexts
Ru Wang, Selena Song, Liang Ding, Mingming Gong, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo · PDF
Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling
Youngseok Yoon, Dainong Hu, Iain Weissburg, Yao Qin, Haewon Jeong · PDF
Nepotistically Trained Generative Image Models Collapse
Maty Bohacek, Hany Farid · PDF
NICE: Non-Differentiable Evaluation Metric-Based Data Selection for Instruction Tuning
Jingtan Wang, Xiaoqiang Lin, Rui Qiao, Pang Wei Koh, Chuan-Sheng Foo, Bryan Kian Hsiang Low · PDF
On the Power of Context-Enhanced Learning in LLMs
Xingyu Zhu, Abhishek Panigrahi, Sanjeev Arora · PDF
OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning
Jiawei Zhou, Lei Chen · PDF
PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation
Albert Gong, Kamilė Stankevičiūtė, Chao Wan, Anmol Kabra, Raphael Thesmar, Johann Lee, Julius Klenke, Carla P Gomes, Kilian Q Weinberger · PDF
PiKE: Adaptive Data Mixing for Multi-Task Learning Under Low Gradient Conflicts
Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni · PDF
Position: What's the next frontier for Data-centric AI? Data Savvy Agents!
Nabeel Seedat, Jiashuo Liu, Mihaela van der Schaar · PDF
Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models
Ishaan Malhi, Praneet Dutta, Ellie Talius, Sally Ma, Brendan Driscoll, Krista Holden, Garima Pruthi, Arunachalam Narayanaswamy · PDF
Privacy Attacks on Image AutoRegressive Models
Antoni Kowalczuk, Jan Dubiński, Franziska Boenisch, Adam Dziedzic · PDF
Privacy Auditing for Large Language Models with Natural Identifiers
Lorenzo Rossi, Bartłomiej Marek, Franziska Boenisch, Adam Dziedzic · PDF
Proper Dataset Valuation by Pointwise Mutual Information
SHURAN ZHENG, Xuan Qi, Rui Ray Chen, Yongchan Kwon, James Zou · PDF
Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning
Yilun Kong, Hangyu Mao, Qi Zhao, Bin Zhang, Jingqing Ruan, Li Shen, Yongzhe Chang, Xueqian Wang, Rui Zhao, Dacheng Tao · PDF
RepFair-QGAN: Alleviating Representation Bias in Quantum Generative Adversarial Networks Using Gradient Clipping
Kamil Sabbagh, Hadi Salloum, Yaroslav Kholodov · PDF
Revisiting Multi-Modal LLM Evaluation
Jian Lu, Shikhar Srivastava, Junyu Chen, Robik Singh Shrestha, Manoj Acharya, Kushal Kafle, Christopher Kanan · PDF
Revisiting Semi-supervised Adversarial Training via Noise-aware Online Robust Distillation
Tsung-Han Wu, Hung-Ting Su, Shang-Tse Chen, Winston H. Hsu · PDF
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs
Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang · PDF
RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation
Yuefan Cao, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song · PDF
Robust In-Context Learning via Multi-Armed Bandit-Based Partition Selection
Varul Srivastava, Sankarshan Damle, Manisha Padala · PDF
Rule-Based Rating and Selection of LLM Training Data
Xiaomin Li, Mingye Gao, Zhiwei Zhang, Chang Yue, Hong Hu · PDF
STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings
Saksham Rastogi, Pratyush Maini, Danish Pruthi · PDF
SubLIME*: Data Efficient Foundation Model Evaluation across Modalities, Languages and Benchmarks
Mahammad Parwez Alam, Gayathri Saranathan, Cong Xu, Javier Aula-Blasco, Martin Foltin, Tarun Kumar, Soon Yee Wong, Suparna Bhattacharya · PDF
Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models
Sze Jue Yang, Chinh Duc La, Quang H Nguyen, Eugene Bagdasarian, Kok-Seng Wong, Anh Tuan Tran, Chee Seng Chan, Khoa D Doan · PDF
Synthesizing Privacy-Preserving Text Data via Finetuning *without* Finetuning Billion-Scale LLMs
Bowen Tan, Zheng Xu, Eric P. Xing, Zhiting Hu, Shanshan Wu · PDF
Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training
Shijian Wang, Linxin Song, Jieyu Zhang, Ryotaro Shimizu, Ao Luo, Li Yao, Cunjian Chen, Julian McAuley, Hanqian Wu · PDF
The Delta Learning Hypothesis: Preference Tuning on Weak Data Can Yield Strong Gains
Scott Geng, Hamish Ivison, Chun-Liang Li, Maarten Sap, Jerry Li, Ranjay Krishna, Pang Wei Koh · PDF
The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination
Yifan Sun, Han Wang, Dongbai Li, Gang Wang, Huan Zhang · PDF
The surprising amount of arbitrariness in Shapley-value data valuation
Hannah Diehl, Ashia C. Wilson · PDF
TOWARD EFFICIENT INFLUENCE FUNCTION: DROPOUT AS A COMPRESSION TOOL
Yuchen Zhang, Mohammad Mohammadi Amiri · PDF
Towards Comprehensive Preference Data Collection for Reward Modeling
Yulan Hu, Qingyang Li, Sheng Ouyang, Ge Chen, Jinman Zhao, Yong Liu · PDF
Towards Human-Guided, Data-Centric LLM Co-Pilots
Evgeny Saveliev, Jiashuo Liu, Nabeel Seedat, Anders Boyd, Mihaela van der Schaar · PDF
Towards Internet-Scale Training For Agents
Brandon Trabucco, Gunnar A Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov · PDF
Tracing the Misuse of Personalized Textual Embeddings for Text-to-Image Models
Weitao Feng, Jiyan He, Jie Zhang, Tianyi Wei, Wenbo Zhou, Qing Guo, Weiming Zhang, Tianwei Zhang, Nenghai Yu · PDF
Training and Evaluating Language Models with Template-based Data Generation
Yifan Zhang · PDF
TsKAN: A Transparent Architecture for Improving the Interpretability of Multivariate Time Series Forecasting
Zechuan Chen, TianMing Sha, Ziyi Tang, Keze Wang · PDF
Understanding Private Learning From Feature Perspective
Meng Ding, Mingxi Lei, Shaopeng Fu, Di Wang, Jinhui Xu · PDF
Unlocking Post-hoc Dataset Inference with Synthetic Data
Bihe Zhao, Pratyush Maini, Franziska Boenisch, Adam Dziedzic · PDF
Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models
Vinith Menon Suriyakumar, Rohan Alur, Ayush Sekhari, Manish Raghavan, Ashia C. Wilson · PDF
Utilizing Language Models For Synthetic Knowledge Graph Generation
Shuran Fu, Peihua Mai, Zhang Jingqi, Yan Pang · PDF
Why Does Private Fine-Tuning Resist Differential Privacy Noise? A Representation Learning Perspective
Yue Zhao, Xia Yutong, Chendi Wang · PDF

Accepted papers (85)

☆$f$-SCRUB: Unbounded Machine Unlearning Via $f$-divergences

☆A Missing Testbed for LLM Pre-Training Membership Inference Attacks

☆A Versatile Influence Function for Data Attribution with Non-Decomposable Loss

☆Abg-SciQA: A dataset for Understanding and Resolving Ambiguity in Scientific Questions

☆ADSO: Adaptive Data Mixture & Scale Optimization. A Multi-Scale Multi-Fidelity Bayesian Optimization Approach.

☆Adversarial Attacks on Data Attribution

☆Aioli: A Unified Optimization Framework for Language Model Data Mixing

☆Approximations to worst-case data dropping: unmasking failure modes

☆Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

☆BenchAgents: Automated Benchmark Creation with Agent Interaction

☆Beyond ordinary Lipschitz constraints: Differentially Private optimization with TNC

☆Blind Baselines Beat Membership Inference Attacks for Foundation Models

☆Building Bridges, Not Walls: Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution

☆Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning

☆Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations

☆Context-Guided Responsible Data Augmentation with Diffusion Models

☆Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance

☆Contrastive Private Data Synthesis via Weighted Multi-PLM Fusion

☆D3: A Large Dataset for Training Code Language Models to Act Diff-by-Diff

☆Data Efficient Pre-training for Language Models: An Empirical Study of Compute Efficiency and Linguistic Competence

☆Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

☆Data-Efficient Supervised Fine-Tuning of Language Models Using Optimal Design

☆Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

☆Demystifying Long Chain-of-Thought Reasoning in LLMs

☆Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model

☆Diversity Measurement and Subset Selection for Instruction Tuning Datasets

☆Domain-Specific Benchmarking of Vision-Language Models: A Task Augmentation Framework Using Metadata

☆DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks

☆Editable Concept Bottleneck Models

☆Enhancing Interpretability in Generative AI Through Search-Based Data Influence Analysis

☆Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

☆Explaining Length Bias in LLM-Based Preference Evaluations

☆From Fairness to Truthfulness: Rethinking Data Valuation Design

☆Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

☆How much of my dataset did you use? Quantitative Data Usage Inference in Machine Learning

☆Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities

☆Improving Multimodal Large Language Models in Low-Resource Language Contexts

☆Information-theoretic Quantification of Inherent Discrimination Bias in Training Data for Supervised Learning

☆Investigating Memorization in Video Diffusion Models

☆KGGen: Text To Knowledge Graph

☆Language Model Preference Evaluation with Multiple Weak Evaluators

☆Lightweight Dataset Pruning without Full Training via Example Difficulty and Prediction Uncertainty

☆LoBAM: LoRA-Based Backdoor Attack on Model Merging

☆MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

☆MMA: Benchmarking Multi-Modal Large Language Model in Ambiguity Contexts

☆Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling

☆Nepotistically Trained Generative Image Models Collapse

☆NICE: Non-Differentiable Evaluation Metric-Based Data Selection for Instruction Tuning

☆On the Power of Context-Enhanced Learning in LLMs

☆OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning

☆PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

☆PiKE: Adaptive Data Mixing for Multi-Task Learning Under Low Gradient Conflicts

☆Position: What's the next frontier for Data-centric AI? Data Savvy Agents!

☆Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models

☆Privacy Attacks on Image AutoRegressive Models

☆Privacy Auditing for Large Language Models with Natural Identifiers

☆Proper Dataset Valuation by Pointwise Mutual Information

☆Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning

☆RepFair-QGAN: Alleviating Representation Bias in Quantum Generative Adversarial Networks Using Gradient Clipping

☆Revisiting Multi-Modal LLM Evaluation

☆Revisiting Semi-supervised Adversarial Training via Noise-aware Online Robust Distillation

☆Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

☆RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

☆Robust In-Context Learning via Multi-Armed Bandit-Based Partition Selection

☆Rule-Based Rating and Selection of LLM Training Data

☆STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings

☆SubLIME*: Data Efficient Foundation Model Evaluation across Modalities, Languages and Benchmarks

☆Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models

☆Synthesizing Privacy-Preserving Text Data via Finetuning *without* Finetuning Billion-Scale LLMs

☆Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training

☆The Delta Learning Hypothesis: Preference Tuning on Weak Data Can Yield Strong Gains

☆The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination

☆The surprising amount of arbitrariness in Shapley-value data valuation

☆TOWARD EFFICIENT INFLUENCE FUNCTION: DROPOUT AS A COMPRESSION TOOL

☆Towards Comprehensive Preference Data Collection for Reward Modeling

☆Towards Human-Guided, Data-Centric LLM Co-Pilots

☆Towards Internet-Scale Training For Agents

☆Tracing the Misuse of Personalized Textual Embeddings for Text-to-Image Models

☆Training and Evaluating Language Models with Template-based Data Generation

$f$-SCRUB: Unbounded Machine Unlearning Via $f$-divergences

A Missing Testbed for LLM Pre-Training Membership Inference Attacks

A Versatile Influence Function for Data Attribution with Non-Decomposable Loss

Abg-SciQA: A dataset for Understanding and Resolving Ambiguity in Scientific Questions

ADSO: Adaptive Data Mixture & Scale Optimization. A Multi-Scale Multi-Fidelity Bayesian Optimization Approach.

Adversarial Attacks on Data Attribution

Aioli: A Unified Optimization Framework for Language Model Data Mixing

Approximations to worst-case data dropping: unmasking failure modes

Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

BenchAgents: Automated Benchmark Creation with Agent Interaction

Beyond ordinary Lipschitz constraints: Differentially Private optimization with TNC

Blind Baselines Beat Membership Inference Attacks for Foundation Models

Building Bridges, Not Walls: Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution

Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning

Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations

Context-Guided Responsible Data Augmentation with Diffusion Models

Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance

Contrastive Private Data Synthesis via Weighted Multi-PLM Fusion

D3: A Large Dataset for Training Code Language Models to Act Diff-by-Diff

Data Efficient Pre-training for Language Models: An Empirical Study of Compute Efficiency and Linguistic Competence

Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

Data-Efficient Supervised Fine-Tuning of Language Models Using Optimal Design

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

Demystifying Long Chain-of-Thought Reasoning in LLMs

Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model

Diversity Measurement and Subset Selection for Instruction Tuning Datasets

Domain-Specific Benchmarking of Vision-Language Models: A Task Augmentation Framework Using Metadata

DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks

Editable Concept Bottleneck Models

Enhancing Interpretability in Generative AI Through Search-Based Data Influence Analysis

Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

Explaining Length Bias in LLM-Based Preference Evaluations

From Fairness to Truthfulness: Rethinking Data Valuation Design

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

How much of my dataset did you use? Quantitative Data Usage Inference in Machine Learning

Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities

Improving Multimodal Large Language Models in Low-Resource Language Contexts

Information-theoretic Quantification of Inherent Discrimination Bias in Training Data for Supervised Learning

Investigating Memorization in Video Diffusion Models

KGGen: Text To Knowledge Graph

Language Model Preference Evaluation with Multiple Weak Evaluators

Lightweight Dataset Pruning without Full Training via Example Difficulty and Prediction Uncertainty

LoBAM: LoRA-Based Backdoor Attack on Model Merging

MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

MMA: Benchmarking Multi-Modal Large Language Model in Ambiguity Contexts

Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling

Nepotistically Trained Generative Image Models Collapse

NICE: Non-Differentiable Evaluation Metric-Based Data Selection for Instruction Tuning

On the Power of Context-Enhanced Learning in LLMs

OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning

PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

PiKE: Adaptive Data Mixing for Multi-Task Learning Under Low Gradient Conflicts

Position: What's the next frontier for Data-centric AI? Data Savvy Agents!

Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models

Privacy Attacks on Image AutoRegressive Models

Privacy Auditing for Large Language Models with Natural Identifiers

Proper Dataset Valuation by Pointwise Mutual Information

Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning

RepFair-QGAN: Alleviating Representation Bias in Quantum Generative Adversarial Networks Using Gradient Clipping

Revisiting Multi-Modal LLM Evaluation

Revisiting Semi-supervised Adversarial Training via Noise-aware Online Robust Distillation

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

Robust In-Context Learning via Multi-Armed Bandit-Based Partition Selection

Rule-Based Rating and Selection of LLM Training Data

STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings

SubLIME*: Data Efficient Foundation Model Evaluation across Modalities, Languages and Benchmarks

Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models

Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs

Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training

The Delta Learning Hypothesis: Preference Tuning on Weak Data Can Yield Strong Gains

The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination

The surprising amount of arbitrariness in Shapley-value data valuation

TOWARD EFFICIENT INFLUENCE FUNCTION: DROPOUT AS A COMPRESSION TOOL

Towards Comprehensive Preference Data Collection for Reward Modeling

Towards Human-Guided, Data-Centric LLM Co-Pilots

Towards Internet-Scale Training For Agents

Tracing the Misuse of Personalized Textual Embeddings for Text-to-Image Models

Training and Evaluating Language Models with Template-based Data Generation

TsKAN: A Transparent Architecture for Improving the Interpretability of Multivariate Time Series Forecasting