ICML 2025PastGenerative models

Data in Generative Models - The Bad, the Ugly, and the Greats

DIG-BUG

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: May 29, 2025, 12:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (37)

Fetched from OpenReview (v2) on 2026-06-10.

A Data-Centric Safety Framework for Generative Models: Adversarial Fingerprint Detection and Attribution
Dong Liu, Yanxuan Yu · PDF
A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks
Blake Bullwinkel, Mark Russinovich, Ahmed Salem, Santiago Zanella-Beguelin, Daniel Jones, Giorgio Severi, Eugenia Kim, Keegan Hines, Amanda J. Minnich, Yonatan Zunger, Ram Shankar Siva Kumar · PDF
Backdooring VLMs via Concept-Driven Triggers
Yufan Feng, Weimin Lyu, Yuxin Wang, Benjamin Tan, Yani Ioannou · PDF
Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLMs
Dingjie Song, Sicheng Lai, Mingxuan Wang, Shunian Chen, Lichao Sun, Benyou Wang · PDF
Cascading Adversarial Bias from Injection to Distillation in Language Models
Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea · PDF
COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark
Charles Duong, Naaisha Agarwal, Ishant Yunay Chintapatla, Kazuma Choji, Andrew Lwin, Hannah You, Kevin Zhu, Sean O'Brien, Vasu Sharma · PDF
Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models
Laksh Patel, Neel N Shanbhag · PDF
Detective SAM: Adapting SAM to Localize Diffusion-based Forgeries via Embedding Artifacts
Gert Lek, Chaoyi Zhu, Pin-Yu Chen, Robert Birke, Lydia Y. Chen · PDF
Diversity Boosts AI-Generated Text Detection
Advik Raj Basani, Pin-Yu Chen · PDF
DP-AdamW: Investigating Decoupled Weight Decay and Bias Correction in Private Deep Learning
Lillian Sun, Kevin Cong, Je Qin Chooi, Russell Li · PDF
FaceSafe: An Inpainting Pipeline for Privacy-Compliant Scalable Image Datasets
Sydney Su, Lening Nick Cui, Ananya Salian, Roger You, Hao Qi Cui, Charles Duong, Kevin Zhu, Sean O'Brien, Vasu Sharma · PDF
Firm Foundations for Membership Inference Attacks Against Large Language Models
Jeffrey George Wang, Jason Wang, Marvin Li, Seth Neel · PDF
Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models
Lillian Sun, Martin Pawelczyk, Zhenting Qi, Aounon Kumar, Himabindu Lakkaraju · PDF
Ghost in the Cloud: Your Geo-Distributed Large Language Models Training is Easily Manipulated
Zichen TANG, Zhenheng Tang, Gaoning Pan, Buhua Liu, Kunfeng Lai, Xiaowen Chu, Bo Li · PDF
Implementing Adaptations for Vision AutoRegressive Model
Kaif Shaikh, Antoni Kowalczuk, Franziska Boenisch, Adam Dziedzic · PDF
Improvement-Guided Iterative DPO for Diffusion Models
Ying Fan, Fei Deng, Yang Zhao, Sahil Singla, Rahul Jain, Tingbo Hou, Kangwook Lee, Feng Yang, Deepak Ramachandran, Qifei Wang · PDF
In-Context Bias Propagation in LLM-Based Tabular Data Generation
Pol G. Recasens, Alberto Gutierrez-Torre, Jordi Torres, Josep Lluis Berral, Anisa Halimi, Kieran Fraser · PDF
JailbreakLoRA: Your Downloaded LoRA from Sharing Platforms might be Unsafe
Fanjunduo Wei, Zhenheng Tang, Rongfei Zeng, Tongliang Liu, Chengqi Zhang, Xiaowen Chu, Bo Han · PDF
Layer-wise Influence Tracing: Data-Centric Mitigation of Memorization in Diffusion Models
Thomas Y Chen · PDF
Lookahead Bias in Pretrained Language Models
Suproteem K Sarkar, Keyon Vafa · PDF
MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming
Stefan Schoepf, Muhammad Zaid Hameed, Ambrish Rawat, Kieran Fraser, Giulio Zizzo, Giandomenico Cornacchia, Mark Purcell · PDF
Model-based Large Language Model Customization as Service
Zhaomin Wu, Jizhou Guo, Junyi Hou, Bingsheng He, Lixin Fan, Qiang Yang · PDF
Optimal Defenses Against Data Reconstruction Attacks
Yuxiao Chen, Gamze Gursoy, Qi Lei · PDF
Optimization and Robustness-Informed Membership Inference Attacks for LLMs
Zichen Song, Qixin Zhang, Ming Li, Yao Shu · PDF
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models
Ziheng Cheng, Yixiao Huang, Hui Xu, Somayeh Sojoudi, Xuandong Zhao, Dawn Song, Song Mei · PDF
Preference Leakage: A Contamination Problem in LLM-as-a-judge
Dawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, huan liu · PDF
R&B: Breaking the Data Mixing Bottleneck with Just 0.01% Overhead
Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala · PDF
Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy
Xiangru Tang, Kunlun Zhu, Tongxin Yuan, Yichi Zhang, Wangchunshu Zhou, Zhuosheng Zhang · PDF
RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models
Le Vu Anh, Dinh Duc Nha Nguyen, Phi Long Nguyen, Keshav Sood · PDF
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge
Fengqing Jiang, Fengbo Ma, Zhangchen Xu, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bo Li, Xianyan Chen, Zhen Xiang, Radha Poovendran · PDF
Spectral Manifold Harmonization for Graph Imbalanced Regression
Brenda Nogueira, Meng Jiang, Nitesh V Chawla, Nuno Moniz · PDF
Training Diffusion Models with Noisy Data via SFBD Flow
Haoye Lu, Darren Lo, Yaoliang Yu · PDF
TruthLens: Training-Free Data Verification for Deepfake Images via VQA-style Probing
Ritabrata Chakraborty, Rajatsubhra Chakraborty, Ali Khaleghi Rahimian · PDF
Unlocking Post-hoc Dataset Inference with Synthetic Data
Bihe Zhao, Pratyush Maini, Franziska Boenisch, Adam Dziedzic · PDF
Watermarking Image Autoregressive Models
Michel Meintz, Jan Dubiński, Franziska Boenisch, Adam Dziedzic · PDF
Weak-to-strong Generalization via Formative Learning from Student Demonstrations & Teacher Evaluation
Nguyen Minh Phuc, Chinh Duc La, Heng Ji, Khoa D Doan · PDF
Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets
Lei Hsiung, Tianyu Pang, Yung-Chen Tang, Linyue Song, Tsung-Yi Ho, Pin-Yu Chen, Yaoqing Yang · PDF

Accepted papers (37)

☆A Data-Centric Safety Framework for Generative Models: Adversarial Fingerprint Detection and Attribution

☆A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks

☆Backdooring VLMs via Concept-Driven Triggers

☆Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLMs

☆Cascading Adversarial Bias from Injection to Distillation in Language Models

☆COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark

☆Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models

☆Detective SAM: Adapting SAM to Localize Diffusion-based Forgeries via Embedding Artifacts

☆Diversity Boosts AI-Generated Text Detection

☆DP-AdamW: Investigating Decoupled Weight Decay and Bias Correction in Private Deep Learning

☆FaceSafe: An Inpainting Pipeline for Privacy-Compliant Scalable Image Datasets

☆Firm Foundations for Membership Inference Attacks Against Large Language Models

☆Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models

☆Ghost in the Cloud: Your Geo-Distributed Large Language Models Training is Easily Manipulated

☆Implementing Adaptations for Vision AutoRegressive Model

☆Improvement-Guided Iterative DPO for Diffusion Models

☆In-Context Bias Propagation in LLM-Based Tabular Data Generation

☆JailbreakLoRA: Your Downloaded LoRA from Sharing Platforms might be Unsafe

☆Layer-wise Influence Tracing: Data-Centric Mitigation of Memorization in Diffusion Models

☆Lookahead Bias in Pretrained Language Models

☆MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming

☆Model-based Large Language Model Customization as Service

☆Optimal Defenses Against Data Reconstruction Attacks

☆Optimization and Robustness-Informed Membership Inference Attacks for LLMs

☆OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models

☆Preference Leakage: A Contamination Problem in LLM-as-a-judge

☆R&B: Breaking the Data Mixing Bottleneck with Just 0.01% Overhead

☆Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy

☆RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models

☆SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge

☆Spectral Manifold Harmonization for Graph Imbalanced Regression

☆Training Diffusion Models with Noisy Data via SFBD Flow

☆TruthLens: Training-Free Data Verification for Deepfake Images via VQA-style Probing

☆Unlocking Post-hoc Dataset Inference with Synthetic Data

☆Watermarking Image Autoregressive Models

☆Weak-to-strong Generalization via Formative Learning from Student Demonstrations & Teacher Evaluation

☆Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets

A Data-Centric Safety Framework for Generative Models: Adversarial Fingerprint Detection and Attribution

A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks

Backdooring VLMs via Concept-Driven Triggers

Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLMs

Cascading Adversarial Bias from Injection to Distillation in Language Models

COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark

Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models

Detective SAM: Adapting SAM to Localize Diffusion-based Forgeries via Embedding Artifacts

Diversity Boosts AI-Generated Text Detection

DP-AdamW: Investigating Decoupled Weight Decay and Bias Correction in Private Deep Learning

FaceSafe: An Inpainting Pipeline for Privacy-Compliant Scalable Image Datasets

Firm Foundations for Membership Inference Attacks Against Large Language Models

Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models

Ghost in the Cloud: Your Geo-Distributed Large Language Models Training is Easily Manipulated

Implementing Adaptations for Vision AutoRegressive Model

Improvement-Guided Iterative DPO for Diffusion Models

In-Context Bias Propagation in LLM-Based Tabular Data Generation

JailbreakLoRA: Your Downloaded LoRA from Sharing Platforms might be Unsafe

Layer-wise Influence Tracing: Data-Centric Mitigation of Memorization in Diffusion Models

Lookahead Bias in Pretrained Language Models

MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming

Model-based Large Language Model Customization as Service

Optimal Defenses Against Data Reconstruction Attacks

Optimization and Robustness-Informed Membership Inference Attacks for LLMs

OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models

Preference Leakage: A Contamination Problem in LLM-as-a-judge

R&B: Breaking the Data Mixing Bottleneck with Just 0.01% Overhead

Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy

RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models

SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge

Spectral Manifold Harmonization for Graph Imbalanced Regression

Training Diffusion Models with Noisy Data via SFBD Flow

TruthLens: Training-Free Data Verification for Deepfake Images via VQA-style Probing

Unlocking Post-hoc Dataset Inference with Synthetic Data

Watermarking Image Autoregressive Models

Weak-to-strong Generalization via Formative Learning from Student Demonstrations & Teacher Evaluation

Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets