ICML 2025PastFairness & ethics

ICML Workshop on Technical AI Governance (TAIG)

ICML 2025 Workshop TAIG

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: May 13, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (45)

Fetched from OpenReview (v2) on 2026-06-10.

A Blueprint for a Secure EU AI Audit Ecosystem
Alejandro Tlaie · PDF
A Conceptual Framework for AI Capability Evaluations
María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Luca Nicolás Forziati Gangi, Matheo Sandleris Musa, Lola Ramos Pereyra, Mario Leiva, Juan Gustavo Corvalan, Maria Vanina Martinez, Gerardo Simari · PDF
A Taxonomy for Design and Evaluation of Prompt-Based Natural Language Explanations
Isar Nejadgholi, Mona Omidyeganeh, Marc-Antoine Drouin, Jonathan Boisvert · PDF
Acceleration potential in the GPU design-to-manufacturing pipeline
Maximilian Negele · PDF
Access Controls Will Solve the Dual-Use Dilemma
Evžen Wybitul · PDF
AI Benchmarks: Interdisciplinary Issues and Policy Considerations
Maria Eriksson, Erasmo Purificato, Arman Noroozian, João Vinagre, Guillaume Chaslot, Emilia Gomez, David Fernández-Llorca · PDF
Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments
Christoph Schnabl, Daniel Hugenroth, Bill Marino, Alastair R. Beresford · PDF
CALMA: Context‑Aligned Axes for Language Model Alignment
Prajna Soni, Deepika Raman, Dylan Hadfield-Menell · PDF
Compute Requirements for Algorithmic Innovation in Frontier AI Models
Peter Barnett · PDF
Deprecating Benchmarks: Criteria and Framework
Ayrton San Joaquin, Rokas Gipiškis, Leon Staufer, Ariel Gil · PDF
Detecting Compute Structuring in AI Governance is likely feasible
Emmanouil Seferis, Timothy Fist · PDF
Distributed and Decentralised Training: Technical Governance Challenges in a Shifting AI Landscape
Jakub Kryś, Yashvardhan Sharma, Janet Egan · PDF
Evaluating LLM Agent Adherence to Hierarchical Principles: A Lightweight Benchmark for Verifying AI Safety Plan Components
Ram Potham · PDF
Expert Survey: Technical AI Safety & Security Research Priorities
Joe O'Brien, Jeremy Dolan, Jeba Sania, Jay Kim, Rocio Cara Labrador, Jonah Dykhuizen, Sebastian Becker, Jam Kraprayoon · PDF
Exploring an Agenda on Memorization-based Copyright Verification
Harry H. Jiang, Aster Plotnik, Carlee Joe-Wong · PDF
Exploring Functional Similarities of Backdoored Models
Yufan Feng, Benjamin Tan, Yani Ioannou · PDF
ExpProof : Operationalizing Explanations for Confidential Models with ZKPs
Chhavi Yadav, Evan Laufer, Dan Boneh, Kamalika Chaudhuri · PDF
Fallacies of Data Transparency: Rethinking Nutrition Facts for AI
Judy Hanwen Shen, Ken Liu, Angelina Wang, Sarah H. Cen, Andy K Zhang, Caroline Meinhardt, Daniel Zhang, Kevin Klyman, Rishi Bommasani, Daniel E. Ho · PDF
Fragile by Design: Formalizing Watermarking Tradeoffs via Paraphrasing
Ali Falahati, Lukasz Golab · PDF
From Individual Experience to Collective Evidence: A Reporting-Based Framework for Identifying Systemic Harms
Jessica Dai, Paula Gradu, Inioluwa Deborah Raji, Benjamin Recht · PDF
Guaranteeable Memory: An HBM-Based Chiplet for Verifiable AI Workloads
James Petrie · PDF
Hardware-Enabled Mechanisms for Verifying Responsible AI Development
Aidan O'Gara, Gabriel Kulp, Will Hodgkins, James Petrie, Vincent Immler, Aydin Aysu, Kanad Basu, Shivam Bhasin, Stjepan Picek, Ankur Srivastava · PDF
In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI
Shayne Longpre, Kevin Klyman, Ruth E. Appel, Sayash Kapoor, Rishi Bommasani, Michelle Sahar, Sean McGregor, Avijit Ghosh, Borhane Blili-Hamelin, Nathan Butters, Alondra Nelson, Dr. Amit Elazari, Andrew Sellars, Casey John Ellis, Dane Sherrets, Dawn Song, Harley Geiger, Ilona Cohen, Lauren McIlvenny, Madhulika Srikumar, Mark M. Jaycox, Markus Anderljung, Nadine Farid Johnson, Nicholas Carlini, Nicolas Miailhe, Nik Marda, Peter Henderson, Rebecca S. Portnoff, Rebecca Weiss, Victoria Westerhoff, Yacine Jernite, Rumman Chowdhury, Percy Liang, Arvind Narayanan · PDF
LibVulnWatch: A Deep Assessment Agent System and Leaderboard for Uncovering Hidden Vulnerabilities in Open-Source AI Libraries
Zekun Wu, Seonglae Cho, Umar Mohammed, CRISTIAN ENRIQUE MUNOZ VILLALOBOS, Kleyton Da Costa, Xin Guan, Theo King, Ze Wang, Emre Kazim, Adriano Koshiyama · PDF
LLMs Can Covertly Sandbag On Capability Evaluations Against Chain-of-Thought Monitoring
Chloe Li, Mary Phuong, Noah Y. Siegel · PDF
Locking Open Weight Models with Spectral Deformation
Domenic Rosati, Sebastian Dionicio, Xijie Zeng, Subhabrata Majumdar, Frank Rudzicz, Hassan Sajjad · PDF
Marginal Risk Relative to What? Distinguishing Baselines in AI Risk Management
Jide Alaga, Michael Chen · PDF
Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications
Jia Yi Goh, Shaun Khoo, Nyx Iskandar, Gabriel Chua, Leanne Tan, Jessica Foo · PDF
Meek Models Shall Inherit The Earth
Hans Gundlach, Jayson Lynch, Neil Thompson · PDF
Methodological Challenges in Agentic Evaluations of AI Systems
Kevin Wei, Stephen Guth, Gabriel Wu, Patricia Paskov · PDF
Position: Formal Methods are the Principled Foundation of Safe AI
Gagandeep Singh, Deepika Chawla · PDF
Position: Generative AI Regulation Can Learn from Social Media Regulation
Ruth Elisabeth Appel · PDF
Practical Principles for AI Cost and Compute Accounting
Stephen Casper, Luke Bailey, Tim Schreier · PDF
Probing Evaluation Awareness of Language Models
Jord Nguyen, Hoang Huu Khiem, Carlo Leonardo Attubato, Felix Hofstätter · PDF
Proofs of Autonomy: Scalable and Practical Verification of AI Autonomy
Artem Grigor, Christian Schroeder de Witt, Ivan Martinovic · PDF
Relative Bias: A Comparative Approach for Quantifying Bias in LLMs
Alireza Arbabi, Florian Kerschbaum · PDF
Reproducibility: The New Frontier in AI Governance
Israel Mason-Williams, Gabryel Mason-Williams · PDF
Robust ML Auditing using Prior Knowledge
Jade Garcia Bourrée, Augustin Godinot, Martijn De Vos, Milos Vujasinovic, Sayan Biswas, Gilles Tredan, Erwan Le Merrer, Anne-Marie Kermarrec · PDF
Scaling Limits to AI Chip Production
Maximilian Negele, Lennart Heim, Peter Ruschhaupt · PDF
Societal Capacity Assessment Framework: Measuring Advanced AI Implications for Vulnerability, Resilience, and Transformation
Milan M. Gandhi, Peter Cihon, Owen C. Larter, Rebecca Anselmetti · PDF
Technical Requirements for Halting Dangerous AI Activities
Peter Barnett, Aaron Scher, David Abecassis · PDF
The Strong, weak and benign Goodhart's law. An independence-free and paradigm-agnostic formalisation
Adrien Majka, El-Mahdi El-Mhamdi · PDF
Trends in AI Supercomputers
Konstantin Friedemann Pilz, James Sanders, Robi Rahman, Lennart Heim · PDF
Trends in Frontier AI Model Count: A Forecast to 2028
Iyngkarran Kumar, Sam Manning · PDF
Watermarking Without Standards Is Not AI Governance
Alexander Nemecek, Yuzhou Jiang, Erman Ayday · PDF

Accepted papers (45)

☆A Blueprint for a Secure EU AI Audit Ecosystem

☆A Conceptual Framework for AI Capability Evaluations

☆A Taxonomy for Design and Evaluation of Prompt-Based Natural Language Explanations

☆Acceleration potential in the GPU design-to-manufacturing pipeline

☆Access Controls Will Solve the Dual-Use Dilemma

☆AI Benchmarks: Interdisciplinary Issues and Policy Considerations

☆Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments

☆CALMA: Context‑Aligned Axes for Language Model Alignment

☆Compute Requirements for Algorithmic Innovation in Frontier AI Models

☆Deprecating Benchmarks: Criteria and Framework

☆Detecting Compute Structuring in AI Governance is likely feasible

☆Distributed and Decentralised Training: Technical Governance Challenges in a Shifting AI Landscape

☆Evaluating LLM Agent Adherence to Hierarchical Principles: A Lightweight Benchmark for Verifying AI Safety Plan Components

☆Expert Survey: Technical AI Safety & Security Research Priorities

☆Exploring an Agenda on Memorization-based Copyright Verification

☆Exploring Functional Similarities of Backdoored Models

☆ExpProof : Operationalizing Explanations for Confidential Models with ZKPs

☆Fallacies of Data Transparency: Rethinking Nutrition Facts for AI

☆Fragile by Design: Formalizing Watermarking Tradeoffs via Paraphrasing

☆From Individual Experience to Collective Evidence: A Reporting-Based Framework for Identifying Systemic Harms

☆Guaranteeable Memory: An HBM-Based Chiplet for Verifiable AI Workloads

☆Hardware-Enabled Mechanisms for Verifying Responsible AI Development

☆In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI

☆LibVulnWatch: A Deep Assessment Agent System and Leaderboard for Uncovering Hidden Vulnerabilities in Open-Source AI Libraries

☆LLMs Can Covertly Sandbag On Capability Evaluations Against Chain-of-Thought Monitoring

☆Locking Open Weight Models with Spectral Deformation

☆Marginal Risk Relative to What? Distinguishing Baselines in AI Risk Management

☆Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications

☆Meek Models Shall Inherit The Earth

☆Methodological Challenges in Agentic Evaluations of AI Systems

☆Position: Formal Methods are the Principled Foundation of Safe AI

☆Position: Generative AI Regulation Can Learn from Social Media Regulation

☆Practical Principles for AI Cost and Compute Accounting

☆Probing Evaluation Awareness of Language Models

☆Proofs of Autonomy: Scalable and Practical Verification of AI Autonomy

☆Relative Bias: A Comparative Approach for Quantifying Bias in LLMs

☆Reproducibility: The New Frontier in AI Governance

☆Robust ML Auditing using Prior Knowledge

☆Scaling Limits to AI Chip Production

☆Societal Capacity Assessment Framework: Measuring Advanced AI Implications for Vulnerability, Resilience, and Transformation

☆Technical Requirements for Halting Dangerous AI Activities

☆The Strong, weak and benign Goodhart's law. An independence-free and paradigm-agnostic formalisation

☆Trends in AI Supercomputers

☆Trends in Frontier AI Model Count: A Forecast to 2028

☆Watermarking Without Standards Is Not AI Governance

A Blueprint for a Secure EU AI Audit Ecosystem

A Conceptual Framework for AI Capability Evaluations

A Taxonomy for Design and Evaluation of Prompt-Based Natural Language Explanations

Acceleration potential in the GPU design-to-manufacturing pipeline

Access Controls Will Solve the Dual-Use Dilemma

AI Benchmarks: Interdisciplinary Issues and Policy Considerations

Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments

CALMA: Context‑Aligned Axes for Language Model Alignment

Compute Requirements for Algorithmic Innovation in Frontier AI Models

Deprecating Benchmarks: Criteria and Framework

Detecting Compute Structuring in AI Governance is likely feasible

Distributed and Decentralised Training: Technical Governance Challenges in a Shifting AI Landscape

Evaluating LLM Agent Adherence to Hierarchical Principles: A Lightweight Benchmark for Verifying AI Safety Plan Components

Expert Survey: Technical AI Safety & Security Research Priorities

Exploring an Agenda on Memorization-based Copyright Verification

Exploring Functional Similarities of Backdoored Models

ExpProof : Operationalizing Explanations for Confidential Models with ZKPs

Fallacies of Data Transparency: Rethinking Nutrition Facts for AI

Fragile by Design: Formalizing Watermarking Tradeoffs via Paraphrasing

From Individual Experience to Collective Evidence: A Reporting-Based Framework for Identifying Systemic Harms

Guaranteeable Memory: An HBM-Based Chiplet for Verifiable AI Workloads

Hardware-Enabled Mechanisms for Verifying Responsible AI Development

In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI

LibVulnWatch: A Deep Assessment Agent System and Leaderboard for Uncovering Hidden Vulnerabilities in Open-Source AI Libraries

LLMs Can Covertly Sandbag On Capability Evaluations Against Chain-of-Thought Monitoring

Locking Open Weight Models with Spectral Deformation

Marginal Risk Relative to What? Distinguishing Baselines in AI Risk Management

Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications

Meek Models Shall Inherit The Earth

Methodological Challenges in Agentic Evaluations of AI Systems

Position: Formal Methods are the Principled Foundation of Safe AI

Position: Generative AI Regulation Can Learn from Social Media Regulation

Practical Principles for AI Cost and Compute Accounting

Probing Evaluation Awareness of Language Models

Proofs of Autonomy: Scalable and Practical Verification of AI Autonomy

Relative Bias: A Comparative Approach for Quantifying Bias in LLMs

Reproducibility: The New Frontier in AI Governance

Robust ML Auditing using Prior Knowledge

Scaling Limits to AI Chip Production

Societal Capacity Assessment Framework: Measuring Advanced AI Implications for Vulnerability, Resilience, and Transformation

Technical Requirements for Halting Dangerous AI Activities

The Strong, weak and benign Goodhart's law. An independence-free and paradigm-agnostic formalisation

Trends in AI Supercomputers

Trends in Frontier AI Model Count: A Forecast to 2028

Watermarking Without Standards Is Not AI Governance