NeurIPS 2025PastSafety & alignmentGenerative modelsPrivacy & security

NeurIPS 2025 Workshop on Biosecurity Safeguards for Generative AI

BioSafe GenAI 2025

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 15, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (38)

Fetched from OpenReview (v2) on 2026-06-10.

A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment
Meiyin Meng, ZAIXI ZHANG · PDF
ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity
Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe · PDF
Agentic BAIM-LLM Evaluation (ABLE): Benchmarking LLM Use of Protein Design Tools
Bryce Cai, Geetha Jeyapragasan, Samira Nedungadi, Jake Yukich, Seth Donoughe · PDF
AI Bioweapons and the Failure of Inference-Time Filters
Jonathan Feldman, Tal Feldman · PDF
Behavioral Red Teaming: Investigating Future Biosecurity Risk from Agentic AI and De Novo Sequence Design
Akash Arunabharathi · PDF
Benchmarking Biosafety in Generative Protein Design: A Stress-Test Framework for Binder Models
Mingyang Xu · PDF
Benchmarking diffusion models for predicting perturbed cellular responses
Zijun Song, Changwen Zheng, Jiangmeng Li, Linhai Xie, Yujia Xiang · PDF
Benchmarking Mitigations Against Covert Misuse
Davis Brown, Mahdi Sabbaghi, Luze Sun, Alexander Robey, George J. Pappas, Eric Wong, Hamed Hassani · PDF
Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models
Boyi Wei, Zora Che, Nathaniel Li, Jasper Götting, Samira Nedungadi, Julian Michael, Summer Yue, Dan Hendrycks, Peter Henderson, Zifan Wang, Seth Donoughe, Mantas Mazeika · PDF
Biorisk-Shift: Converting AI Vulnerabilities into Biological Threat Vectors
Eun Ro, Yoshi Nakachi, Yang Chung, Steven Basart · PDF
Biosecurity-Aware AI: Agentic Risk Auditing of Soft Prompt Attacks on ESM-Based Variant Predictors
Huixin Zhan · PDF
Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs
Kyle O'Brien, Stephen Casper, Quentin Gregory Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman · PDF
Deep Research Brings Deeper Harm
Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu · PDF
Exposing Critical Safety Failures: A Comprehensive Safety-Weighted Evaluation of LLaMA Models for Biochemical Toxicity Screening
Gokul Srinath Seetha Ram · PDF
GeneBreaker: Jailbreak Attacks against DNA Language Models with Pathogenicity Guidance
ZAIXI ZHANG, Zhenghong Zhou, Ruofan Jin, Le Cong, Mengdi Wang · PDF
Involuntary Jailbreak
Yangyang Guo, Yangyan Li, Mohan Kankanhalli · PDF
Is My Language Model a Biohazard?
Aldan Creo, Cristina Correa · PDF
Monte Carlo Expected Threat (MOCET) Scoring
Joseph Kim, Saahith Potluri · PDF
Open-weight genome language model safeguards: Assessing robustness via adversarial fine-tuning
James R. M. Black, Moritz S. Hanke, Aaron Maiwald, Tina Hernandez-Boussard, Oliver M Crook, Jassi Pannu · PDF
Perspective: Lessons from Cybersecurity for Biological AI Safety
Azmine Toushik Wasi, Mst Rafia Islam · PDF
Position: Biosafety-Critical Adjacent Technologies are Critical for Scalable and Safe Clinical Multi-modal LLM Deployment
Azmine Toushik Wasi, Md. Iqramul Hoque · PDF
Position: Without Global Governance, AI-Enabled Biodesign Tools Risk Dangerous Proliferation
Azmine Toushik Wasi, Mst Rafia Islam, Rahatun Nesa Priti · PDF
Prompting Toxicity: Analyzing Biosafety Risks in Genomic Language Models
Akshay Murthy, Mengmeng Zhang, Shanmukhi Kannamangalam, Benjamin Liu, Kevin Zhu · PDF
Property Adherent Molecular Generation with Constrained Discrete Diffusion
Michael Cardei, Jacob K Christopher, Bhavya Kailkhura, Thomas Hartvigsen, Ferdinando Fioretto · PDF
ProtGPT2 is Not Biosecure by Default
Tia Pope · PDF
Resisting RL Elicitation of Biosecurity Capabilities: Reasoning Models Exploration Hacking on WMDP
Joschka Braun, Yeonwoo Jang, Damon Falck, Roland S. Zimmermann, David Lindner, Scott Emmons · PDF
RippleBench: Capturing Ripple Effects by Leveraging Existing Knowledge Repositories
Roy Rinberg, Usha Bhalla, Igor Shilov, Rohit Gandikota · PDF
Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization
Filip Sondej, Yushi Yang, Mikolaj Kniejski, Marcel Windys · PDF
SafeBench-Seq: A Homology-Clustered, CPU-Only Baseline for Protein Hazard Screening with Physicochemical/Composition Features and Cluster-Aware Confidence Intervals
Muhammad Haris Khan · PDF
SafeGenie: Erasing Dangerous Concepts from Biological Diffusion Models
Arjun Banerjee, Ethan Tam, Camille Dang, David Martinez · PDF
SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models
Jigang Fan, Zhenghong Zhou, ZAIXI ZHANG, Ruofan Jin, Le Cong, Mengdi Wang · PDF
Securing Dual-Use Pathogen Data of Concern
Doni Bloomfield, Moritz S. Hanke, Aaron Maiwald, James R. M. Black, Toby Webster, Tina Hernandez-Boussard, Allison Berke, Oliver M Crook, Jassi Pannu · PDF
Securing the Language of Life: Inheritable Watermarks from DNA Language Models to Proteins
ZAIXI ZHANG, Ruofan Jin, Mengdi Wang, Le Cong · PDF
Structural Persistence Despite Sequence Redaction: A Biosecurity Evaluation of Protein Language Models
Petr Simecek · PDF
Translating Biomedical Observations into Signal Temporal Logic with LLMs using Structured Feedback
Hanna Krasowski, Lauren E. Malek, Sanjit A. Seshia, Murat Arcak · PDF
Where to Edit? : Complementary Protein Property Control from Weight and Activation Spaces
Armaity Katki, Nathan Choi, Son Sophak Otra, George Flint, Kevin Zhu · PDF
Without Safeguards, AI-Biology Integration Risks Creating Future Pandemics
Dianzhuo Wang, Marian Huot, Zechen Zhang, Kaiyi Jiang, Eugene Shakhnovich, Kevin M. Esvelt · PDF
Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs
Arjun Damerla, Anirudh Sekar, Rachel Sharma, Mrinal Agarwal, Jasmine Zhang, Akitsugu Tanaka · PDF

Accepted papers (38)

☆A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment

☆ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

☆Agentic BAIM-LLM Evaluation (ABLE): Benchmarking LLM Use of Protein Design Tools

☆AI Bioweapons and the Failure of Inference-Time Filters

☆Behavioral Red Teaming: Investigating Future Biosecurity Risk from Agentic AI and De Novo Sequence Design

☆Benchmarking Biosafety in Generative Protein Design: A Stress-Test Framework for Binder Models

☆Benchmarking diffusion models for predicting perturbed cellular responses

☆Benchmarking Mitigations Against Covert Misuse

☆Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models

☆Biorisk-Shift: Converting AI Vulnerabilities into Biological Threat Vectors

☆Biosecurity-Aware AI: Agentic Risk Auditing of Soft Prompt Attacks on ESM-Based Variant Predictors

☆Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

☆Deep Research Brings Deeper Harm

☆Exposing Critical Safety Failures: A Comprehensive Safety-Weighted Evaluation of LLaMA Models for Biochemical Toxicity Screening

☆GeneBreaker: Jailbreak Attacks against DNA Language Models with Pathogenicity Guidance

☆Involuntary Jailbreak

☆Is My Language Model a Biohazard?

☆Monte Carlo Expected Threat (MOCET) Scoring

☆Open-weight genome language model safeguards: Assessing robustness via adversarial fine-tuning

☆Perspective: Lessons from Cybersecurity for Biological AI Safety

☆Position: Biosafety-Critical Adjacent Technologies are Critical for Scalable and Safe Clinical Multi-modal LLM Deployment

☆Position: Without Global Governance, AI-Enabled Biodesign Tools Risk Dangerous Proliferation

☆Prompting Toxicity: Analyzing Biosafety Risks in Genomic Language Models

☆Property Adherent Molecular Generation with Constrained Discrete Diffusion

☆ProtGPT2 is Not Biosecure by Default

☆Resisting RL Elicitation of Biosecurity Capabilities: Reasoning Models Exploration Hacking on WMDP

☆RippleBench: Capturing Ripple Effects by Leveraging Existing Knowledge Repositories

☆Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

☆SafeBench-Seq: A Homology-Clustered, CPU-Only Baseline for Protein Hazard Screening with Physicochemical/Composition Features and Cluster-Aware Confidence Intervals

☆SafeGenie: Erasing Dangerous Concepts from Biological Diffusion Models

☆SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models

☆Securing Dual-Use Pathogen Data of Concern

☆Securing the Language of Life: Inheritable Watermarks from DNA Language Models to Proteins

☆Structural Persistence Despite Sequence Redaction: A Biosecurity Evaluation of Protein Language Models

☆Translating Biomedical Observations into Signal Temporal Logic with LLMs using Structured Feedback

☆Where to Edit? : Complementary Protein Property Control from Weight and Activation Spaces

☆Without Safeguards, AI-Biology Integration Risks Creating Future Pandemics

☆Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs

A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment

ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

Agentic BAIM-LLM Evaluation (ABLE): Benchmarking LLM Use of Protein Design Tools

AI Bioweapons and the Failure of Inference-Time Filters

Behavioral Red Teaming: Investigating Future Biosecurity Risk from Agentic AI and De Novo Sequence Design

Benchmarking Biosafety in Generative Protein Design: A Stress-Test Framework for Binder Models

Benchmarking diffusion models for predicting perturbed cellular responses

Benchmarking Mitigations Against Covert Misuse

Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models

Biorisk-Shift: Converting AI Vulnerabilities into Biological Threat Vectors

Biosecurity-Aware AI: Agentic Risk Auditing of Soft Prompt Attacks on ESM-Based Variant Predictors

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

Deep Research Brings Deeper Harm

Exposing Critical Safety Failures: A Comprehensive Safety-Weighted Evaluation of LLaMA Models for Biochemical Toxicity Screening

GeneBreaker: Jailbreak Attacks against DNA Language Models with Pathogenicity Guidance

Involuntary Jailbreak

Is My Language Model a Biohazard?

Monte Carlo Expected Threat (MOCET) Scoring

Open-weight genome language model safeguards: Assessing robustness via adversarial fine-tuning

Perspective: Lessons from Cybersecurity for Biological AI Safety

Position: Biosafety-Critical Adjacent Technologies are Critical for Scalable and Safe Clinical Multi-modal LLM Deployment

Position: Without Global Governance, AI-Enabled Biodesign Tools Risk Dangerous Proliferation

Prompting Toxicity: Analyzing Biosafety Risks in Genomic Language Models

Property Adherent Molecular Generation with Constrained Discrete Diffusion

ProtGPT2 is Not Biosecure by Default

Resisting RL Elicitation of Biosecurity Capabilities: Reasoning Models Exploration Hacking on WMDP

RippleBench: Capturing Ripple Effects by Leveraging Existing Knowledge Repositories

Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

SafeBench-Seq: A Homology-Clustered, CPU-Only Baseline for Protein Hazard Screening with Physicochemical/Composition Features and Cluster-Aware Confidence Intervals

SafeGenie: Erasing Dangerous Concepts from Biological Diffusion Models

SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models

Securing Dual-Use Pathogen Data of Concern

Securing the Language of Life: Inheritable Watermarks from DNA Language Models to Proteins

Structural Persistence Despite Sequence Redaction: A Biosecurity Evaluation of Protein Language Models

Translating Biomedical Observations into Signal Temporal Logic with LLMs using Structured Feedback

Where to Edit? : Complementary Protein Property Control from Weight and Activation Spaces

Without Safeguards, AI-Biology Integration Risks Creating Future Pandemics

Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs