NeurIPS 2024PastGenerative modelsFairness & ethicsMultimodal

Workshop on Responsibly Building the Next Generation of Multimodal Foundational Models

NeurIPS 2024 Workshop RBFM

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 21, 2024, 23:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (34)

Fetched from OpenReview (v2) on 2026-06-10.

Adversarial Robust Deep Reinforcement Learning is Neither Robust Nor Safe
Ezgi Korkmaz · PDF
Aligning to What? Limits to RLHF Based Alignment
Logan Barnhart, Reza Akbarian Bafghi, Maziar Raissi, Stephen Becker · PDF
Attention Shift: Steering AI Away from Unsafe Content
Shivank Garg, Manyana Tiwari · PDF
BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks
Juan A. Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte Suresh, François Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-Andre Noel, Mats Leon Richter, Saverio Vadacchino, Shubham Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Kurt MacDonald, Sathwik Tejaswi Madhusudhan, Joao Monteiro, Krishnamurthy Dj Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharaghani, Sean Hughes, M. Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam H. Laradji, Spandana Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar · PDF
Building and better understanding vision-language models: insights and future directions
Hugo Laurençon, Andrés Marafioti, Victor Sanh, Leo Tronchon · PDF
Comparison Visual Instruction Tuning
Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky · PDF
Consistency-diversity-realism Pareto fronts of conditional image generative models
Pietro Astolfi, Melissa Hall, Jakob Verbeek, Marlene Careil, Oscar Mañas, Matthew J. Muckley, Adriana Romero-Soriano, Michal Drozdzal · PDF
Coordinated Robustness Evaluation Framework for Vision Language Models
Ashwin Ramesh Babu, Sajad Mousavi, Desik Rengarajan, Vineet Gundecha, Sahand Ghorbanpour, Avisek Naug, Antonio Guillen, Ricardo Luna Gutierrez, Soumyendu Sarkar · PDF
CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models
Guangzhi Sun, Potsawee Manakul, Adian Liusie, Kunat Pipatanakul, Chao Zhang, Phil Woodland, Mark Gales · PDF
Decompose, Recompose, and Conquer: Multi-modal LLMs are Vulnerable to Compositional Adversarial Attacks in Multi-Image Queries
Julius Broomfield, George Ingebretsen, Reihaneh Iranmanesh, Sara Pieri, Ethan Kosak-Hine, Tom Gibbs, Reihaneh Rabbany, Kellin Pelrine · PDF
Exploring Intrinsic Fairness in Stable Diffusion
Eunji Kim, Siwon Kim, Robin Rombach, Rahim Entezari, Sungroh Yoon · PDF
GUIDE: A Responsible Multimodal Approach for Enhanced Glaucoma Risk Modeling and Patient Trajectory Analysis
Heman Shakeri, Behnaz Moradijamei · PDF
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?
Saeid Asgari, Joseph George Lambourne, Alana Mongkhounsavath · PDF
Incorporating Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models
Ce Zhang, Zifu Wan, Zhehan Kan, Martin Q. Ma, Simon Stepputtis, Deva Ramanan, Russ Salakhutdinov, Louis-Philippe Morency, Katia P. Sycara, Yaqi Xie · PDF
Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries
Adam X. Yang, Chen Chen, Konstantinos Pitas · PDF
LEMoN: Label Error Detection using Multimodal Neighbors
Haoran Zhang, Aparna Balagopalan, Nassim Oufattole, Hyewon Jeong, Yan Wu, Jiacheng Zhu, Marzyeh Ghassemi · PDF
LLAVAGUARD: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment
Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski · PDF
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models
Mohammad Shahab Sepehri, Zalan Fabian, Maryam Soltanolkotabi, Mahdi Soltanolkotabi · PDF
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs
Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai, James Matthew Rehg, Aidong Zhang · PDF
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs
Saeid Asgari, Aliasghar Khani, Amir Hosein Khasahmadi · PDF
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang · PDF
Multimodal Situational Safety
Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Xin Eric Wang · PDF
PopAlign: Population-Level Alignment for Fair Text-to-Image Generation
Shufan Li, Aditya Grover, Harkanwar Singh · PDF
Position Paper: Protocol Learning, Decentralized Frontier Risk and the No-Off Problem
Alexander Long · PDF
Probabilistic Active Few-Shot Learning in Vision-Language Models
Anton Baumann, Marcus Klasson, Rui Li, Arno Solin, Martin Trapp · PDF
Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models
Mazda Moayeri, Samyadeep Basu, Sriram Balasubramanian, Priyatham Kattakinda, Atoosa Chegini, Robert Brauneis, Soheil Feizi · PDF
Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models
Gracjan Góral, Alicja Ziarko, Michal Nauman, Maciej Wolczyk · PDF
Skipping Computations in Multimodal LLMs
Mustafa Shukor, Matthieu Cord · PDF
The Multi-faceted Monosemanticity in Multimodal Representations
Hanqi Yan, Yulan He, Yifei Wang · PDF
Towards Secure and Private AI: A Framework for Decentralized Inference
Hongyang Zhang, Yue Zhao, Chao Yang, Ahmad Farhan, Fielding Johnston · PDF
Trust but Verify: Reliable VLM evaluation in-the-wild with program synthesis
Viraj Uday Prabhu, Senthil Purushwalkam, Jieyu Zhang, An Yan, Caiming Xiong, Ran Xu · PDF
When Do Universal Image Jailbreaks Transfer Between Vision-Language Models?
Rylan Schaeffer, Dan Valentine, Luke Bailey, James Chua, Cristobal Eyzaguirre, Zane Durante, Joe Benton, Brando Miranda, Henry Sleight, Tony Tong Wang, John Hughes, Rajashree Agrawal, Mrinank Sharma, Scott Emmons, Sanmi Koyejo, Ethan Perez · PDF
WikiDO: A New Benchmark Evaluating Cross-Modal Retrieval for Vision-Language Models
Pavan Kalyan Tankala, Piyush Singh Pasi, Sahil Dharod, Azeem Motiwala, Preethi Jyothi, Aditi Chaudhary, Krishna Srinivasan · PDF
You Never Know: Quantization Induces Inconsistent Biases in Vision-Language Foundation Models
Eric Slyman, Anirudh Kanneganti, Sanghyun Hong, Stefan Lee · PDF

Accepted papers (34)

☆Adversarial Robust Deep Reinforcement Learning is Neither Robust Nor Safe

☆Aligning to What? Limits to RLHF Based Alignment

☆Attention Shift: Steering AI Away from Unsafe Content

☆BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

☆Building and better understanding vision-language models: insights and future directions

☆Comparison Visual Instruction Tuning

☆Consistency-diversity-realism Pareto fronts of conditional image generative models

☆Coordinated Robustness Evaluation Framework for Vision Language Models

☆CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models

☆Decompose, Recompose, and Conquer: Multi-modal LLMs are Vulnerable to Compositional Adversarial Attacks in Multi-Image Queries

☆Exploring Intrinsic Fairness in Stable Diffusion

☆GUIDE: A Responsible Multimodal Approach for Enhanced Glaucoma Risk Modeling and Patient Trajectory Analysis

☆How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?

☆Incorporating Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models

☆Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries

☆LEMoN: Label Error Detection using Multimodal Neighbors

☆LLAVAGUARD: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

☆MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

☆MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

☆MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs

☆Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

☆Multimodal Situational Safety

☆PopAlign: Population-Level Alignment for Fair Text-to-Image Generation

☆Position Paper: Protocol Learning, Decentralized Frontier Risk and the No-Off Problem

☆Probabilistic Active Few-Shot Learning in Vision-Language Models

☆Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models

☆Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models

☆Skipping Computations in Multimodal LLMs

☆The Multi-faceted Monosemanticity in Multimodal Representations

☆Towards Secure and Private AI: A Framework for Decentralized Inference

☆Trust but Verify: Reliable VLM evaluation in-the-wild with program synthesis

☆When Do Universal Image Jailbreaks Transfer Between Vision-Language Models?

☆WikiDO: A New Benchmark Evaluating Cross-Modal Retrieval for Vision-Language Models

☆You Never Know: Quantization Induces Inconsistent Biases in Vision-Language Foundation Models

Adversarial Robust Deep Reinforcement Learning is Neither Robust Nor Safe

Aligning to What? Limits to RLHF Based Alignment

Attention Shift: Steering AI Away from Unsafe Content

BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

Building and better understanding vision-language models: insights and future directions

Comparison Visual Instruction Tuning

Consistency-diversity-realism Pareto fronts of conditional image generative models

Coordinated Robustness Evaluation Framework for Vision Language Models

CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models

Decompose, Recompose, and Conquer: Multi-modal LLMs are Vulnerable to Compositional Adversarial Attacks in Multi-Image Queries

Exploring Intrinsic Fairness in Stable Diffusion

GUIDE: A Responsible Multimodal Approach for Enhanced Glaucoma Risk Modeling and Patient Trajectory Analysis

How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?

Incorporating Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models

Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries

LEMoN: Label Error Detection using Multimodal Neighbors

LLAVAGUARD: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Multimodal Situational Safety

PopAlign: Population-Level Alignment for Fair Text-to-Image Generation

Position Paper: Protocol Learning, Decentralized Frontier Risk and the No-Off Problem

Probabilistic Active Few-Shot Learning in Vision-Language Models

Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models

Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models

Skipping Computations in Multimodal LLMs

The Multi-faceted Monosemanticity in Multimodal Representations

Towards Secure and Private AI: A Framework for Decentralized Inference

Trust but Verify: Reliable VLM evaluation in-the-wild with program synthesis

When Do Universal Image Jailbreaks Transfer Between Vision-Language Models?

WikiDO: A New Benchmark Evaluating Cross-Modal Retrieval for Vision-Language Models

You Never Know: Quantization Induces Inconsistent Biases in Vision-Language Foundation Models