ICLR 2025PastLarge language models

ICLR 2025 Workshop on Foundation Models in the Wild

ICLR 2025 FM-Wild Workshop

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 11, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (102)

Fetched from OpenReview (v2) on 2026-06-10.

"Short-length" Adversarial Training Helps LLMs Defend "Long-length" Jailbreak Attacks: Theoretical and Empirical Evidence
Shaopeng Fu, Liang Ding, Di Wang · PDF
Accelerating Unbiased LLM Evaluation via Synthetic Feedback
Zhaoyi Zhou, Yuda Song, Andrea Zanette · PDF
ACTIVATION STEERING IN NEURAL THEOREM PROVERS
Shashank Kirtania · PDF
Adjustment for Confounding using Pre-Trained Representations
Rickmer Schulte, David Rügamer, Thomas Nagler · PDF
AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models
Mintong Kang, Chejian Xu, Shuang Yang, Bo Li · PDF
Agentic Multimodal AI for Hyper-Personalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework
Sagar Srinivas Sakhinana, Akash Das, Shivam Gupta, Venkataramana Runkana · PDF
AgentTaxo: Dissecting and Benchmarking Token Distribution of LLM Multi-Agent Systems
Qian Wang, Zhenheng Tang, ZICHEN JIANG, Nuo Chen, Tianyu Wang, Bingsheng He · PDF
All It Takes Is One Prompt: An Autonomous LLM-MA System
Qian Wang, Tianyu Wang, Zhenheng Tang, Qinbin Li, Nuo Chen, Jingsheng Liang, Bingsheng He · PDF
AppVLM: A Lightweight Vision Language Model for Online App Control
Georgios Papoudakis, Thomas Coste, Zhihao Wu, Jianye HAO, Jun Wang, Kun Shao · PDF
Are DeepSeek R1 And Other Reasoning Models More Faithful?
James Chua, Owain Evans · PDF
Aria-UI: Visual Grounding for GUI Instructions
Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li · PDF
Attacking Multimodal OS Agents with Malicious Image Patches
Lukas Aichberger, Alasdair Paren, Philip Torr, Yarin Gal, Adel Bibi · PDF
Automated Benchmark Generation for Repository-Level Coding Tasks
Konstantinos Vergopoulos, Mark Niklas Mueller, Martin Vechev · PDF
Automated Capability Discovery via Model Self-Exploration
Cong Lu, Shengran Hu, Jeff Clune · PDF
AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind
Zhining Zhang, Chuanyang Jin, Mung Yao Jia, Tianmin Shu · PDF
Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images
Aditya Kumar, Tom Blanchard, Adam Dziedzic, Franziska Boenisch · PDF
Beyond ID Bias: PCA-Guided Dropout for Robust Fine-tuning
Bo Fei, Xiaocheng Li, ZhangZhiqi, Youchen Qing, YANCONG DENG · PDF
Beyond Pixels: Enhancing LIME with Hierarchical Features and Segmentation Foundation Models
Patrick Knab, Sascha Marton, Christian Bartelt · PDF
Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation
Tim Rädsch, Leon Mayer, Simon Pavicic, Ali Emre Kavur, Marcel Knopp, Barış Öztürk, Klaus Maier-Hein, Paul F Jaeger, Fabian Isensee, Annika Reinke, Lena Maier-hein · PDF
Captured by Captions: On Memorization and its Mitigation in CLIP Models
Wenhao Wang, Adam Dziedzic, Grace C. Kim, Michael Backes, Franziska Boenisch · PDF
CARROT: A Cost Aware Rate Optimal Router
Seamus Somerstep, Felipe Maia Polo, Allysson Flavio Melo de Oliveira, Prattyush Mangal, Mírian Silva, Onkar Bhardwaj, Mikhail Yurochkin, Subha Maity · PDF
Cheap and Effective Personalization of Foundation Language Models for Imitating a User's Writing Style
Armand Mihai Nicolicioiu, Eugenia Iofinova, Andrej Jovanovic, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir N Shavit, Dan Alistarh · PDF
Co-optimizing Recommendation and Evaluation for LLM Selection
Tarun Kumar, Cong Xu, Arpit Shah, Baradji Diallo, Martin Foltin, Suparna Bhattacharya · PDF
Cost-efficient Collaboration between On-device and Cloud Language Models
Avanika Narayan, Sabri Eyuboglu, Dan Biderman, Avner May, Scott Linderman, James Zou, Christopher Re · PDF
CROSS: Analyzing the Trade-offs in Long-Context Cross-lingual Retrieval
Sina Bagheri Nezhad, Ameeta Agrawal · PDF
DASFormer: Self-supervised Pretraining for Earthquake Monitoring
Qianggang Ding, Zhichao Shen, Weiqiang Zhu, Bang Liu · PDF
DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products
Julien Siems, Timur Carstensen, Arber Zela, Frank Hutter, Massimiliano Pontil, Riccardo Grazzi · PDF
Demystifying Long Chain-of-Thought Reasoning in LLMs
Edward Yeo, Yuxuan Tong, Xinyao Niu, Graham Neubig, Xiang Yue · PDF
Detecting Covariate Shifts With Vision-Language Foundation Models
Alvin Heng, Harold Soh · PDF
Diagnosing Robotics Systems Issues with Large Language Models -- A Case Study
Jordis Emilia Herrmann, Aswath Mandakath Gopinath, Mikael Norrlof, Mark Niklas Mueller · PDF
Disentangling Sequence Memorization and General Capability in Large Language Models
Gaurav Rohit Ghosal, Pratyush Maini, Aditi Raghunathan · PDF
Does Cross-Domain Pre-Training Truly Help Time-Series Foundation Models?
Zhenwei Zhang, Jiawen Zhang, Shun Zheng, Yuantao Gu, Jiang Bian · PDF
DP-GPL: DIFFERENTIALLY PRIVATE GRAPH PROMPT LEARNING
Jing Xu, Franziska Boenisch, Iyiola Emmanuel Olatunji, Adam Dziedzic · PDF
Efficient Backdoor Detection on Text-to-image Synthesis via Neuron Activation Variation
Shengfang Zhai, Jiajun Li, Yue Liu, Yinpeng Dong, Zhihua Tian, Wenjie Qu, Qingni Shen, Ruoxi Jia, Jiaheng Zhang · PDF
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley, Daniel Chee Hian Tan, Niels Warncke, Anna Sztyber-Betley, Xuchan Bao, Martín Soto, Nathan Labenz, Owain Evans · PDF
Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets
Tommaso Bendinelli, Artur Dox, Christian Holz · PDF
Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems
Matthew Barker, Andrew Bell, Evan Thomas, James Carr, Thomas Andrews, Umang Bhatt · PDF
Few-Shot Whole Slide Pathology Classification with Multi-Granular Vision-Language Models
Anh-Tien Nguyen, Duy Minh Ho Nguyen, Nghiem Tuong Diep, Trung Quoc Nguyen, Nhat Ho, Jacqueline Michelle Metsch, Miriam Cindy Maurer, Daniel Sonntag, Hanibal Bohnenberger, Anne-Christin Hauschild · PDF
FlipAttack: Jailbreak LLMs via Flipping
Yue Liu, Xiaoxin He, Miao Xiong, Jinlan Fu, Shumin Deng, YINGWEI MA, Jiaheng Zhang, Bryan Hooi · PDF
FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
Cheng-Yu Hsieh, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Hadi Pouransari · PDF
Focus on this, not that! Steering LLMs with Adaptive Feature Specification
Tom A. Lamb, Adam Davies, Alasdair Paren, Philip Torr, Francesco Pinto · PDF
Foundation Model-Based Data Selection for Dense Prediction Tasks
Niclas Popp, Dan Zhang, Jan Hendrik Metzen, Matthias Hein, Lukas Schott · PDF
From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions
Ruben Weijers, Denton Wu, Hannah Betts, Tamara Jacod, Yuxiang Guan, Vidya Sujaya, Kushal Dev, Toshali Goel, William Delooze, Reihaneh Rabbany, Ying Wu, Jean-François Godbout, Kellin Pelrine · PDF
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks
Guibin Zhang, Yanwei Yue, Xiangguo Sun, Guancheng Wan, Miao Yu, Junfeng Fang, Kun Wang, Tianlong Chen, Dawei Cheng · PDF
Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
Simon Park, Abhishek Panigrahi, Yun Cheng, Dingli Yu, Anirudh Goyal, Sanjeev Arora · PDF
Geneshift: Impact of different scenario shift on Jailbreaking LLM
Tianyi Wu, Zhiwei Xue, Yue Liu, Jiaheng Zhang, Bryan Hooi, See-Kiong Ng · PDF
GeoFT: Fine-tuning Foundation Models for Automated OSINT Geolocation
Selena Sun · PDF
GuardReasoner: Towards Reasoning-based LLM Safeguards
Yue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi · PDF
Improving Your Model Ranking on Chatbot Arena by Vote Rigging
Rui Min, Tianyu Pang, Chao Du, Qian Liu, Minhao Cheng, Min Lin · PDF
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters
Kevin Li, Sachin Goyal, João D. Semedo, J Zico Kolter · PDF
Infinite Leagues Under the Sea: Realistic 3D Underwater Terrain Generation Augmented by Visual Foundation Models
Tianyi Zhang, Weiming Zhi, Joshua G Mangelson, Matthew Johnson-Roberson · PDF
KnowGuard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning
Zhen Xiang, Shuang Yang, Nathaniel D. Bastian, Bo Li · PDF
KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking
Jiawei Zhang, Chejian Xu, Yu Gai, Freddy Lecue, Shuang Yang, Dawn Song, Bo Li · PDF
Latent Representation Encoding and Multimodal Biomarkers for Post-Stroke Speech Assessment
Giulia Sanguedolce, Dragos-Cristian Gruia, Patrick Naylor, Fatemeh Geranmayeh · PDF
Leveraging the true depth of LLMs
Ramón Calvo González, Daniele Paliotta, Matteo Pagliardini, Martin Jaggi, François Fleuret · PDF
MASQUE: Diffusion-Based Localized Adversarial Makeup for Facial Privacy
Youngjin Kwon, Xiao Zhang · PDF
Measuring In-Context Computation Complexity via Hidden State Prediction
Vincent Herrmann, Róbert Csordás, Jürgen Schmidhuber · PDF
MetaSC: Test-Time Safety Specification Optimization for Language Models
Victor Gallego · PDF
MITIGATING CACHE NOISE IN TEST-TIME ADAPTATION FOR LARGE VISION-LANGUAGE MODELS
Haotian Zhai, Xinyu Chen, Can Zhang, TianMing Sha, Ruirui Li · PDF
MLLM CAN SEE? DYNAMIC CORRECTION DECODING FOR HALLUCINATION MITIGATION
Chenxi Wang, Xiang Chen, Ningyu Zhang, Bozhong Tian, Haoming Xu, Shumin Deng, Huajun Chen · PDF
MMInference: Accelerating Pre-filling for Long-Context Visual Language Models via Modality-Aware Permutation Sparse Attention
Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu · PDF
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression
Tianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang · PDF
Multi-Hypothesis Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity via Laplacian Visual Prompting
Xiaohao Xu, Feng Xue, Xiang Li, Haowei Li, Shusheng Yang, Tianyi Zhang, Matthew Johnson-Roberson, Xiaonan Huang · PDF
Narrowing Class-Wise Robustness Gaps in Adversarial Training
Fatemeh Amerehi, Patrick Healy · PDF
Navigating the Designs of Privacy-Preserving Fine-tuning for Large Language Models
Haonan Shi, Tu Ouyang, An Wang · PDF
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning
Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou · PDF
OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning
Jiawei Zhou, Lei Chen · PDF
Optimizing Test-Time Compute via Meta Reinforcement Finetuning
Yuxiao Qu, Matthew Y. R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar · PDF
PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos
Steven Abreu, Tiffany D Do, Karan Ahuja, Eric J Gonzalez, Lee Payne, Daniel McDuff, Mar Gonzalez-Franco · PDF
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Campagnolo Guizilini, Yue Wang · PDF
Policy-Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
Max Sobol Mark, Tian Gao, Georgia Gabriela Sampaio, Mohan Kumar Srirama, Archit Sharma, Chelsea Finn, Aviral Kumar · PDF
Privacy Auditing for Large Language Models with Natural Identifiers
Lorenzo Rossi, Bartłomiej Marek, Franziska Boenisch, Adam Dziedzic · PDF
Reasoning Without Self-Doubt: More Efficient Chain-of-Thought Through Certainty Probing
Yichao Fu, Junda Chen, Yonghao Zhuang, Zheyu Fu, Ion Stoica, Hao Zhang · PDF
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Richard Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang · PDF
Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking
Will LeVine, Bijan Varjavand · PDF
Reliable and Efficient Amortized Model-based Evaluation
Sang T. Truong, Yuheng Tu, Percy Liang, Bo Li, Sanmi Koyejo · PDF
Risks and Safety Considerations for Foundation Model-based Autonomous Agents' Interaction with the Environment
Azmine Toushik Wasi, Mahfuz Ahmed Anik, Riashat Islam · PDF
RoboMorph: Evolving Robot Morphology using Large Language Models
Kevin Qiu, Władysław Pałucki, Krzysztof Ciebiera, Paweł Fijałkowski, Marek Cygan, Łukasz Kuciński · PDF
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging
Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Holger Boche · PDF
SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations
Zhaorun Chen, Francesco Pinto, Minzhou Pan, Shuang Yang, Bo Li · PDF
SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More
Tianrun Chen, Ankang Lu, Lanyun Zhu, Chaotao Ding, Chunan Yu, Deyi Ji, Zejian Li, Lingyun Sun, Papa Mao, Ying Zang · PDF
SGBD: Sharpness-Aware Mirror Gradient with BLIP-Based Denoising for Robust Multimodal Product Recommendation
Sarthak Srivastava, Kathy Wu · PDF
Shh, don't say that! Domain Certification in LLMs
Cornelius Emde, Alasdair Paren, Preetham Arvind, Maxime Kayser, Tom Rainforth, Thomas Lukasiewicz, Bernard Ghanem, Philip Torr, Adel Bibi · PDF
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning
Zhaorun Chen, Mintong Kang, Shuang Yang, Bo Li · PDF
Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation
Mufei Li, Siqi Miao, Pan Li · PDF
StochasTok: Improving Fine-Grained Subword Understanding in LLMs
Anya Sims, Cong Lu, Klara Kaleb, Jakob Nicolaus Foerster, Yee Whye Teh · PDF
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang, Zhen Chen, Jinlin Wu, Mobarakol Islam, Hongbin Liu, Hongliang Ren · PDF
Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels
Maximilian Beck, Korbinian Pöppel, Phillip Lippe, Sepp Hochreiter · PDF
Toward Trustworthy Neural Program Synthesis
Wen-Ding Li, Darren Yan Key, Kevin Ellis · PDF
Towards Universal Offline Black-Box Optimization via Learning String Embedding Space
Rong-Xi Tan, Ming Chen, Ke Xue, Yao Wang, Yaoyuan Wang, Fu Sheng, Chao Qian · PDF
TPP-LLM: Modeling Temporal Point Processes by Efficiently Fine-Tuning Large Language Models
Zefang Liu, Yinzhu Quan · PDF
Tradeoffs Between Alignment and Helpfulness in Language Models with Steering Methods
Yotam Wolf, Noam Wies, Dorin Shteyman, Binyamin Rothberg, Yoav Levine, Amnon Shashua · PDF
Understanding (Un)Reliability of Steering Vectors in Language Models
Joschka Braun, Carsten Eickhoff, David Krueger, Seyed Ali Bahrainian, Dmitrii Krasheninnikov · PDF
Unisolver: PDE-Conditional Transformers Are Universal Neural PDE Solvers
Hang Zhou, Yuezhou Ma, Haixu Wu, Haowen Wang, Mingsheng Long · PDF
Unlocking Post-hoc Dataset Inference with Synthetic Data
Bihe Zhao, Pratyush Maini, Franziska Boenisch, Adam Dziedzic · PDF
VisR-Bench: A Visual Retrieval Benchmark for Visually-Rich Documents
Jian Chen, Ruiyi Zhang, Ming Li, Shijie Zhou, Changyou Chen · PDF
WABER: Evaluating Reliability and Efficiency of Web Agents with Existing Benchmarks
Su Kara, Fazle Faisal, Suman Nath · PDF
Why Foundation Models Struggle with Cross-Modal Context
Chen Henry Wu, Neil Kale, Aditi Raghunathan · PDF
Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search
Kou Misaki, Yuichi Inoue, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba · PDF
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?
Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi · PDF
WorkflowAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data
Junhong Shen, Atishay Jain, Zedian Xiao, Ishan Amlekar, Mouad Hadji, Aaron Podolny, Ameet Talwalkar · PDF
xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference
Maximilian Beck, Korbinian Pöppel, Phillip Lippe, Richard Kurle, Patrick M Blies, Günter Klambauer, Sebastian Böck, Sepp Hochreiter · PDF

Accepted papers (102)

☆"Short-length" Adversarial Training Helps LLMs Defend "Long-length" Jailbreak Attacks: Theoretical and Empirical Evidence

☆Accelerating Unbiased LLM Evaluation via Synthetic Feedback

☆ACTIVATION STEERING IN NEURAL THEOREM PROVERS

☆Adjustment for Confounding using Pre-Trained Representations

☆AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

☆Agentic Multimodal AI for Hyper-Personalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework

☆AgentTaxo: Dissecting and Benchmarking Token Distribution of LLM Multi-Agent Systems

☆All It Takes Is One Prompt: An Autonomous LLM-MA System

☆AppVLM: A Lightweight Vision Language Model for Online App Control

☆Are DeepSeek R1 And Other Reasoning Models More Faithful?

☆Aria-UI: Visual Grounding for GUI Instructions

☆Attacking Multimodal OS Agents with Malicious Image Patches

☆Automated Benchmark Generation for Repository-Level Coding Tasks

☆Automated Capability Discovery via Model Self-Exploration

☆AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind

☆Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

☆Beyond ID Bias: PCA-Guided Dropout for Robust Fine-tuning

☆Beyond Pixels: Enhancing LIME with Hierarchical Features and Segmentation Foundation Models

☆Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation

☆Captured by Captions: On Memorization and its Mitigation in CLIP Models

☆CARROT: A Cost Aware Rate Optimal Router

☆Cheap and Effective Personalization of Foundation Language Models for Imitating a User's Writing Style

☆Co-optimizing Recommendation and Evaluation for LLM Selection

☆Cost-efficient Collaboration between On-device and Cloud Language Models

☆CROSS: Analyzing the Trade-offs in Long-Context Cross-lingual Retrieval

☆DASFormer: Self-supervised Pretraining for Earthquake Monitoring

☆DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

☆Demystifying Long Chain-of-Thought Reasoning in LLMs

☆Detecting Covariate Shifts With Vision-Language Foundation Models

☆Diagnosing Robotics Systems Issues with Large Language Models -- A Case Study

☆Disentangling Sequence Memorization and General Capability in Large Language Models

☆Does Cross-Domain Pre-Training Truly Help Time-Series Foundation Models?

☆DP-GPL: DIFFERENTIALLY PRIVATE GRAPH PROMPT LEARNING

☆Efficient Backdoor Detection on Text-to-image Synthesis via Neuron Activation Variation

☆Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

☆Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets

☆Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems

☆Few-Shot Whole Slide Pathology Classification with Multi-Granular Vision-Language Models

☆FlipAttack: Jailbreak LLMs via Flipping

☆FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations

☆Focus on this, not that! Steering LLMs with Adaptive Feature Specification

☆Foundation Model-Based Data Selection for Dense Prediction Tasks

☆From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions

☆G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks

☆Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

☆Geneshift: Impact of different scenario shift on Jailbreaking LLM

☆GeoFT: Fine-tuning Foundation Models for Automated OSINT Geolocation

☆GuardReasoner: Towards Reasoning-based LLM Safeguards

☆Improving Your Model Ranking on Chatbot Arena by Vote Rigging

☆Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters

☆Infinite Leagues Under the Sea: Realistic 3D Underwater Terrain Generation Augmented by Visual Foundation Models

☆KnowGuard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

☆KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking

☆Latent Representation Encoding and Multimodal Biomarkers for Post-Stroke Speech Assessment

☆Leveraging the true depth of LLMs

☆MASQUE: Diffusion-Based Localized Adversarial Makeup for Facial Privacy

☆Measuring In-Context Computation Complexity via Hidden State Prediction

☆MetaSC: Test-Time Safety Specification Optimization for Language Models

☆MITIGATING CACHE NOISE IN TEST-TIME ADAPTATION FOR LARGE VISION-LANGUAGE MODELS

☆MLLM CAN SEE? DYNAMIC CORRECTION DECODING FOR HALLUCINATION MITIGATION

☆MMInference: Accelerating Pre-filling for Long-Context Visual Language Models via Modality-Aware Permutation Sparse Attention

☆MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

☆Multi-Hypothesis Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity via Laplacian Visual Prompting

☆Narrowing Class-Wise Robustness Gaps in Adversarial Training

☆Navigating the Designs of Privacy-Preserving Fine-tuning for Large Language Models

☆OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

☆OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning

☆Optimizing Test-Time Compute via Meta Reinforcement Finetuning

☆PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos

☆PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

☆Policy-Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

☆Privacy Auditing for Large Language Models with Natural Identifiers

☆Reasoning Without Self-Doubt: More Efficient Chain-of-Thought Through Certainty Probing

☆ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

☆Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking

☆Reliable and Efficient Amortized Model-based Evaluation

☆Risks and Safety Considerations for Foundation Model-based Autonomous Agents' Interaction with the Environment

☆RoboMorph: Evolving Robot Morphology using Large Language Models

☆SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging

"Short-length" Adversarial Training Helps LLMs Defend "Long-length" Jailbreak Attacks: Theoretical and Empirical Evidence

Accelerating Unbiased LLM Evaluation via Synthetic Feedback

ACTIVATION STEERING IN NEURAL THEOREM PROVERS

Adjustment for Confounding using Pre-Trained Representations

AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

Agentic Multimodal AI for Hyper-Personalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework

AgentTaxo: Dissecting and Benchmarking Token Distribution of LLM Multi-Agent Systems

All It Takes Is One Prompt: An Autonomous LLM-MA System

AppVLM: A Lightweight Vision Language Model for Online App Control

Are DeepSeek R1 And Other Reasoning Models More Faithful?

Aria-UI: Visual Grounding for GUI Instructions

Attacking Multimodal OS Agents with Malicious Image Patches

Automated Benchmark Generation for Repository-Level Coding Tasks

Automated Capability Discovery via Model Self-Exploration

AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind

Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

Beyond ID Bias: PCA-Guided Dropout for Robust Fine-tuning

Beyond Pixels: Enhancing LIME with Hierarchical Features and Segmentation Foundation Models

Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation

Captured by Captions: On Memorization and its Mitigation in CLIP Models

CARROT: A Cost Aware Rate Optimal Router

Cheap and Effective Personalization of Foundation Language Models for Imitating a User's Writing Style

Co-optimizing Recommendation and Evaluation for LLM Selection

Cost-efficient Collaboration between On-device and Cloud Language Models

CROSS: Analyzing the Trade-offs in Long-Context Cross-lingual Retrieval

DASFormer: Self-supervised Pretraining for Earthquake Monitoring

DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

Demystifying Long Chain-of-Thought Reasoning in LLMs

Detecting Covariate Shifts With Vision-Language Foundation Models

Diagnosing Robotics Systems Issues with Large Language Models -- A Case Study

Disentangling Sequence Memorization and General Capability in Large Language Models

Does Cross-Domain Pre-Training Truly Help Time-Series Foundation Models?

DP-GPL: DIFFERENTIALLY PRIVATE GRAPH PROMPT LEARNING

Efficient Backdoor Detection on Text-to-image Synthesis via Neuron Activation Variation

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets

Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems

Few-Shot Whole Slide Pathology Classification with Multi-Granular Vision-Language Models

FlipAttack: Jailbreak LLMs via Flipping

FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations

Focus on this, not that! Steering LLMs with Adaptive Feature Specification

Foundation Model-Based Data Selection for Dense Prediction Tasks

From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions

G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

Geneshift: Impact of different scenario shift on Jailbreaking LLM

GeoFT: Fine-tuning Foundation Models for Automated OSINT Geolocation

GuardReasoner: Towards Reasoning-based LLM Safeguards

Improving Your Model Ranking on Chatbot Arena by Vote Rigging

Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters

Infinite Leagues Under the Sea: Realistic 3D Underwater Terrain Generation Augmented by Visual Foundation Models

KnowGuard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking

Latent Representation Encoding and Multimodal Biomarkers for Post-Stroke Speech Assessment

Leveraging the true depth of LLMs

MASQUE: Diffusion-Based Localized Adversarial Makeup for Facial Privacy

Measuring In-Context Computation Complexity via Hidden State Prediction

MetaSC: Test-Time Safety Specification Optimization for Language Models

MITIGATING CACHE NOISE IN TEST-TIME ADAPTATION FOR LARGE VISION-LANGUAGE MODELS

MLLM CAN SEE? DYNAMIC CORRECTION DECODING FOR HALLUCINATION MITIGATION

MMInference: Accelerating Pre-filling for Long-Context Visual Language Models via Modality-Aware Permutation Sparse Attention

MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

Multi-Hypothesis Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity via Laplacian Visual Prompting

Narrowing Class-Wise Robustness Gaps in Adversarial Training

Navigating the Designs of Privacy-Preserving Fine-tuning for Large Language Models

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning

Optimizing Test-Time Compute via Meta Reinforcement Finetuning

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Policy-Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

Privacy Auditing for Large Language Models with Natural Identifiers

Reasoning Without Self-Doubt: More Efficient Chain-of-Thought Through Certainty Probing

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking

Reliable and Efficient Amortized Model-based Evaluation

Risks and Safety Considerations for Foundation Model-based Autonomous Agents' Interaction with the Environment

RoboMorph: Evolving Robot Morphology using Large Language Models

SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging

SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations