NeurIPS 2025PastLarge language modelsEvaluation & benchmarks

NeurIPS 2025 Workshop on Evaluating the Evolving LLM Lifecycle: Benchmarks, Emergent Abilities, and Scaling

NeurIPS 2025 LLM Evaluation Workshop

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 5, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (186)

Fetched from OpenReview (v2) on 2026-06-10.

"It Doesn’t Know Anything About my Work": Participatory Benchmarking and AI Evaluation in Applied Settings
Elizabeth Anne Watkins, Emanuel Moss, Ramesh Manuvinakurike, Christopher Persaud, Giuseppe Raffa, Lama Nachman · PDF
A Benchmark for Description-Based Evaluation of Social Bias in LLMs
Jinhao Pan, Kyle Li, Bowen Wei, Ziwei Zhu · PDF
A Case for Centaur Evaluations
Andreas Haupt, Erik Brynjolfsson · PDF
A Multi-Aspect Evaluation of Dialogue in Pythia
Zixun Chen, Petr Babkin, Akshat Gupta, Gopala Anumanchipalli, Xiaomo Liu · PDF
A Protocol-Driven Platform for Agent-Agnostic Evaluation of LLM Agents
Cong Minh Tran, Issam Falih, Hatim CHAHDI, Romain DE LA SOUCHERE · PDF
A Statistical Framework for Game-Based AI Evaluation
Felipe Maia Polo, Leshem Choshen, Yuekai Sun, Kristjan Greenewald · PDF
A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs
Mahmoud Srewa, Tianyu Zhao, Salma Elmalaki · PDF
Active Model Selection for Large Language Models
Yavuz Durmazkeser, Patrik Okanovic, Andreas Kirsch, Torsten Hoefler, Nezihe Merve Gürel · PDF
ADCA: Artifact-Based Dataset Creativity Assessment
Harrison Sims, Gabriel Ganberg, Robert McCormack, Svitlana Volkova · PDF
Adversarial Behavior in Research Settings: Conducting Sabotage Evaluations with RE-Bench
Harini Rajakumar, Vanessa Nwauwa, Kevin Zhu, Ashwinee Panda, Sunishchal Dev · PDF
AgentCaster: Reasoning-Guided Tornado Forecasting
Michael Chen · PDF
Agentic Lean Auformalization (ALA) v1: An LLM collaborative approach to autoformalization in LEAN
Patricio Gallardo, Maziar Raissi, Ke Zhang, Sudhir Murthy · PDF
An Evaluation Study of Hybrid Methods for Multilingual PII Detection
Harshit Rajgarhia, Suryam Gupta, Asif Shaik, Gulipalli Praveen Kumar, Y Santhoshraj, Sanka Nithya Tanvy Nishitha, Abhishek Mukherji · PDF
Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction
Huanxin Sheng, Xinyi Liu, Hangfeng He, Jieyu Zhao, Jian Kang · PDF
ASCII-Bench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text
Kerry Luo, Joshua Peguero, Anvay Patil, Megan Van Overborg, Ryan Sarmiento, Kevin Zhu · PDF
AssertBench: A Benchmark for LLM Resistance to User-Induced Factual Bias
Jaeho Lee, Atharv Chowdhary · PDF
Attention, Please: Single-Head Cross-Attention for Unified LLM Routing
Roshini Pulishetty, Mani Kishan Ghantasala, Keerthy Kaushik Dasoju, Niti Mangwani, Vishal Garimella, Aditya Mate, Somya Chatterjee, Yue Kang, Ehi Nosakhare, Sadid A. Hasan, Soundararajan Srinivasan · PDF
Automated Capability Evaluation of Foundation Models
Arash Afkanpour, Omkar Dige, Fatemeh Tavakoli · PDF
Automatic agent chaining for multimodal task support
Ramesh Manuvinakurike, Celal Savur, Emanuel Moss, Elizabeth Anne Watkins, Saurav Sahay, Giuseppe Raffa · PDF
Automatically Extracting Scientific Metrics with LLMs: A Case Study of ImageNet Papers
Mengli Duan, Michael Guerzhoy · PDF
Bayesian Evaluation of Blackbox LLM Behavior
Rachel Longjohn, Shang Wu, Saatvik Kher, Catarina G Belém, Padhraic Smyth · PDF
BEAR: Benchmarking Multimodal Language Models for Atomic Embodied Reasoning Abilities
Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin, Yijian Huang, Kai Cheng, Peiheng Wang, jiazheng liu, Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L.S. Wong · PDF
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation
Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen · PDF
Benchmarking and Standardization of Evaluation Protocols: A Feedback-Driven Framework Using LLM Judges to Gatekeep and Iteratively Improve Synthetic Benchmarks
FadillAmir · PDF
Benchmarking Overton Pluralism in LLMs
Elinor Poole-Dayan, Jiayi Wu, Jiaxin Pei, Michiel A. Bakker · PDF
Beyond Accuracy: A Diagnostic Protocol for Fairly Evaluating Multimodal Reasoning
Shohreh Ghorbani, Chenyu Zhang, Minsol Kim, Jingyao Wu · PDF
Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation
Mir Tafseer Nayeem, Sawsan Alqahtani, Md Tahmid Rahman Laskar, Tasnim Mohiuddin, M Saiful Bari · PDF
Beyond Steering: Evaluating Fine-Grained and Multi-Concept Control in LLMs
Arya Labroo, Ivaxi Sheth, Vyas Raina, Amaani Ahmed, Mario Fritz · PDF
Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation
Wenbo Zhang, Hengrui Cai, Wenyu Chen · PDF
Beyond Western Politics: Cross-Cultural Benchmarks for Evaluating Partisan Associations in LLMs
Divyanshu Kumar, Ishita Gupta, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi · PDF
Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment
Aravind Narayanan, Vahid Reza Khazaie, Shaina Raza · PDF
BloomXplain: A Framework and Benchmark Dataset for Pedagogically Sound LLM-Generated Explanations Based on Bloom’s Taxonomy
Maria-Eleni Zoumpoulidi, Eleni Batsi, Georgios Paraskevopoulos, Vassilis Katsouros, Alexandros Potamianos · PDF
Born with a SilverSpoon? Investigating Socioeconomic Bias in LLMs
Smriti Singh, Shuvam Keshari, Vinija Jain, Aman Chadha · PDF
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Xiaoming Simon Wang, Ping Huang, Meng Cao · PDF
Breaking the Mirror: Examining Self-Preference in LLM Evaluators through Activation-Based Representations
Dani Roytburg, Matthew Bozoukov, Hongyu Fu, Matthew Nguyen, Jou Barzdukas, Narmeen Fatimah Oozeer · PDF
Building More Accountable Multi-Modal LLMs Through Spatially-Informed Visual Reasoning
Jing Wu, Suiyao Chen, Alexander Gutfraind, Inseok Heo, Shengjie Liu, Chen Li, Jeremy Curuksu, Michael Sharps · PDF
Carbon- and System-Aware LoRA Scaling for On-Device LLMs via Hierarchical Multi-Objective Reinforcement Learnin
Dongqi Zheng, Wenjin Fu · PDF
Causally Quantifying the Effect of Test Set Contamination on Generative Benchmarks
Rylan Schaeffer, Brando Miranda, Joshua Kazdan, Ken Liu, Ahmed M Ahmed, Niloofar Mireshghallah, Sanmi Koyejo · PDF
CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments
Rishika Bhagwatkar, Syrielle Montariol, Angelika Romanou, Beatriz Borges, Irina Rish, Antoine Bosselut · PDF
CCWise: Carbon–Cost Aware Regional LLM Orchestration for Next-Gen Sustainable AI
Ratul Kishore Saha, Dheeraj Chahal, Rekha Singhal, Manoj Nambiar · PDF
ChatChecker: A Framework for Dialogue System Testing Through Non-cooperative User Simulation
Roman Mayr, Michel Schimpf, Thomas Bohné · PDF
ChEmREF: Evaluating Language Model Readiness for Chemical Emergency Response Assistance
Risha Surana, Qinyuan Ye, Swabha Swayamdipta · PDF
CHEMSETS: How Capable Are Chemistry LLMs?
Christoph Bartmann, Mykyta Ielanskyi, Johannes Schimunek, Philipp Seidl, Günter Klambauer, Sohvi Luukkonen · PDF
ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning
Jie-Jing Shao, Bo-Wen Zhang, Xiao-Wen Yang, Baizhi Chen, Siyu Han, Wen-Da Wei, Guohao Cai, Zhenhua Dong, Lan-Zhe Guo, Yu-Feng Li · PDF
CivicParse: A Benchmark and Pipeline for Structured Online Deliberation
Abhay Gupta, Mark Klein · PDF
Confident or Seek Stronger: Exploring Uncertainty-Based Small LM Routing From Benchmarking to Generalization
Yu-Neng Chuang, Leisheng Yu, Guanchu Wang, Lizhe Zhang, Ling Chang, Hongyi Liu, Zirui Liu, Xuanting Cai, Yang Sui, Vladimir Braverman, Xia Hu · PDF
Context-Masked Meta-Prompting for Privacy-Preserving LLM Adaptation in Finance
Sayash Raaj Hiraou · PDF
Culturally-Aware Conversations: A Framework & Benchmark for LLMs
Shreya Havaldar, Young Min Cho, Sunny Rai, Lyle Ungar · PDF
Data Centric Guard (DC-Guard) - A Framework for Trustworthy LLM Evaluation
Vishnu Vardhan Yadoji · PDF
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin · PDF
Demystify the Potential of Large Language Models as General-Purpose Surrogate Code Executors
Bohan Lyu, Siqiao Huang, Zichen Liang, Wenjia Yang, Qian Sun, Jiaming Zhang · PDF
Depth as a Scaling Vector: Simple Pruning and Evaluation of Emergent Abilities in Pruned LLMs
Chang Liu, Arjun Choudhry, Yifu Cai, Nina Żukowska, Mononito Goswami, Artur Dubrawski · PDF
Detecting Data Contamination in LLMs via In-Context Learning
Michał Zawalski, Meriem Boubdir, Klaudia Bałazy, Besmira Nushi, Pablo Ribalta · PDF
Detecting Foreign Content in Self-Generated Text: A Recognition Study of Large Language Models
Shengyu Zhu, Tamika Bassman, Dat Tran, Aryaman Arora · PDF
Detecting Training Data of Large Language Models via Expectation Maximization
Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang · PDF
DHP Benchmark: Measuring Discernment Ability of LLM-as-a-Judge
Jiayi Yuan, Yicheng Wang, Yu-Neng Chuang, Zhuoer Wang, Mark Cusick, Param Kulkarni, Zhengping Ji, Xia Hu · PDF
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base
Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao · PDF
Do Large Language Models Know What They Are Capable Of?
Casey O. Barkan, Sidney Black, Oliver Sourbut · PDF
Domain-Aware Scaling Laws Uncover Data Synergy
Kimia Hamidieh, Lester Mackey, David Alvarez-Melis · PDF
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors
Yize Cheng, Wenxiao Wang, Mazda Moayeri, Soheil Feizi · PDF
Editing as Unlearning: Are Knowledge Editing Methods Strong Baselines for Large Language Model Unlearning?
Zexi Li, Xiangzhu Wang, William F. Shen, Meghdad Kurmanji, Xinchi Qiu, Dongqi Cai, Chao Wu, Nicholas D. Lane · PDF
Evaluating AI Alignment Using Adapted Clinical Empathy Assessments
Cassandra Feilbach · PDF
Evaluating Cultural and Linguistic Alignment Across the LLMs
Yunxi Liu, Fuxiao Liu, Clara Fangfang Ma · PDF
Evaluating Evaluation Metrics – The Mirage of Hallucination Detection
Atharva Kulkarni, Yuan Zhang, Joel Ruben Antony Moniz, Xiou Ge, Bo-Hsiang Tseng, Dhivya Piraviperumal, Swabha Swayamdipta, Hong Yu · PDF
Evaluating Language Models' Evaluations of Games
Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths · PDF
Evaluating LLM Story Generation through Large-scale Network Analysis on Social Structures
Hiroshi Nonaka, K. E. Perry · PDF
Evaluating LLM-as-a-Judge under Multilingual, Multimodal and Multi-domain Constraints
Shreyansh Padarha, Elizaveta Semenova, Bertie Vidgen, Adam Mahdi, Scott A. Hale · PDF
Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing
Syed Mahbubul Huq, Daniel Brito-Pacheco, Daniel Sikar, RAJESH MOJUMDER, Christopher Child, Tillman Weyde · PDF
Evaluating LLMs' Language Confusion in Code-switching Context
Juhyun Oh, Haneul Yoo, Alice Oh · PDF
Evaluation and Benchmarking Suite for Financial Large Language Models and Agents
Shengyuan Lin, Jaisal Patel, Qinchuan Zhang, Kaiwen He, Keyi Wang, Yan Wang, Matt White, Kairong Xiao, Xiao-Yang Liu · PDF
Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification
Joseph Liu, Yoonsoo Nam, Xinyue Cui, Swabha Swayamdipta · PDF
Extending AutoCompressors via Surprisal-Based Dynamic Segmentation
Srivishnu Ramamurthi, Richard Xu, Raine Ma, Dawson Park, David Guo, Charles Duong, Vasu Sharma, Sean O'Brien, Kevin Zhu · PDF
FEval-TTC: Fair Evaluation Protocol for Test-Time Compute
Pavel Rumiantsev, Soumyasundar Pal, Yingxue Zhang, Mark Coates · PDF
From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining
Seng Pei Liew, Takuya Kato · PDF
From Bias to Balance: How Multilingual Dataset Composition Affects Tokenizer Performance Across Languages
Aishwarya Selvamurugan, Raj Dandekar, Rajat Dandekar, Sreedath Panat · PDF
From Many Voices to One: Statistically Principled Aggregation of LLM Judges
Jitian Zhao, Changho Shin, Tzu-Heng Huang, Satya Sai Srinath Namburi GNVV, Frederic Sala · PDF
GASLIGHTBENCH: Quantifying LLM Susceptibility to Social Prompting
Xuanzhe Yao, Sahil Ghosh, Gareth Lee, William H. Logian, Lening Nick Cui, Ellie Podoshev, Swarit Srivastava, Michael Li, Aaron Sandoval, Sean O'Brien, Michael Saxon, Sunishchal Dev, Kevin Zhu · PDF
Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution
Yash Saxena, Raviteja Bommireddy, Ankur Padia, Manas Gaur · PDF
GermanPartiesQA: Benchmarking Commercial Large Language Models and AI Companions for Political Alignment and Sycophancy
Jan Batzner, Volker Stocker, Stefan Schmid, Gjergji Kasneci · PDF
GUARD: Guiding Unbiased Alignment through Reward Debiasing
Advay Samnerkar, Doelle Bhattacharya, Kailash Ranganathan, Ashwinee Panda, Kevin Zhu · PDF
Haystack Engineering: Context Engineering Meets the Long-Context Challenge in Large Language Models
Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Peter Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li · PDF
HORIZON: A Benchmark for In-the-wild User Behaviour Modeling
Arnav Goel, Pranjal A Chitale, Bhawna Paliwal, Bishal Santra, Amit Sharma · PDF
How Benchmark Prediction from Fewer Data Misses the Mark
Guanhua Zhang, Florian E. Dorner, Moritz Hardt · PDF
How Many Instructions Can LLMs Follow at Once?
Daniel Jaroslawicz, Brendan Whiting, Parth Shah, Karime Maamari · PDF
How to Get Your LLM to Generate Challenging Problems for Evaluation
Arkil Patel, Siva Reddy, Dzmitry Bahdanau · PDF
Human-Centric Framework for Large Multimodal Models Evaluation
Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund Sayeeganesh Chettiar, Deval Pandya · PDF
Husky Hold'em Benchmark: Can LLMs Design Competitive Poker Bots?
Bhavesh Kumar, Hoang Doan Nguyen, Roger Jin, Ryan Teknium, Jeffrey Quesnelle · PDF
HypoTermInstruct: Instructing Large Language Models not to Hallucinate
CEM ULUOGLAKCI, Tugba Taskaya Temizel · PDF
Improving Automated LLM Evaluation by Introducing Personas in LLM Red-Teaming
Wesley Deng, Sunnie S. Y. Kim, Akshita Jha, Ken Holstein, Motahhare Eslami, Lauren Wilcox, Leon Alexander Gatys · PDF
In-Context Learning for Esoteric Programming Languages: Evaluating and Enhancing LLM Reasoning Without Fine-Tuning
Saraswathy Amjith, Michael X. Wang, Arul Kolla, Jayson Lynch, Neil Thompson · PDF
In-Context Meta-Learning with Large Language Models for Automated Model and Hyperparameter Selection
Youssef Attia El Hili, Albert Thomas, Abdelhakim Benechehab, Corentin Léger, Corinne Ancourt, Balázs Kégl · PDF
JOINTMMSAFE: A Combinatorial Safety Benchmark for Multimodal Foundation Models
Shruti Palaskar, Leon Alexander Gatys, Mona Abdelrahman, Mar Jacobo, Laurence F Lindsey, Gunnar Lund, Yang Xu, Navid Shiee, Jeffrey P. Bigham, Charles Maalouf, Joseph Yitan Cheng · PDF
Justice in Judgment: Unveiling (Hidden) Bias in LLM-Assisted Peer Reviews
Sai Suresh Macharla Vasu, Ivaxi Sheth, Hui-Po Wang, Ruta Binkyte, Mario Fritz · PDF
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale
Bowen Jiang, Zhuoqun Hao, Young Min Cho, Bryan Li, Yuan Yuan, Sihao Chen, Lyle Ungar, Camillo Jose Taylor, Dan Roth · PDF
Knowledge Collapse in LLMs: When Fluency Survives but Facts Fail under Recursive Synthetic Training
Figarri Keisha, Zekun Wu, Ze Wang, Adriano Koshiyama, Philip Colin Treleaven · PDF
LaTeXBench: Judge-Only Evaluation of LaTeX Generation, Minimal-Edit Compliance, and Blind Contrast Errors
Ishaan Gangwani, Soham Sen, Aayam Bansal · PDF
Learning from Generalization Patterns: An Evaluation-Driven Approach to Enhanced Data Augmentation for Fine-Tuning Small Language Models
Huan Song, Deeksha Razdan, Yiyue Qian, Arijit Ghosh Chowdhury, Parth Patwa, Aman Chadha, Shinan Zhang, Sharlina Keshava, Hannah R Marlowe · PDF
LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation
Ananya Raval, Aravind Narayanan, Vahid Reza Khazaie, Shaina Raza · PDF
LLMs as Judges for Domain-Specific Text: Evidence from Drilling Reports
Abdallah Benzine, Soumyadipta Sengupta, Sebastiaan Buiting, Imane Khaouja, Yahia Salaheldin Shaaban, Amine EL KHAIR · PDF
LLMs Show Surface-Form Brittleness Under Paraphrase Stress Tests
Juan Miguel Navarro Carranza · PDF
LLMs vs. Traditional Sentiment Tools in Psychology: An Evaluation on Belgian-Dutch Narratives
Ratna Kandala, Katie Hoemann · PDF
MAGNET: Mathematical Assurance of Generative AI Network Evaluation Toolkit
Jon Crall, David Joy, Roderic Collins, Benjamin Fenelon, Anthony Hoogs, Brian H Hu · PDF
MC-Search: Benchmarking Multimodal Agentic RAG with Structured Reasoning Chains
Xuying Ning, Dongqi Fu, Tianxin Wei, Mengting Ai, Jiaru Zou, Ting-Wei Li, Jingrui He · PDF
MEAL: A Multi-dimensional Evaluation of Alignment Techniques for LLMs
Muneeza Azmat, Momin Abbas, Maysa Macedo, Marcelo Carpinette Grave, Luan Soares de Souza, Tiago Lemos de Araujo Machado, Rogério Abreu de Paula, Raya Horesh, Yixin Chen, Heloisa Candello, Rebecka Nordenlöw, Aminat Adebiyi · PDF
Measurement to Meaning: A Validity-Centered Framework for AI Evaluation
Olawale Elijah Salaudeen, Anka Reuel, Ahmed M Ahmed, Suhana Bedi, Zachary Robertson, Sudharsan Sundar, Benjamin W. Domingue, Angelina Wang, Sanmi Koyejo · PDF
MedBrowseComp: Benchmarking Medical Deep Research and Computer Use
Shan Chen, Pedro José Ferreira Moreira, Yuxin Xiao, Samuel Schmidgall, Jeremy L. Warner, Hugo Aerts, Thomas Hartvigsen, Jack Gallifant, Danielle Bitterman · PDF
Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation
Ahmed Tamer El Boardy, Ghada Khoriba, Essam Rashed · PDF
MermaidSeqBench: An Evaluation Benchmark for LLM-to-Mermaid Sequence Diagram Generation
Basel Shbita, Farhan Ahmed, Chad DeLuca · PDF
Metrics for Holistic Evaluation of LLM Reasoning about Action, Change, and Planning
Anil B Murthy, Jaron Mink, Lindsay Sanneman · PDF
Mind the Gap: Evaluating Model- and Agentic-Level Vulnerabilities in LLMs with Action Graphs
Ilham Wicaksono, Zekun Wu, Rahul Patel, Theo King, Adriano Koshiyama, Philip Colin Treleaven · PDF
MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment
Sagarika Banerjee, Tangatar Madi, Advait Swaminathan, Nguyen Dao Minh Anh, Shivank Garg, Kevin Zhu, Vasu Sharma · PDF
Mitigating Self-Preference by Authorship Obfuscation
Taslim Mahbub, Shi Feng · PDF
MonitorLLM: Real-Time Structural and Bias Evaluation of Generative AI through Knowledge Graphs
Mohd Ariful Haque, kishor datta gupta, Roy George · PDF
MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation
Aditya Aggarwal, Mehul Agarwal, Arnav Goel, Medha Hira, Anubha Gupta · PDF
Narrow RL Induces Broad Behavior Changes in LLMs
Jo J. Jiao, Austin C. Kozlowski, James Evans · PDF
Network Dynamics Reasoning: A Novel Benchmark for Evaluating Multi-Step Inference in Large Language Models
Andrew Bae, Saaketh Bhojanam, Laksh Patel · PDF
No Question, No Passage, No Problem: Investigating Artifact Exploitation and Reasoning in Multiple-Choice Reading Comprehension
Anthony Cui, Rohan Raj Butani, Theodore Oltean · PDF
No-Human in the Loop: Agentic Evaluation at Scale for Recommendation
Tao Zhang, Kehui Yao, Luyi Ma, Reza Yousefi Maragheh, Jiao Chen, Kai Zhao, Jianpeng Xu, Evren Korpeoglu, Sushant Kumar, Kannan Achan · PDF
On Evaluating Methods vs. Evaluating Models
Olawale Elijah Salaudeen, Florian E. Dorner, Peter Hase · PDF
OpenGovCorpus: Evaluating LLMs on Citizen Query Tasks
Neil Majithia, Rajat Shinde, Manil Maskey, Elena Simperl · PDF
OPTiCAL: An Abstract Positional Reasoning Benchmark for Vision Language Models
Christopher Driggers-Ellis, Gabriel Ayoubi, Christan Grant · PDF
Paraphrasing Away Malicious Tokens: Improving LLM Finetuning Safety by Filtering Spurious Correlation
Marcel Mateos Salles, Praney Goyal, Pradyut Sekhsaria, Hai Huang, Randall Balestriero · PDF
PEBBLE: A Pedagogical and SRL-Aware Benchmark for Evaluating LLM Tutors
Ishaan Gangwani, Harrish Ayyanar, Arjun Rawal · PDF
Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects
Gunmay Handa, Zekun Wu, Adriano Koshiyama, Philip Colin Treleaven · PDF
Physics Supernova: AI Agent Matches Elite Gold Medalists at IPhO 2025
Jiahao Qiu, Jingzhe Shi, Xinzhe Juan, Zelin Zhao, Jiayi Geng, Shilong Liu, Hongru WANG, Sanfeng Wu, Mengdi Wang · PDF
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization
Rohit Saxena, Pasquale Minervini, Frank Keller · PDF
Precision Shapes Personality: The Hidden Cost of Quantization in Sub-Billion-LLMs
Soham Sen, Ishaan Gangwani · PDF
Precursors, Proxies, and Predictive Models for Long-Horizon Tasks
Samuel F. Brown, Jaco Du Toit, Leo Hyams, Daniil Anisimov · PDF
Predicting Emergent Software Engineering Capabilities by Fine-tuning
Jason J Jackson, Terry Huang, Henry Velasquez, Kevin Zhu, Sunishchal Dev · PDF
Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness
Lang Xiong, Nishant Bhargava, Jeremy Chang, Jianhang Hong, Haihao Liu, Vasu Sharma, Kevin Zhu · PDF
Probing Reasoning Flaws and Safety Hierarchies with Chain-of-Thought Difference Amplification
Kamesh R · PDF
Progress over Points: Reframing LM Benchmarks Around Scientific Objectives
Alwin Jin, Sean M. Hendryx, Vaskar Nath · PDF
Prompt Genotyping: Quantifying the Evaluation Gap Between Synthetic Benchmarks and Real LLM Performance
Sohum Mehta, Saaketh Bhojanam · PDF
PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa · PDF
R3: Robust Rubric-Agnostic Reward Models
David Anugraha, Zilu Tang, Lester James Validad Miranda, Hanyang Zhao, Shou-Yi Hung, Mohammad Rifqi Farhansyah, Garry Kuwanto, Derry Tanti Wijaya, Genta Indra Winata · PDF
RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Ashish Kattamuri, Harshwardhan Fartale, Arpita Vats, Rahul Raja, Ishita Prasad · PDF
Recovery-Bench: Evaluating Agentic Recovery from Mistakes
Shangyin Tan, Kevin Lin, Koushik Sen, Matei Zaharia · PDF
Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check
Sungjun Cho, Dasol Hwang, Frederic Sala, Sangheum Hwang, Kyunghyun Cho, Sungmin Cha · PDF
RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab · PDF
RELIC: Evaluating Compositional Instruction Following via Language Recognition
Jackson Petty, Michael Y. Hu, Wentao Wang, Shauli Ravfogel, William Merrill, Tal Linzen · PDF
RepliBench: Evaluating the Autonomous Replication Capabilities of Language Model Agents
Sidney Black, Asa Cooper Stickland, Jake Pencharz, Oliver Sourbut, Michael Schmatz, Jay Bailey, Ollie Matthews, Ben Millwood, Alex Remedios, Alan Cooney · PDF
Rethinking Kernel Program Repair: Benchmarking and Enhancing LLMs with RGym
Kareem Shehada, Yifan Wu, Wyatt D. Feng, Adithya Iyer, Gryphon Kumfert, Yangruibo Ding, Zhiyun Qian · PDF
Rethinking MCQ Benchmarks: Mandatory Reasoning Evaluation Reveals Significant Performance Drops in Large Language Models
Yue Zhang, Nhan Nguyen · PDF
Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs
Jacob Portes, Connor Jennings, Erica Ji Yuen, Sasha Doubov, Michael Carbin · PDF
Reward Model Overoptimisation in Iterated RLHF
Lorenz Wolf, Robert Kirk, Mirco Musolesi · PDF
RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning
Ziye Chen, Chengwei Qin, Yao Shu · PDF
RULERv2: From Basic Retrieval to Complex Reasoning, A Bottom-Up Benchmark for Long-Context Evaluation
Cheng-Ping Hsieh, Faisal Ladhak, Krishna C Puvvada, Boris Ginsburg · PDF
SAGE: A Realistic Benchmark for Semantic Understanding
Samarth Goel, Reagan Lee, Kannan Ramchandran · PDF
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas
Anjiang Wei, Yuheng Wu, Yingjia Wan, Tarun Suresh, Huanmi Tan, Zhanke Zhou, Sanmi Koyejo, Ke Wang, Alex Aiken · PDF
Scaling Laws for Upcycling Mixture-of-Experts Language Models
Seng Pei Liew, Takuya Kato, Sho Takase · PDF
Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks
Jiaqi Yin, Yi-Wei Chen, MENG-LUNG LEE, Xiya Liu · PDF
Search-Time Data Contamination
Ziwen Han, Meher Mankikar, Julian Michael, Zifan Wang · PDF
Self-Correction Bench: Revealing the Self-Correction Blind Spot in LLMs
Ken Tsui · PDF
Self-Evaluating LLMs for Multi-Step Tasks: Stepwise Confidence Estimation for Failure Detection
Vaibhav Mavi, Shubh Jaroria, Weiqi Sun · PDF
Silent Tokens, Loud Effects: Padding in LLMs
Rom Himelstein, Amit LeVi, Yonatan Belinkov, Avi Mendelson · PDF
Small Changes, Large Consequences: Analyzing the Allocational Fairness of LLMs in Hiring Contexts
Preethi Seshadri, Hongyu Chen, Sameer Singh, Seraphina Goldfarb-Tarrant · PDF
Smarter Sampling for LLM Judges: Reliable Evaluation on a Budget
Alyssa Unell, Natalie Dullerud, Nigam Shah, Sanmi Koyejo · PDF
SWE-InfraBench: Evaluating Language Models on Cloud Infrastructure Code
Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov · PDF
Sycophancy Claims about Language Models: The Missing Human-in-the-Loop
Jan Batzner, Volker Stocker, Stefan Schmid, Gjergji Kasneci · PDF
T-FIX: Text-Based Explanations with Features Interpretable to eXperts
Shreya Havaldar, Helen Jin, Chaehyeon Kim, Anton Xue, Weiqiu You, Gary E. Weissman, Rajat Deo, Sameed Ahmed M. Khatana, Helen Qu, Marco Gatti, Daniel A Hashimoto, Amin Madani, Masao Sako, Bhuvnesh Jain, Lyle Ungar, Eric Wong · PDF
Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLMs
Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa · PDF
The Contamination Paradox: Why Test Set Leakage Can Be Both Potent and Negligible
Rylan Schaeffer, Ken Liu, Brando Miranda, Ahmed M Ahmed, Niloofar Mireshghallah, Sanmi Koyejo · PDF
The Impact of Post-training on Data Contamination
Muhammed Yusuf Kocyigit · PDF
The Measure of All Measures: Quantifying LLM Benchmark Quality
Jihan Yao, Peter Jin, Ke Bao, Qiaolin Yu, Khushi Bhardwaj, Chang Su, Jialei Wang, YIKAI ZHU, Sugam Devare, Damon Mosk-Aoyama, Zhen Dong, Venkat Krishna Srinivasan, Yineng Zhang, Oleksii Kuchaiev, Jiantao Jiao, Banghua Zhu · PDF
The Narcissus Hypothesis: Descending to the Rung of Illusion
Riccardo Cadei, Christian Internò · PDF
The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation
İbrahim Ethem Deveci, Duygu Ataman · PDF
The Price of Progress: Algorithmic Efficiency and the Falling Cost of AI Inference
Hans Gundlach, Jayson Lynch, Matthias Mertens, Neil Thompson · PDF
The Shepherd Test: How Will SuperIntelligent Agents Balance Care and Control in Asymmetric Relationships?
Djallel Bouneffouf, Matthew Riemer, Kush R. Varshney · PDF
The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation
Zarreen Reza · PDF
Towards Dynamic KV-Cache Compression: Fine-Grained Evaluation of Key and Value Ranks in LLMs
Jian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang, Changyou Chen, Yin Chen, Qizhen Weng, Yirui Liu · PDF
Towards Multilingual Mechanistic Interpretability
Yanan Long · PDF
Towards Real-World Evaluation of Agentic Work in Freelance Marketplaces
Mattie Terzolo, Darvin Yi, Teng Liu, Lance Hasson, Ayan Sinha, Pablo N. Mendes, Andrew Rabinovich · PDF
Towards Transparent Reasoning: What Drives Faithfulness in Large Language Models?
Teague McMillan, Gabriele Dominici, Martin Gjoreski, Marc Langheinrich · PDF
Train-before-Test Harmonizes Language Model Rankings
Guanhua Zhang, Ricardo Dominguez-Olmedo, Moritz Hardt · PDF
TrolleyBench: Evaluating Emergent Moral Reasoning and Consistency in LLMs
Andrew Zhu · PDF
Uncertainty Quantification for Language Models: Standardizing and Evaluating Black-Box, White-Box, LLM Judge, and Ensemble Scorers
Dylan Bouchard, Mohit Singh Chauhan · PDF
UQ: Assessing Language Models on Unsolved Questions
Fan Nie, Ken Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff · PDF
VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT
Hyeonsu B Kang, Yuwei Bao, Anjan Goswami · PDF
When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation
Xunyi Jiang, Dingyi Chang, Xin Xu · PDF
When LLM Meets Time Series: Can LLMs Perform Multistep Time Series Reasoning and Inference
Wen Ye, Jinbo Liu, Defu Cao, Wei Yang, Yan Liu · PDF
Where Did It All Go Wrong? A Hierarchical Look into Multi-Agent Error Attribution
Adi Banerjee, Anirudh Nair, Tarik Borogovac · PDF
Who Routes the Router: Rethinking the Evaluation of LLM Routing Systems
Jiayi Yuan, Yifan Lu, Rixin Liu, Yu-Neng Chuang, Hongyi Liu, Shaochen Zhong, Yang Sui, Guanchu Wang, Jiarong Xing, Xia Hu · PDF
Who’s the Impostor? Multi‑Agent Social Deduction for Evaluating LLM Social Reasoning
Xiang Fu · PDF
Whose Personae? Synthetic Persona Experiments in LLM Research and Pathways to Transparency
Jan Batzner, Volker Stocker, Bingjun Tang, Anusha Natarajan, Qinhao Chen, Stefan Schmid, Gjergji Kasneci · PDF
Why Do Multi-Agent LLM Systems Fail?
Mert Cemri, Melissa Z Pan, Shuyi Yang, Lakshya A Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica · PDF
YKSBench: Stress-Testing Multimodal Models with Exam-Style Questions
Egemen Sert, Seyda Ertekin · PDF

Accepted papers (186)

☆"It Doesn’t Know Anything About my Work": Participatory Benchmarking and AI Evaluation in Applied Settings

☆A Benchmark for Description-Based Evaluation of Social Bias in LLMs

☆A Case for Centaur Evaluations

☆A Multi-Aspect Evaluation of Dialogue in Pythia

☆A Protocol-Driven Platform for Agent-Agnostic Evaluation of LLM Agents

☆A Statistical Framework for Game-Based AI Evaluation

☆A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs

☆Active Model Selection for Large Language Models

☆ADCA: Artifact-Based Dataset Creativity Assessment

☆Adversarial Behavior in Research Settings: Conducting Sabotage Evaluations with RE-Bench

☆AgentCaster: Reasoning-Guided Tornado Forecasting

☆Agentic Lean Auformalization (ALA) v1: An LLM collaborative approach to autoformalization in LEAN

☆An Evaluation Study of Hybrid Methods for Multilingual PII Detection

☆Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction

☆ASCII-Bench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text

☆AssertBench: A Benchmark for LLM Resistance to User-Induced Factual Bias

☆Attention, Please: Single-Head Cross-Attention for Unified LLM Routing

☆Automated Capability Evaluation of Foundation Models

☆Automatic agent chaining for multimodal task support

☆Automatically Extracting Scientific Metrics with LLMs: A Case Study of ImageNet Papers

☆Bayesian Evaluation of Blackbox LLM Behavior

☆BEAR: Benchmarking Multimodal Language Models for Atomic Embodied Reasoning Abilities

☆Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

☆Benchmarking and Standardization of Evaluation Protocols: A Feedback-Driven Framework Using LLM Judges to Gatekeep and Iteratively Improve Synthetic Benchmarks

☆Benchmarking Overton Pluralism in LLMs

☆Beyond Accuracy: A Diagnostic Protocol for Fairly Evaluating Multimodal Reasoning

☆Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation

☆Beyond Steering: Evaluating Fine-Grained and Multi-Concept Control in LLMs

☆Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation

☆Beyond Western Politics: Cross-Cultural Benchmarks for Evaluating Partisan Associations in LLMs

☆Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment

☆BloomXplain: A Framework and Benchmark Dataset for Pedagogically Sound LLM-Generated Explanations Based on Bloom’s Taxonomy

☆Born with a SilverSpoon? Investigating Socioeconomic Bias in LLMs

☆Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

☆Breaking the Mirror: Examining Self-Preference in LLM Evaluators through Activation-Based Representations

☆Building More Accountable Multi-Modal LLMs Through Spatially-Informed Visual Reasoning

☆Carbon- and System-Aware LoRA Scaling for On-Device LLMs via Hierarchical Multi-Objective Reinforcement Learnin

☆Causally Quantifying the Effect of Test Set Contamination on Generative Benchmarks

☆CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments

☆CCWise: Carbon–Cost Aware Regional LLM Orchestration for Next-Gen Sustainable AI

☆ChatChecker: A Framework for Dialogue System Testing Through Non-cooperative User Simulation

☆ChEmREF: Evaluating Language Model Readiness for Chemical Emergency Response Assistance

☆CHEMSETS: How Capable Are Chemistry LLMs?

☆ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

☆CivicParse: A Benchmark and Pipeline for Structured Online Deliberation

☆Confident or Seek Stronger: Exploring Uncertainty-Based Small LM Routing From Benchmarking to Generalization

☆Context-Masked Meta-Prompting for Privacy-Preserving LLM Adaptation in Finance

☆Culturally-Aware Conversations: A Framework & Benchmark for LLMs

☆Data Centric Guard (DC-Guard) - A Framework for Trustworthy LLM Evaluation

☆DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

☆Demystify the Potential of Large Language Models as General-Purpose Surrogate Code Executors

☆Depth as a Scaling Vector: Simple Pruning and Evaluation of Emergent Abilities in Pruned LLMs

☆Detecting Data Contamination in LLMs via In-Context Learning

☆Detecting Foreign Content in Self-Generated Text: A Recognition Study of Large Language Models

☆Detecting Training Data of Large Language Models via Expectation Maximization

☆DHP Benchmark: Measuring Discernment Ability of LLM-as-a-Judge

☆Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

☆Do Large Language Models Know What They Are Capable Of?

☆Domain-Aware Scaling Laws Uncover Data Synergy

☆DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors

☆Editing as Unlearning: Are Knowledge Editing Methods Strong Baselines for Large Language Model Unlearning?

☆Evaluating AI Alignment Using Adapted Clinical Empathy Assessments

☆Evaluating Cultural and Linguistic Alignment Across the LLMs

☆Evaluating Evaluation Metrics – The Mirage of Hallucination Detection

☆Evaluating Language Models' Evaluations of Games

☆Evaluating LLM Story Generation through Large-scale Network Analysis on Social Structures

☆Evaluating LLM-as-a-Judge under Multilingual, Multimodal and Multi-domain Constraints

☆Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing

☆Evaluating LLMs' Language Confusion in Code-switching Context

☆Evaluation and Benchmarking Suite for Financial Large Language Models and Agents

☆Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification

☆Extending AutoCompressors via Surprisal-Based Dynamic Segmentation

☆FEval-TTC: Fair Evaluation Protocol for Test-Time Compute

☆From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining

☆From Bias to Balance: How Multilingual Dataset Composition Affects Tokenizer Performance Across Languages

☆From Many Voices to One: Statistically Principled Aggregation of LLM Judges

☆GASLIGHTBENCH: Quantifying LLM Susceptibility to Social Prompting

☆Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution

☆GermanPartiesQA: Benchmarking Commercial Large Language Models and AI Companions for Political Alignment and Sycophancy

"It Doesn’t Know Anything About my Work": Participatory Benchmarking and AI Evaluation in Applied Settings

A Benchmark for Description-Based Evaluation of Social Bias in LLMs

A Case for Centaur Evaluations

A Multi-Aspect Evaluation of Dialogue in Pythia

A Protocol-Driven Platform for Agent-Agnostic Evaluation of LLM Agents

A Statistical Framework for Game-Based AI Evaluation

A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs

Active Model Selection for Large Language Models

ADCA: Artifact-Based Dataset Creativity Assessment

Adversarial Behavior in Research Settings: Conducting Sabotage Evaluations with RE-Bench

AgentCaster: Reasoning-Guided Tornado Forecasting

Agentic Lean Auformalization (ALA) v1: An LLM collaborative approach to autoformalization in LEAN

An Evaluation Study of Hybrid Methods for Multilingual PII Detection

Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction

ASCII-Bench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text

AssertBench: A Benchmark for LLM Resistance to User-Induced Factual Bias

Attention, Please: Single-Head Cross-Attention for Unified LLM Routing

Automated Capability Evaluation of Foundation Models

Automatic agent chaining for multimodal task support

Automatically Extracting Scientific Metrics with LLMs: A Case Study of ImageNet Papers

Bayesian Evaluation of Blackbox LLM Behavior

BEAR: Benchmarking Multimodal Language Models for Atomic Embodied Reasoning Abilities

Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Benchmarking and Standardization of Evaluation Protocols: A Feedback-Driven Framework Using LLM Judges to Gatekeep and Iteratively Improve Synthetic Benchmarks

Benchmarking Overton Pluralism in LLMs

Beyond Accuracy: A Diagnostic Protocol for Fairly Evaluating Multimodal Reasoning

Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation

Beyond Steering: Evaluating Fine-Grained and Multi-Concept Control in LLMs

Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation

Beyond Western Politics: Cross-Cultural Benchmarks for Evaluating Partisan Associations in LLMs

Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment

BloomXplain: A Framework and Benchmark Dataset for Pedagogically Sound LLM-Generated Explanations Based on Bloom’s Taxonomy

Born with a SilverSpoon? Investigating Socioeconomic Bias in LLMs

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

Breaking the Mirror: Examining Self-Preference in LLM Evaluators through Activation-Based Representations

Building More Accountable Multi-Modal LLMs Through Spatially-Informed Visual Reasoning

Carbon- and System-Aware LoRA Scaling for On-Device LLMs via Hierarchical Multi-Objective Reinforcement Learnin

Causally Quantifying the Effect of Test Set Contamination on Generative Benchmarks

CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments

CCWise: Carbon–Cost Aware Regional LLM Orchestration for Next-Gen Sustainable AI

ChatChecker: A Framework for Dialogue System Testing Through Non-cooperative User Simulation

ChEmREF: Evaluating Language Model Readiness for Chemical Emergency Response Assistance

CHEMSETS: How Capable Are Chemistry LLMs?

ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

CivicParse: A Benchmark and Pipeline for Structured Online Deliberation

Confident or Seek Stronger: Exploring Uncertainty-Based Small LM Routing From Benchmarking to Generalization

Context-Masked Meta-Prompting for Privacy-Preserving LLM Adaptation in Finance

Culturally-Aware Conversations: A Framework & Benchmark for LLMs

Data Centric Guard (DC-Guard) - A Framework for Trustworthy LLM Evaluation

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

Demystify the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Depth as a Scaling Vector: Simple Pruning and Evaluation of Emergent Abilities in Pruned LLMs

Detecting Data Contamination in LLMs via In-Context Learning

Detecting Foreign Content in Self-Generated Text: A Recognition Study of Large Language Models

Detecting Training Data of Large Language Models via Expectation Maximization

DHP Benchmark: Measuring Discernment Ability of LLM-as-a-Judge

Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Do Large Language Models Know What They Are Capable Of?

Domain-Aware Scaling Laws Uncover Data Synergy

DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors

Editing as Unlearning: Are Knowledge Editing Methods Strong Baselines for Large Language Model Unlearning?

Evaluating AI Alignment Using Adapted Clinical Empathy Assessments

Evaluating Cultural and Linguistic Alignment Across the LLMs

Evaluating Evaluation Metrics – The Mirage of Hallucination Detection

Evaluating Language Models' Evaluations of Games

Evaluating LLM Story Generation through Large-scale Network Analysis on Social Structures

Evaluating LLM-as-a-Judge under Multilingual, Multimodal and Multi-domain Constraints

Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing

Evaluating LLMs' Language Confusion in Code-switching Context

Evaluation and Benchmarking Suite for Financial Large Language Models and Agents

Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification

Extending AutoCompressors via Surprisal-Based Dynamic Segmentation

FEval-TTC: Fair Evaluation Protocol for Test-Time Compute

From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining

From Bias to Balance: How Multilingual Dataset Composition Affects Tokenizer Performance Across Languages

From Many Voices to One: Statistically Principled Aggregation of LLM Judges

GASLIGHTBENCH: Quantifying LLM Susceptibility to Social Prompting

Generation-Time vs. Post-hoc Citation: A Holistic Evaluation of LLM Attribution

GermanPartiesQA: Benchmarking Commercial Large Language Models and AI Companions for Political Alignment and Sycophancy

GUARD: Guiding Unbiased Alignment through Reward Debiasing