ICLR 2026PastMath & reasoningLarge language models

ICLR 2026 Workshop on Logical Reasoning of Large Language Models

ICLR 2026 Workshop LLM Reasoning

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Mar 21, 2026, 11:59 UTC
OpenReview-synced 2026-03-21 11:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (159)

Fetched from OpenReview (v2) on 2026-06-10.

A Causal Legal Reasoning Method for Judicial Subjective Questions via Key Legal Fact Identification
Jinze Sang, Jiawen Zhang · PDF
Actor-Curator: Co-adaptive curricula via policy-improvement bandits for post-training
Zhengyao Gu, Jonathan Light, Raul Astudillo, Ziyu Ye, Langzhou He, Wei Cheng, Santiago Paternain, Philip S. Yu, Yisong Yue · PDF
Against Homogeneous Consensus: Why Scientific Discovery Requires Heterogeneous Adversarial LLM Agents
Shuai Wang · PDF
Agentic Proving for Program Verification
Alessandro Sosso, Akhil Arora, Bas Spitters · PDF
AGM-Bench: Do Large Language Models Revise Beliefs Rationally?
Ben Jenkins · PDF
AI-BAAM: AI-Driven Bank Statement Analytics as Alternative Data for Malaysian MSME Credit Scoring
Chun Chet Ng, Zhen Hao Chu, Jia Yu Lim, Boon Yin Yin, Low Wei Zeng, Jin Khye Tan · PDF
An Informal Logic LLM-Based Argumentation Framework
Paulo Pirozelli, Douglas Aldred, Victor Hugo Nascimento Rocha, Fabio Cozman · PDF
An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems
Yuren Hao, Xiang Wan, ChengXiang Zhai · PDF
Are VLM Identity Judgments Logically Consistent? Evaluating Symmetry, Chain-of-Thought, and Transitivity in Person Re-Identification
Alok Upadhyay · PDF
AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency
Max Henning Höth, Kristian Kersting, Björn Deiseroth, Letitia Parcalabescu · PDF
AtomGraph: Reasoning Isn't Linear, Why Should Verification Be?
Aryan Karmore · PDF
Autoformalizing Biomedical Text into Verified Knowledge Graph Reasoning: A Neuro-Symbolic Architecture for Alzheimer's Disease
David Scott Lewis, Enrique Zueco · PDF
Automatically Generating Hard Math Problems from Hypothesis-Driven Error Analysis
Jiayu Fu, Mourad Heddaya, Chenhao Tan · PDF
AVSAD: Automating Vector Symbolic Architecture Discovery with Iterative Evolution
Deja N Scott, Dmitry Zubarev, Massimiliano Esposito, Avraham Shinnar, Abbas Rahimi, Kenneth L. Clarkson, Lior Horesh, Michael Hersche, Shashanka Ubaru · PDF
Benchmark for Assessing Olfactory Perception of Large Language Models
Eftychia Makri, Nikolaos Nakis, Laura Sisson, Leandros Tassiulas, Vahid Satarifard, Nicholas A. Christakis · PDF
Benchmarking Logical Reasoning Inconsistencies in Local Large Language Models: Evidence from Multi-Domain Evaluation
Tadisetty Sai Yashwanth, Dhatri C · PDF
Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency
Victoria Lin, Xinnuo Xu, Rachel Lawrence, Risa Ueno, Amit Sharma, Javier Gonzalez, Niranjani Prasad · PDF
Beyond Clause Count: A Study of Proof-Relevant Difficulty in LLM SAT Reasoning
Tao Jiang, Shaowei Cai · PDF
Beyond Rationalization: Criteria and Guidelines for Algorithmic Reasoning Traces in LLM Logical Reasoning
Karun Thankachan, Prateek Kohli · PDF
Beyond Self-Refinement: Ensembling and Chaining for Neurosymbolic Reasoning
Devesh Maheshwari, Surbhi Sharma · PDF
Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order
Prakhar Gupta, Vaibhav Gupta · PDF
Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers
Nishit Singh · PDF
CausalSim: Counterfactual Implication Inversion as a Logical Consistency Stress Test for Large Language Models
youla yang · PDF
Certified Coherent Reasoning for LLMs via Weighted MaxSAT and Belief-Revision Geometry
Murari Ambati · PDF
CFLBENCH: BENCHMARKING NOVEL CONTROL FLOW LANGUAGE LEARNING
Aaroosh Rustagi, Jounghyuck Sohn, Thomas Peng, Mykaala Firdaus, Huanzhi Mao · PDF
Chain-of-Thought Injection as an Inference-Time Safety Intervention
Lindsay M. Smith, Ananya Malik, Edward James Young, Puria Radmard, Cameron Tice, Hannes Whittingham · PDF
ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale
Noel Thomas · PDF
Characterizing Backtracking in CoT through Internal Probes and Surface-Level Features
Adiba Ejaz, Aditya Gupta, Arthur Pogosian, Peter Hase · PDF
Commitment-Aware Axiomatic Coherence: Measuring Non-Vacuous Consistency in LMM Logical Reasoning
Md Muntaqim Meherab · PDF
Confidence-Gated RAG for Adaptive Retrieval in Sequential Agents
Srikanth Devarakonda, RAJESH LINGAM, Vagdevi Challa · PDF
Confident RAG: Enhancing the Performance of LLMs for Mathematics Question Answering through Multi-Embedding and Confidence Scoring
Shi-Ting Chen, Zijian Zhao, Jinsong Chen · PDF
Configuration Perturbation Induces Logical Contradictions Across Related Queries
Raghav Subramaniam · PDF
Constrained Wikigame: Benchmarking Deductive Reasoning for Multi-Step Planning
Rafael Mosquera-Gómez, Juan Felipe Rodriguez, Martin Diaz Velez, Ivan Alvarenga de Sousa Junior, Juan Jaramillo · PDF
CONSTRAINING PROBABILITY WITH LOGIC: A SPECTRUM FROM STATISTICAL ALIGNMENT TO STRUCTURAL GUARANTEE
Kun Yuan · PDF
ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis
Rishav Rishav, Pushpak Pujari, Pushpendre Rastogi · PDF
Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic
Abinav Rao, Sujan Rachuri, Nikhil Vemuri · PDF
CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization
Deep Shah, Sanket Badhe, Nehal Kathrotia, Priyanka Tiwari · PDF
Debugging code world models
Babak Rahmani · PDF
DECODING LOGICAL NEGATION IN LARGE LANGUAGE MODELS: FROM STATISTICAL HEURISTICS TO CAUSAL SEMANTIC CIRCUITS
Umair Tariq, Brian Cong, Archish Prakhya, Tinuade Adeleke, Sean Wu, Ruizhe Li · PDF
Decoupling Reasoning from Action: Architectural Impacts on Agentic Planning Consistency
Himaneesh Sompalle · PDF
DEDUCTIVE CONSTRAINT SATISFACTION VS. PREVALENCE PRIORS: BENCHMARKING LLM LOGIC IN CLINICAL DIAGNOSTICS
Dharini Raghavan · PDF
DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models
Amit Dhanda · PDF
Detecting Scaling Factors Beyond the Model: A Reporting Framework for AI Agent Systems
Kenta Kitamura · PDF
DIFFUSION REASONING FOR FORMAL LOGIC: CLOSING THE GAP BETWEEN MATHEMATICAL AND DEDUCTIVE CONSISTENCY IN LLMS
Ritika Lamba · PDF
Distilling SMT Solver Reasoning into Compact Language Models
Emre Kıyak, Cagatay Cingoz, Hakan Çapuk, Aykut Erdem · PDF
Do Depth-Grown Models Overcome the Curse of Depth? An In-Depth Analysis
Ferdinand Kapl, Emmanouil Angelis, Tobias Höppe, Kaitlin Maile, Johannes von Oswald, Nino Scherrer, Stefan Bauer · PDF
Do LLM Recommenders Obey Preference Axioms? Testing Logical Rationality in LLM-Based Recommendation
Alok Upadhyay · PDF
Do Transformers Use Their Depth Adaptively? Evidence from a Relational Reasoning Task
Alicia Curth, Rachel Lawrence, Sushrut Karmalkar, Niranjani Prasad · PDF
Embedding Distance as a Reward Signal can replace Verifiers for LLM Reasoning
Abdelhakim Benechehab, Youssef Attia El Hili, Albert Thomas, Giuseppe Paolo, Maurizio Filippone · PDF
Emergent Reasoning via Recursive Latent Reinforcement Pretraining
Gopeshh Subbaraj, Istabrak Abbes, Artem Zholus, Matthew Riemer, Irina Rish, Sarath Chandar · PDF
Enforcing Logical Invariance in Large Language Models via Symmetry Pair Training
Prasanth · PDF
Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey
Junqiao Wang, Zeng Zhang, Yangfan He, Zihao Zhang, Xinyuan Song, Yuyang Song, TIANYU SHI, Yuchen Li, Hengyuan Xu, Kunyu Wu, Yi Xin, Zhongwei Wan, Xinhang Yuan, Zijun Wang, Kuan Lu, Menghao Huo, Jingqun Tang, Guangwu Qian, Keqin Li, Qiuwu Chen, Lewei He · PDF
Enhancing LLMs in Legal Judgment Prediction via Neuro-Symbolic Reasoning
Zhaozuo Liu, Zhengnan Li, Fengxiang Cheng, Fenrong Liu · PDF
Entailment Closure Failures in Large Language Models: A Benchmark for Cross-Query Logical Consistency
Ben Jenkins · PDF
Entropy Jurisprudence: Auditing Procedural Fidelity in LLM Normative Reasoning
CHEN XIWEI · PDF
ERA-GAC for Stable Structured Reasoning with Attention Priors and Gain-Aware Entropy Control
Rian Atri · PDF
EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
Aman Sharma, Paras Chopra · PDF
Evaluation of Multi-Turn Consistency in LLM Agents: Survival Analysis and Failure-Rationale Taxonomy
Igor Bogdanov, Olga Manakina, Chung-Horng Lung · PDF
Finny: A Multi-Agent System for Structured Decision-Making with LLMs
Harshitha Ravindra, Utkarsh Bajaj, Madhur Mehta · PDF
From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs
Shubham Mishra, Shiv Tiwari, Samyek Jain, Gorang Mehrishi, Dhruv Kumar, Pratik Narang, Harsh Sharma · PDF
From Growing to Looping: A Unified View of Iterative Computation in LLMs
Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer · PDF
From Natural Language to Exact Cover: A Neuro-Symbolic Approach to Zebra Puzzles
Paulius Skaisgiris, Thomas Pammer, Veronika Semmelrock, Mykyta Ielanskyi, Maximilian Heisinger, Erich Kobler · PDF
Fully Asynchronous Federated Learning with Faster Convergence for LLM Reasoning
Jingyuan Zheng, Siyu Li · PDF
GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers
Shufan Jiang, Chios Chen, Zhiyang Chen · PDF
GIFT: Guided Importance-Aware Fine-Tuning for Diffusion Language Models
Guowei Xu, Wenxin Xu, Zhao Jiawang, Kaisheng Ma · PDF
Governed Self-Improvement for Logical Reasoning: Edit-Time Governance for Developmental Consistency
David Scott Lewis, Enrique Zueco · PDF
Grounding the "Not": Symbolic Representation of Negation for Logical Reasoning in VLMs
Inha Kang, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim · PDF
GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning
Jingyi Wang, Lei Zhu, Tengjin Weng, Song-Li Wu, Haochen Tan, Jierun Chen, Chaofan Tao, Haoli Bai, Lu Hou, Lifeng Shang, Xiao-Ping Zhang · PDF
HALLUCINATION AS MISCLASSIFICATION: A COMPOSITE ABSTENTION ARCHITECTURE FOR LANGUAGE MODEL OUTPUT CONTROL
Angelina Davini · PDF
How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment
Rebecca Ansell, Autumn Toney · PDF
Improving Reachability on Reasoning Puzzles
Sukruta Prakash Midigeshi, Sai Soumya Nalli, Utkarsh Tiwari, Amit Deshpande, Nagarajan Natarajan, Vineeth N. Balasubramanian, Amit Sharma, Gaurav Sinha · PDF
Interpreting Chain-of-thought Reasoning via Partial Information Decomposition
Barproda Halder, Qiuyi Zhang, Sanghamitra Dutta · PDF
Interventional Grounding Audits: Black-Box Premise-Dependency Tests for LLM Chain-of-Thought via Predicate Substitution
Hironao Nakamura · PDF
interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors
Vishak K Bhat, Prateek Chanda, Ashmit Khandelwal, Maitreyi Swaroop, Subbarao Kambhampati, Vineeth N. Balasubramanian, Nagarajan Natarajan, Amit Sharma · PDF
INVESTIGATING EQUATION-ONLY REASONING IN LARGE LANGUAGE MODELS
Jonathan Chung · PDF
KV Cache as a Reasoning Primitive for Long Context Reasoning
Rian Atri · PDF
LaPep: Can Language Contribute to Property-Guided Peptide Design?
Kimberly Liang, Tong Chen, Pranam Chatterjee · PDF
Large Language Models Generate Harmful Content Using a Unified Mechanism
Hadas Orgad, Boyi Wei, Kaden Zheng, Martin Wattenberg, Peter Henderson, Seraphina Goldfarb-Tarrant, Yonatan Belinkov · PDF
Latent-Implicit Thinking with Proof-Carrying Neuro-Symbolic Outputs for Biomedical Discovery
David Scott Lewis, Enrique Zueco · PDF
Learning Reasoning Reward Models from Expert Demonstration via Inverse Reinforcement Learning
Claudio Fanconi, Nicolás Astorga, Mihaela van der Schaar · PDF
Linear Mechanisms of Spatiotemporal Reasoning in Vision Language Models
Raphi Kang, Hongqiao Chen, Georgia Gkioxari, Pietro Perona · PDF
LLATAS: Large LAnguage models as Tabular Auxiliary feature Synthesizer
Yuzhen Mao, Martin Ester · PDF
LLM Routing as Reasoning: A MaxSAT View
Son Nguyen, Xinyuan Liu, Ransalu Senanayake · PDF
LLM-as-a-Prophet: Understanding AI's Predictive Intelligence with Prophet Arena
Qingchuan Yang, Simon Mahns, Sida Li, Anri Gu, Jibang Wu, Haifeng Xu · PDF
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers
Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy · PDF
LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking
Lukas Helff, Quentin Delfosse, David Steinmann, Ruben Härle, Hikaru Shindo, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting, Felix Friedrich · PDF
Logic-Verified GRPO: Graded Z3 Process Rewards for Logical Reasoning in Small LLMs
Ishaan Gangwani, Aayam Bansal · PDF
Logical Consistency Under Pressure: Probing and Repairing Cross-Query Contradictions in LLMs
Aayam Bansal, Ishaan Gangwani · PDF
Logical Reasoning Evaluation and Social Bias
Sofia Martinelli, Guido Ivetta, Luciana Benotti · PDF
LogicReward: Incentivizing LLM Reasoning via Step-Wise Logical Supervision
Jundong Xu, Hao Fei, Huichi Zhou, Xin Quan, Qijun Huang, Shengqiong Wu, William Yang Wang, Mong-Li Lee, Wynne Hsu · PDF
LogicVault: Persistent Symbolic Belief States for Cross-Query Logical Consistency in LLMs
Sarim Chaudhry · PDF
M3Kang: Evaluating Multilingual Multimodal Mathematical Reasoning in Vision-Language Models
Aleix Torres-Camps, Nathaniel Mitrani Hadida, Victor Conchello Vendrell, Àlex Batlle Casellas, Arnau Padrés Masdemont, Jordi Ros-Giralt · PDF
Mamba-SSM with LLM Reasoning for Feature Selection: Faithfulness-Aware Biomarker Discovery
Pushpa Kumar Balan, Aijing Feng · PDF
Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning
Mehdi Azarafza, Mojtaba Nayyeri, Faezeh Pasandideh, Steffen Staab, Achim Rettberg · PDF
MODALBENCH: EVALUATING MODAL AND DEONTIC LOGIC REASONING IN LARGE LANGUAGE MODELS
mujtaba hasan · PDF
MTIR-SQL: Multi-turn Tool-Integrated Reasoning Reinforcement Learning for Text-to-SQL
Zekun Xu, Siyu Xia, Chuhuai Yue, Jiajun Chai, Mingxue Tian, Xiaohan Wang, Wei Lin, Haoxuan Li, Guojun Yin · PDF
MUX: Continuous Reasoning via Multiplexed Tokens
Ayhan Suleymanzade, Halil Alperen Gozeten, Ismail Ilkan Ceylan, Jinwoo Kim · PDF
Neuro-Symbolic Active Causal Hypothesis Testing for NAD+-Centered Alzheimer's Disease Reversal
David Scott Lewis, Enrique Zueco · PDF
Neuro-Symbolic Rule Discovery: Empowering LLMs with Causality for Vehicle Diagnostics
Hugo Math, Julian Lorenz, Rainer Lienhart · PDF
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks
Zixuan Wang, Dingming Li, Hongxing Li, Yuchen Yan, Shuo Chen, Zhipiao Liu, Hongwei Yang, XIE GUOQING, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang · PDF
On the "Induction Bias" in Sequence Models
Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic · PDF
Out-of-Distribution Study of Rule-Based and Strategic Reasoning in Chess Transformers
Anna Mészáros, Patrik Reizinger, Ferenc Huszár · PDF
PAVE: Premise-Aware Validation and Editing for Retrieval-Augmented LLMs
Tianyi Huang, Caden Yang, Emily Yin, Eric Wang, Michael Zhang · PDF
PeerCoT: Structured Multi-Agent Chain-of-Thought Collaboration for Error Localization in LLM Reasoning
Isha Chaturvedi, Rhys Llewellyn-Jones, Sage Rain Schaffer · PDF
Position: Beyond Reasoning Zombies — AI Reasoning Requires Process Validity
Rachel Lawrence, Jacqueline R. M. A. Maasch · PDF
Position: Logical Soundness is not a Reliable Criterion for Neurosymbolic Fact-Checking with LLMs
Jason Chan, Robert J. Gaizauskas, Zhixue Zhao · PDF
POSITION: THE REASONING TRAP — LOGICAL REASONING AS A MECHANISTIC PATHWAY TO SITUATIONAL AWARENESS
Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary · PDF
Premises Reordering in Forward Chaining Improves LLM Symbolic Reasoning
Xin Zhang · PDF
PRISM: Prompt-Refined In-Context System Modeling for Financial Retrieval
Chun Chet Ng, Jia Yu Lim, Low Wei Zeng · PDF
ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward
Jingpei Wu, Xiao Han, Weixiang Shen, Boer Zhang, Zifeng Ding, Volker Tresp · PDF
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning
Sanket Badhe, Deep Shah · PDF
Pruning via Causal Attribution Preserves Reasoning in Large Language Models
Amogh Sheth, Andrew Lin, Yi Wen Huang, Biruk Assefa, Yuhao Ge · PDF
Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
Baishali Chaudhury, Mengdie Flora Wang, Hyunji Hayley Park, Rahul Ghosh, Sungmin Hong, Jae Oh Woo · PDF
Quantifying Cross-Query Contradictions in Multi-Query LLM Reasoning
Rohit Kumar Salla, Ramya Manasa Amancherla, Manoj Saravanan · PDF
R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning
Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Na Li, Chuchu Fan · PDF
RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking
Jiaru Zou, Dongqi Fu, Sirui Chen, Xinrui He, Zihao Li, Yada Zhu, Jiawei Han, Jingrui He · PDF
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models
Aryan Kasat, Smriti Singh, Vinija Jain, Aman Chadha · PDF
Reasoning Structure of Large Language Models
Frédéric Berdoz, Luca A Lanzendörfer, Fabian Farestam, Roger Wattenhofer · PDF
Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models
Saurabh Srivastava, Janit Bidhan, Hao Yan, Abhishek Dey, Tanu Kansal, Paras Kath, Sina Mansouri, Mohit Marvania, Vamsi Shankar Simhadri, Gaurav Singh · PDF
RecRoll: Adaptive Depth First Search in Autoregressive Predictive Space
Mykyta Ielanskyi, Sepp Hochreiter · PDF
Recurrent Reasoning on Symbolic Puzzles with Sequence Models
Gowrav Mannem, Chowdhury Marzia Mahjabin, Jason Chen, Shivank Garg, Kevin Zhu · PDF
Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning
Sebastien Kawada · PDF
ResistIA: Reasoning-Guided Agentic Evaluation of Synthetic Metal-Resistance Genes from Conditional Genomic Foundation Models
José Vásquez-Bastías, Juan Stockle · PDF
Rethinking LLM Judges: Chain-of-Thought and Multi-Step Pipelines for Math Grading
Eric Chen, Aryan Gulati, Brando Miranda, Zeyu Tang, Sanmi Koyejo · PDF
Rethinking LLMs as Verifiers: When Verification is Harder Than Solving
Varul Srivastava, Sankarshan Damle, Manisha Padala · PDF
Revisiting Causal Reasoning in Language Models through Controlled Synthetic Worlds
Abhirath Sangala, Vineeth N. Balasubramanian, Amit Sharma · PDF
RHIM: Benchmarking Redundant Hypothesis Identification Reveals Systematic Gaps in LLM Logical Reasoning
Hai Dinh, Minh-Tuan Luong, Kha Pham · PDF
Riemann-Bench: A Benchmark for Moonshot Mathematics
Sushant Mehta · PDF
RIGHT ANSWERS, WRONG REASONS: DISSOCIATING UNDERSTANDING FROM CORRECTNESS IN LLM REASONING
Vimanyu Taneja, Soumya Banerjee · PDF
RSCE: Training-Free Residual Stream Encoding for Persistent Context Amortization
Adam Kamel, Eric Xu · PDF
Rubric as Reward: Decomposing Verification Signals for Logical Reasoning in GRPO
Ishaan Gangwani, Aayam Bansal · PDF
Safe Context Switching for Agents in the Wild: Mitigating Subspace Interference via Orthogonal Adaptation
Akash Das · PDF
SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs
Yanxiao Zhao, Yaqian Li, Zi-Hao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long · PDF
Scaffolding the Strategist: Architecture-Dependent Reasoning Interventions in Hotelling Spatial Markets
Pratyush Singh · PDF
Scaling Reasoning Depth Reveals Three Tiers of Failure in Multi-Model Mathematical Deduction
Harsh Rathwa · PDF
Selective Enforcement of Order-Invariant Causal Reasoning in Language Models
Devon Copley · PDF
SELF-AWARE MARKOV MODELS FOR DISCRETE REASONING
Gregor Kornhardt, Jannis Chemseddine, Christian Wald, Gabriele Steidl · PDF
Semantic Search over 9 Million Mathematical Theorems
Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Giovanni Inchiostro, Vasily Ilin, Jarod Alper · PDF
Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning
Bryan Cheng, Jasper Zhang · PDF
Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning
Om Naphade, Saksham Bansal, Parikshit Pareek · PDF
Sparse Spectral Signatures of Reasoning: Model-Agnostic Verification via Sentence- Level Graph Signals
Arjun Balaji · PDF
Spectral Attention Steering for Prompt Highlighting
Weixian Waylon Li, Yuchen Niu, Yongxin Yang, Keshuang Li, Tiejun Ma, Shay B Cohen · PDF
Stabilizing Iterative Self-Training with Verified Reasoning via Symbolic Recursive Self-Alignment
Xinyu Zhang · PDF
Stratum-Aware LLM Reasoning under Per-User Slot Constraints
Shijin Zhang, Tianyu Xia · PDF
STRuCT-LLM: Unifying Tabular and Graph Reasoning with Reinforcement Learning for Semantic Parsing
Josefa Lia Stoisser, Marc Boubnovski Martell, Lawrence Phillips, Casper Hansen, Julien Fauqueur · PDF
Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants
Sankalp Gilda, Shlok Gilda · PDF
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers
Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang · PDF
The AI Barrister Flight Simulator: A Neuro-Symbolic Benchmark for Structured Legal Reasoning
David Scott Lewis, Enrique Zueco, Haley Yi · PDF
The Capability Frontier: Benchmarks Miss 82% of Model Performance
Bradley Fowler, Ryan Smith, Daniel Thi Graviet, William Myers, Joshua Greaves, Narmeen Fatimah Oozeer, Antía García, Philip Quirke, Fazl Barez, Shriyash Kaustubh Upadhyay · PDF
The Epistemic Cost of Preference Optimization
Rian Atri · PDF
The First Tokens Matter: Early Confidence Signals for Evaluating LLM Reasoning
Ali Keramati, Justin Cheok, Jacob Horne, Mark Warschauer · PDF
The Language Of Bargaining: Linguistic Effects In LLM Negotiations
Stuti Sinha, Himanshu Kumar, Aryan Raju Mandapati, Rakshit Sakhuja, Dhruv Kumar · PDF
The Yes-Bias in LLM Reasoning
Mark Obozov, Egor Salygin, Peter Losev, Artem Alekseev, Nikolay Bushkov, Stanislav Moiseev · PDF
Think Less, Code Better: Probing When Chain-of-Thought Hurts and How to Route Around It
Rajarshi Ghoshal, Salma Emad Mahmoud Abdelhalim, Debadri Basak, Pratibha kaur arora · PDF
TopoBench: Benchmarking LLMs on hard topological reasoning
Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid · PDF
VariantBench: Benchmarking Language Models on Scientific Reasoning Across the Pharmacogenomic Evidence Pipeline
Shlok Natarajan, Andrew Lanpouthakoun, Etash Kumar Guha, Aaron Fanous, Roxana Daneshjou · PDF
When “Just Read the Chain of Thought” Fails: Five Tasks for Stress-Testing CoT Monitors
Daria Ivanova, Riya Tyagi, Joshua Engels, Neel Nanda · PDF
When Long Contexts Break Logic: Separating Evidence Use and Decision Bias in Instruction-Tuned LLMs
Pravish Sainath · PDF
Your Model Diversity, Not Method, Determines Reasoning Strategy
Moulik Choraria, Argyrios Gerogiannis, Anirban Das, Supriyo Chakraborty, Berkcan Kapusuzoglu, Chia-Hsuan Lee, Kartik Balasubramaniam, Shi-Xiong Zhang, Sambit Sahu · PDF

Accepted papers (159)

☆A Causal Legal Reasoning Method for Judicial Subjective Questions via Key Legal Fact Identification

☆Actor-Curator: Co-adaptive curricula via policy-improvement bandits for post-training

☆Against Homogeneous Consensus: Why Scientific Discovery Requires Heterogeneous Adversarial LLM Agents

☆Agentic Proving for Program Verification

☆AGM-Bench: Do Large Language Models Revise Beliefs Rationally?

☆AI-BAAM: AI-Driven Bank Statement Analytics as Alternative Data for Malaysian MSME Credit Scoring

☆An Informal Logic LLM-Based Argumentation Framework

☆An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems

☆Are VLM Identity Judgments Logically Consistent? Evaluating Symmetry, Chain-of-Thought, and Transitivity in Person Re-Identification

☆AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency

☆AtomGraph: Reasoning Isn't Linear, Why Should Verification Be?

☆Autoformalizing Biomedical Text into Verified Knowledge Graph Reasoning: A Neuro-Symbolic Architecture for Alzheimer's Disease

☆Automatically Generating Hard Math Problems from Hypothesis-Driven Error Analysis

☆AVSAD: Automating Vector Symbolic Architecture Discovery with Iterative Evolution

☆Benchmark for Assessing Olfactory Perception of Large Language Models

☆Benchmarking Logical Reasoning Inconsistencies in Local Large Language Models: Evidence from Multi-Domain Evaluation

☆Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency

☆Beyond Clause Count: A Study of Proof-Relevant Difficulty in LLM SAT Reasoning

☆Beyond Rationalization: Criteria and Guidelines for Algorithmic Reasoning Traces in LLM Logical Reasoning

☆Beyond Self-Refinement: Ensembling and Chaining for Neurosymbolic Reasoning

☆Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

☆Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers

☆CausalSim: Counterfactual Implication Inversion as a Logical Consistency Stress Test for Large Language Models

☆Certified Coherent Reasoning for LLMs via Weighted MaxSAT and Belief-Revision Geometry

☆CFLBENCH: BENCHMARKING NOVEL CONTROL FLOW LANGUAGE LEARNING

☆Chain-of-Thought Injection as an Inference-Time Safety Intervention

☆ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

☆Characterizing Backtracking in CoT through Internal Probes and Surface-Level Features

☆Commitment-Aware Axiomatic Coherence: Measuring Non-Vacuous Consistency in LMM Logical Reasoning

☆Confidence-Gated RAG for Adaptive Retrieval in Sequential Agents

☆Confident RAG: Enhancing the Performance of LLMs for Mathematics Question Answering through Multi-Embedding and Confidence Scoring

☆Configuration Perturbation Induces Logical Contradictions Across Related Queries

☆Constrained Wikigame: Benchmarking Deductive Reasoning for Multi-Step Planning

☆CONSTRAINING PROBABILITY WITH LOGIC: A SPECTRUM FROM STATISTICAL ALIGNMENT TO STRUCTURAL GUARANTEE

☆ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis

☆Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic

☆CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization

☆Debugging code world models

☆DECODING LOGICAL NEGATION IN LARGE LANGUAGE MODELS: FROM STATISTICAL HEURISTICS TO CAUSAL SEMANTIC CIRCUITS

☆Decoupling Reasoning from Action: Architectural Impacts on Agentic Planning Consistency

☆DEDUCTIVE CONSTRAINT SATISFACTION VS. PREVALENCE PRIORS: BENCHMARKING LLM LOGIC IN CLINICAL DIAGNOSTICS

☆DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models

☆Detecting Scaling Factors Beyond the Model: A Reporting Framework for AI Agent Systems

☆DIFFUSION REASONING FOR FORMAL LOGIC: CLOSING THE GAP BETWEEN MATHEMATICAL AND DEDUCTIVE CONSISTENCY IN LLMS

☆Distilling SMT Solver Reasoning into Compact Language Models

☆Do Depth-Grown Models Overcome the Curse of Depth? An In-Depth Analysis

☆Do LLM Recommenders Obey Preference Axioms? Testing Logical Rationality in LLM-Based Recommendation

☆Do Transformers Use Their Depth Adaptively? Evidence from a Relational Reasoning Task

☆Embedding Distance as a Reward Signal can replace Verifiers for LLM Reasoning

☆Emergent Reasoning via Recursive Latent Reinforcement Pretraining

☆Enforcing Logical Invariance in Large Language Models via Symmetry Pair Training

☆Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey

☆Enhancing LLMs in Legal Judgment Prediction via Neuro-Symbolic Reasoning

☆Entailment Closure Failures in Large Language Models: A Benchmark for Cross-Query Logical Consistency

☆Entropy Jurisprudence: Auditing Procedural Fidelity in LLM Normative Reasoning

☆ERA-GAC for Stable Structured Reasoning with Attention Priors and Gain-Aware Entropy Control

☆EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

☆Evaluation of Multi-Turn Consistency in LLM Agents: Survival Analysis and Failure-Rationale Taxonomy

☆Finny: A Multi-Agent System for Structured Decision-Making with LLMs

☆From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs

☆From Growing to Looping: A Unified View of Iterative Computation in LLMs

☆From Natural Language to Exact Cover: A Neuro-Symbolic Approach to Zebra Puzzles

☆Fully Asynchronous Federated Learning with Faster Convergence for LLM Reasoning

☆GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

☆GIFT: Guided Importance-Aware Fine-Tuning for Diffusion Language Models

☆Governed Self-Improvement for Logical Reasoning: Edit-Time Governance for Developmental Consistency

☆Grounding the "Not": Symbolic Representation of Negation for Logical Reasoning in VLMs

☆GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning

☆HALLUCINATION AS MISCLASSIFICATION: A COMPOSITE ABSTENTION ARCHITECTURE FOR LANGUAGE MODEL OUTPUT CONTROL

☆How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment

☆Improving Reachability on Reasoning Puzzles

☆Interpreting Chain-of-thought Reasoning via Partial Information Decomposition

☆Interventional Grounding Audits: Black-Box Premise-Dependency Tests for LLM Chain-of-Thought via Predicate Substitution

☆interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors

☆INVESTIGATING EQUATION-ONLY REASONING IN LARGE LANGUAGE MODELS

☆KV Cache as a Reasoning Primitive for Long Context Reasoning

☆LaPep: Can Language Contribute to Property-Guided Peptide Design?

☆Large Language Models Generate Harmful Content Using a Unified Mechanism

☆Latent-Implicit Thinking with Proof-Carrying Neuro-Symbolic Outputs for Biomedical Discovery

A Causal Legal Reasoning Method for Judicial Subjective Questions via Key Legal Fact Identification

Actor-Curator: Co-adaptive curricula via policy-improvement bandits for post-training

Against Homogeneous Consensus: Why Scientific Discovery Requires Heterogeneous Adversarial LLM Agents

Agentic Proving for Program Verification

AGM-Bench: Do Large Language Models Revise Beliefs Rationally?

AI-BAAM: AI-Driven Bank Statement Analytics as Alternative Data for Malaysian MSME Credit Scoring

An Informal Logic LLM-Based Argumentation Framework

An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems

Are VLM Identity Judgments Logically Consistent? Evaluating Symmetry, Chain-of-Thought, and Transitivity in Person Re-Identification

AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency

AtomGraph: Reasoning Isn't Linear, Why Should Verification Be?

Autoformalizing Biomedical Text into Verified Knowledge Graph Reasoning: A Neuro-Symbolic Architecture for Alzheimer's Disease

Automatically Generating Hard Math Problems from Hypothesis-Driven Error Analysis

AVSAD: Automating Vector Symbolic Architecture Discovery with Iterative Evolution

Benchmark for Assessing Olfactory Perception of Large Language Models

Benchmarking Logical Reasoning Inconsistencies in Local Large Language Models: Evidence from Multi-Domain Evaluation

Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency

Beyond Clause Count: A Study of Proof-Relevant Difficulty in LLM SAT Reasoning

Beyond Rationalization: Criteria and Guidelines for Algorithmic Reasoning Traces in LLM Logical Reasoning

Beyond Self-Refinement: Ensembling and Chaining for Neurosymbolic Reasoning

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers

CausalSim: Counterfactual Implication Inversion as a Logical Consistency Stress Test for Large Language Models

Certified Coherent Reasoning for LLMs via Weighted MaxSAT and Belief-Revision Geometry

CFLBENCH: BENCHMARKING NOVEL CONTROL FLOW LANGUAGE LEARNING

Chain-of-Thought Injection as an Inference-Time Safety Intervention

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

Characterizing Backtracking in CoT through Internal Probes and Surface-Level Features

Commitment-Aware Axiomatic Coherence: Measuring Non-Vacuous Consistency in LMM Logical Reasoning

Confidence-Gated RAG for Adaptive Retrieval in Sequential Agents

Confident RAG: Enhancing the Performance of LLMs for Mathematics Question Answering through Multi-Embedding and Confidence Scoring

Configuration Perturbation Induces Logical Contradictions Across Related Queries

Constrained Wikigame: Benchmarking Deductive Reasoning for Multi-Step Planning

CONSTRAINING PROBABILITY WITH LOGIC: A SPECTRUM FROM STATISTICAL ALIGNMENT TO STRUCTURAL GUARANTEE

ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis

Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic

CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization

Debugging code world models

DECODING LOGICAL NEGATION IN LARGE LANGUAGE MODELS: FROM STATISTICAL HEURISTICS TO CAUSAL SEMANTIC CIRCUITS

Decoupling Reasoning from Action: Architectural Impacts on Agentic Planning Consistency

DEDUCTIVE CONSTRAINT SATISFACTION VS. PREVALENCE PRIORS: BENCHMARKING LLM LOGIC IN CLINICAL DIAGNOSTICS

DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models

Detecting Scaling Factors Beyond the Model: A Reporting Framework for AI Agent Systems

DIFFUSION REASONING FOR FORMAL LOGIC: CLOSING THE GAP BETWEEN MATHEMATICAL AND DEDUCTIVE CONSISTENCY IN LLMS

Distilling SMT Solver Reasoning into Compact Language Models

Do Depth-Grown Models Overcome the Curse of Depth? An In-Depth Analysis

Do LLM Recommenders Obey Preference Axioms? Testing Logical Rationality in LLM-Based Recommendation

Do Transformers Use Their Depth Adaptively? Evidence from a Relational Reasoning Task

Embedding Distance as a Reward Signal can replace Verifiers for LLM Reasoning

Emergent Reasoning via Recursive Latent Reinforcement Pretraining

Enforcing Logical Invariance in Large Language Models via Symmetry Pair Training

Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey

Enhancing LLMs in Legal Judgment Prediction via Neuro-Symbolic Reasoning

Entailment Closure Failures in Large Language Models: A Benchmark for Cross-Query Logical Consistency

Entropy Jurisprudence: Auditing Procedural Fidelity in LLM Normative Reasoning

ERA-GAC for Stable Structured Reasoning with Attention Priors and Gain-Aware Entropy Control

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Evaluation of Multi-Turn Consistency in LLM Agents: Survival Analysis and Failure-Rationale Taxonomy

Finny: A Multi-Agent System for Structured Decision-Making with LLMs

From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs

From Growing to Looping: A Unified View of Iterative Computation in LLMs

From Natural Language to Exact Cover: A Neuro-Symbolic Approach to Zebra Puzzles

Fully Asynchronous Federated Learning with Faster Convergence for LLM Reasoning

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

GIFT: Guided Importance-Aware Fine-Tuning for Diffusion Language Models

Governed Self-Improvement for Logical Reasoning: Edit-Time Governance for Developmental Consistency

Grounding the "Not": Symbolic Representation of Negation for Logical Reasoning in VLMs

GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning

HALLUCINATION AS MISCLASSIFICATION: A COMPOSITE ABSTENTION ARCHITECTURE FOR LANGUAGE MODEL OUTPUT CONTROL

How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment

Improving Reachability on Reasoning Puzzles

Interpreting Chain-of-thought Reasoning via Partial Information Decomposition

Interventional Grounding Audits: Black-Box Premise-Dependency Tests for LLM Chain-of-Thought via Predicate Substitution

interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors

INVESTIGATING EQUATION-ONLY REASONING IN LARGE LANGUAGE MODELS

KV Cache as a Reasoning Primitive for Long Context Reasoning

LaPep: Can Language Contribute to Property-Guided Peptide Design?

Large Language Models Generate Harmful Content Using a Unified Mechanism

Latent-Implicit Thinking with Proof-Carrying Neuro-Symbolic Outputs for Biomedical Discovery

Learning Reasoning Reward Models from Expert Demonstration via Inverse Reinforcement Learning