NeurIPS 2025PastMath & reasoningLarge language models

First Workshop on Foundations of Reasoning in Language Models

FoRLM 2025

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 9, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (101)

Fetched from OpenReview (v2) on 2026-06-10.

"Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning"
Aman Sharma, Paras Chopra · PDF
ActivationReasoning: Logical Reasoning in Latent Activation Spaces
Lukas Helff, Ruben Härle, Wolfgang Stammer, Felix Friedrich, Manuel Brack, Antonia Wüst, Hikaru Shindo, Patrick Schramowski, Kristian Kersting · PDF
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
Joykirat Singh, Yash Pandya, Pranav Vajreshwari, Raghav Magazine, Akshay Nambi · PDF
ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Dongqi Zheng · PDF
Asking the Missing Piece: Context-Driven Clarification for Ambiguous VQA
Zongwan Cao, Bingbing Wen, Lucy Lu Wang · PDF
Benchmarking Temporal Reasoning: Can Large Language Models Navigate Time When Stories Refuse to Follow a Straight Line?
SUN Feifei, Ziyi Tong, Houjing WEI, Cheng Peng, Teeradaj Racharak, Le-Minh Nguyen · PDF
Benefits and Limitations of Communication in Multi-Agent Reasoning
Michael Rizvi-Martel, Satwik Bhattamishra, Neil Rathi, Guillaume Rabusseau, Michael Hahn · PDF
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
Zhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li · PDF
Beyond Introspection: Reinforcing Thinking via Externalist Behavioral Feedback
Diji Yang, Linda Zeng, Kezhen Chen, Yi Zhang · PDF
Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
Marius Dragoi, Ioana Pintilie, Florin Gogianu, Florin Brad · PDF
Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens
Kaya Stechly, Karthik Valmeekam, Vardhan Palod, Atharva Gundawar, Subbarao Kambhampati · PDF
Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability
Wen Xing, Artur Zolkowski · PDF
Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models
Yik Siu Chan, Zheng Xin Yong, Stephen Bach · PDF
CARE: Turning LLMs Into Causal Reasoning Expert
Juncheng Dong, Yiling Liu, Ahmed Aloui, Vahid Tarokh, David Carlson · PDF
CaRT: Teaching LLM Agents to Know When They Know Enough
Grace Liu, Yuxiao Qu, Jeff Schneider, Aarti Singh, Aviral Kumar · PDF
Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning
Sara Ghazanfari, Francesco Croce, Nicolas Flammarion, Prashanth Krishnamurthy, Farshad Khorrami, Siddharth Garg · PDF
Characterizing Deep Research: A Benchmark and Formal Definition
Abhinav Java, Ashmit Khandelwal, Sukruta Prakash Midigeshi, Aaron Halfaker, Amit Deshpande, Navin Goyal, Ankur Gupta, Nagarajan Natarajan, Amit Sharma · PDF
Characterizing good teachers for distillation using gradient features
Abhishek Panigrahi, Bingbin Liu, Sadhika Malladi, Sham M. Kakade, Surbhi Goel · PDF
Correct Reasoning Paths Visit Shared Decision Pivots
Dongkyu Cho, Amy B.Z. Zhang, Bilel Fehri, Sheng Wang, Rumi Chunara, Rui Song, Hengrui Cai · PDF
COSMIR: Chain Orchestrated Structured Memory for Iterative Reasoning over Long Context
Naman Gupta, Shreeyash Gowaikar, Arun Iyer, Kirankumar Shiragur, Ramakrishna B Bairi, Rishikesh Maurya, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta · PDF
Data Diversification Methods In Alignment Enhance Math Performance In LLMs
Berkan Dokmeci, Qingyang Wu, Ben Athiwaratkun, Ce Zhang, Shuaiwen Leon Song, James Zou · PDF
Decoupling the "What" and "Where" With Polar Coordinate Positional Embedding
Anand Gopalakrishnan, Róbert Csordás, Jürgen Schmidhuber, Michael Curtis Mozer · PDF
Deep sequence models tend to memorize geometrically, we do not understand why.
Shahriar Noroozizadeh, Vaishnavh Nagarajan, Elan Rosenfeld, Sanjiv Kumar · PDF
Deep Thinking via Recursive Self-Aggregation
Siddarth Venkatraman, Vineet Jain, Sarthak Mittal, Moksh Jain, Vedant Shah, Johan Obando-Ceron, Yoshua Bengio, Brian R. Bartoldson, Bhavya Kailkhura, Guillaume Lajoie, Glen Berseth, Nikolay Malkin · PDF
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan · PDF
Diagnosing Moral Reasoning: A Benchmark for Evaluating Consistency and Robustness in Large Language Models
Andrew Zhu · PDF
Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs
Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J Snoswell, Seth Lazar · PDF
Dormant Reasoning Circuits in RL-Trained Language Models
Noor Rahim, Ali Abdul Rahim · PDF
EAT: Entropy After $\langle/ \tt Think \rangle$ for reasoning model early exiting
Xi Wang, Lequn Wang, James McInerney, Nathan Kallus · PDF
Efficient First-Order Logic-Based Method for Enhancing Logical Reasoning Capabilities of LLMs
Wanzhen Fu, Haocheng Yang, Fengxiang Cheng, Fenrong Liu · PDF
Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code
Aniket Vashishtha, Qirun Dai, Hongyuan Mei, Chenhao Tan, Amit Sharma, Hao Peng · PDF
Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches
Remo Sasso, Michelangelo Conserva, Dominik Jeurissen, Paulo Rauber · PDF
Exploring System 1 and 2 communication for latent reasoning in LLMs
Julian Coda-Forno, Zhuokai Zhao, Qiang Zhang, Dipesh Tamboli, WEIWEI LI, Xiangjun Fan, Lizhu Zhang, Eric Schulz, Hsiao-Ping Tseng · PDF
Fathom-Search-4B: Unlocking Long-Horizon DeepSearch via RL
Shreyas Singh, Pradeep Moturi, Kunal Singh · PDF
FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions
Bowen Qin, Chen Yue, Jin-Ge Yao, Jing-Shu Zheng, Miguel Hu Chen, richeng xuan, Shibei Meng, Tong-Shuai Ren, Xi Yang, Xuejing Li, Yesheng Liu, Yonghua Lin, Zheqi He, Zhongyuan Wang · PDF
FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness
Anand Swaroop, Akshat Nallani, Saksham Uboweja, Adiliia Uzdenova, Michael Nguyen, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Vasu Sharma, Maheep Chaudhary · PDF
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alex Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab · PDF
GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning
Saku Peltonen, August Bøgh Rønberg, Andreas Plesner, Roger Wattenhofer · PDF
Grounding LLM Reasoning with Knowledge Graphs
Alfonso Amayuelas, Joy Prakash Sain, Simerjot Kaur, Charese Smiley · PDF
Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive Language Models
Vishal Pramanik, Maisha Maliha, Sumit Kumar Jha · PDF
Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis
Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu Vunnam, Samyadeep Basu, Reshmi Ghosh, Wenlong Zhao, Ali Naseh, Sriram Balasubramanian, Soundararajan Srinivasan · PDF
How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients
Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou · PDF
How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models
Parth Asawa, Alan Zhu, Matei Zaharia, Alex Dimakis, Joseph E. Gonzalez · PDF
Influence Functions for Efficient Data Selection in Reasoning
Prateek Humane, Paolo Cudrano, Daniel Z Kaplan, Matteo Matteucci, Supriyo Chakraborty, Irina Rish · PDF
Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction
Congchi Yin, Tianyi Wu, Yankai Shu, Alex Gu, Yun Han Wang, Jun Shao, xun jiang, Piji Li · PDF
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, huan liu · PDF
Is Random Attention Sufficient for Sequence Modeling?
Yihe Dong, Lorenzo Noci, Mikhail Khodak, Mufan Li · PDF
Label-Invariant Hessian Regularization Mitigates Grokking in Mathematical Reasoning
Hongyang R. Zhang, Zhenshuo Zhang, Jerry Weihong Liu, Christopher Re · PDF
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models
Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han · PDF
Language Models That Think, Chat Better
Adithya Bhaskar, Xi Ye, Danqi Chen · PDF
Learning Composable Chains-of-Thought
Fangcong Yin, Zeyu Leo Liu, Liu Leqi, Xi Ye, Greg Durrett · PDF
Learning to Answer from Correct Demonstrations
Nirmit Joshi, Gene Li, Siddharth Bhandari, Shiva Kasiviswanathan, Cong Ma, Nathan Srebro · PDF
Limits of Emergent Reasoning of Large Language Models in Agentic Frameworks for Deterministic Games
Chris Su, Harrison Li, Matheus Marques, George Flint · PDF
LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess
Sai Kolasani, Maxim Saplin, Nicholas Crispino, Kyle Montgomery, Jared Quincy Davis, Matei Zaharia, Chi Wang, Chenguang Wang · PDF
Lost at the Beginning of Reasoning
Baohao Liao, Xinyi Chen, Sara Rajaee, Yuhui Xu, Christian Herold, Anders Søgaard, Maarten de Rijke, Christof Monz · PDF
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning
Chengfei Wu, Ronald Seoh, Bingxuan Li, Liqiang Zhang, Fengrong Han, Dan Goldwasser · PDF
Monitor-Generate-Verify (MGV): Formalising Metacognitive Theory for Language Model Reasoning
Nick Oh, Fernand Gobet · PDF
Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs
Noah Ziems, Dilara Soylu, Lakshya A Agrawal, Isaac Miller, Liheng Lai, Chen Qian, Kaiqiang Song, Meng Jiang, Dan Klein, Matei Zaharia, Karel D'Oosterlinck, Christopher Potts, Omar Khattab · PDF
Multiple Token Divergence: A Measure of In-Context Computation Density
Vincent Herrmann, Eric Alcaide, Jürgen Schmidhuber · PDF
Murphy: Reflective Multi-Turn Reinforcement Learning for Self-Correcting Code Generation in Large Language
Chanakya Ekbote, Vijay Lingam, Behrooz Omidvar Tehrani, Jun Huan, sujay sanghavi, Anoop Deoras, Stefano Soatto · PDF
Not All Thoughts Matter: Selective Attention for Efficient Reasoning
Hao Tang, Guoqing Zheng, Kanishk Gandhi, Harkirat Behl, Vaishnavi Shrivastava, Mojan Javaheripi, Kevin Ellis, Shivam Garg, Dimitris Papailiopoulos · PDF
Observer, Not Player: Simulating Theory of Mind in Large Language Models through Game Observation
Jerry Wang, Ting Yu Liu · PDF
OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics
Yaoming Zhu, Junxin Wang, Yiyang Li, Xin Ding, Lin Qiu, ZongYu Wang, Jun Xu, Xuezhi Cao, Yuhuai Wei, Mingshi Wang, Xunliang Cai, Rong Ma · PDF
On the generalization of language models from in-context learning and finetuning: a controlled study
Andrew Kyle Lampinen, Arslan Chaudhry, Stephanie C.Y. Chan, Cody Wild, Diane Wan, Alexander Ku, Jörg Bornschein, Razvan Pascanu, Murray Shanahan, James Lloyd McClelland · PDF
On the Optimization Dynamics of RLVR: Gradient Gap and Step Size Scaling
Joe Suk, Yaqi Duan · PDF
On the Role of Temperature Sampling in Test-Time Scaling
Yuheng Wu, Thierry Tambe · PDF
OpenThoughts: Data Recipes for Reasoning Models
Etash Kumar Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Rea Sprague, Ashima Suvarna, Benjamin Feuer, Leon Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah M Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alex Dimakis, Ludwig Schmidt · PDF
Peek-a-Boo Reasoning: Contrastive Region Masking in MLLMs
Isha Chaturvedi, Anjana Nair, Yushen Li, Adhitya Rajendra Kumar, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Vasu Sharma · PDF
POLYMATH: A Challenging Multi-modal Mathematical Reasoning Benchmark
Himanshu Gupta, Shreyas Verma, Ujjwala Anantheswaran, Kevin Scaria, Mihir Parmar, Swaroop Mishra, Chitta Baral · PDF
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search
Yibo Wang, Haotian Luo, Huanjin Yao, Tiansheng Huang, Haiying He, Rui Liu, Naiqiang Tan, Jiaxing Huang, Xiaochun Cao, Dacheng Tao, Li Shen · PDF
Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features
Alex Heyman, Joel Zylberberg · PDF
Reasoning Through Chess: How Reasoning Evolves from Data Through Fine-Tuning and Reinforcement Learning
Lucas Dionisopoulos, Prithviraj Ammanabrolu, Nicklas Majamaki · PDF
Reasoning Up the Instruction Ladder for Controllable Language Models
Zishuo Zheng, Vidhisha Balachandran, Chan Young Park, Faeze Brahman, Sachin Kumar · PDF
Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets
Marylou Fauchard, Florian Carichon, Margarida Carvalho, Golnoosh Farnadi · PDF
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
Chung-En Sun · PDF
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah · PDF
Representational Homomorphism Error Predicts Compositional Generalization In Language Models
Zhiyu An, Wan Du · PDF
Reverse-KL Reinforcement Learning Can Sample From Multiple Diverse Modes
Anthony GX-Chen, Jatin Prakash, Rob Fergus, Rajesh Ranganath · PDF
RL Fine-Tuning Heals the OOD Forgetting in SFT
Hangzhan Jin, Sitao Luan, Sicheng Lyu, Guillaume Rabusseau, Doina Precup, Mohammad Hamdaqa · PDF
RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs
Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati · PDF
RoBoN: Routed Online Best-of-n for Test-Time Scaling with Multiple LLMs
Jonathan Geuter, Gregor Kornhardt · PDF
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
Vaishnavi Shrivastava, Ahmed Hassan Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos · PDF
Scratchpad Thinking: Alternation Between Storage and Computation in Latent Reasoning Models
Sayam Goyal, Brad Peters, María Emilia Granda, Akshath Vijayakumar Narmadha, Dharunish Yugeswardeenoo, Callum Stuart McDougall, Sean O'Brien, Ashwinee Panda, Kevin Zhu, Cole Blondin · PDF
Skill-Targeted Adaptive Training
Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora · PDF
SLR: Automated Synthesis for Scalable Logical Reasoning
Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia Wüst, Hikaru Shindo, Tim Woydt, Rupert Mitchell, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting · PDF
Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards
Jan Niklas Groeneveld, Xi Qin, Alexander Schaefer, Yaad Oren · PDF
Steering LLMs’ Reasoning With Activation State Machines
Ian Li, Philip Chen, Max Huang, Andrew Park, Loris D'Antoni, Rose Yu · PDF
T-FIX: Text-Based Explanations with Features Interpretable to eXperts
Shreya Havaldar, Helen Jin, Chaehyeon Kim, Anton Xue, Weiqiu You, Gary E. Weissman, Rajat Deo, Sameed Ahmed M. Khatana, Helen Qu, Marco Gatti, Daniel A Hashimoto, Amin Madani, Masao Sako, Bhuvnesh Jain, Lyle Ungar, Eric Wong · PDF
TATTO: Tool-Augmented Thinking PRM for Tabular Reasoning
Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Jingrui He, Sumit Negi · PDF
Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Kuang-Da Wang, Teng-Ruei Chen, Yu Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh · PDF
The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLMs
Nikolaus Howe, Micah Carroll · PDF
To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models
Zihao Zhu, Hongbao ZHANG, Ruotong Wang, Ke Xu, Siwei Lyu, Baoyuan Wu · PDF
TokUR: Token-Level Uncertainty Estimation for Large Language Mode Reasoning
Tunyu Zhang, Haizhou Shi, Yibin Wang, Hengyi Wang, Xiaoxiao He, Zhuowei Li, Haoxian Chen, Ligong Han, Kai Xu, Huan Zhang, Dimitris N. Metaxas, Hao Wang · PDF
Towards Understanding the Optimization Landscape of GRPO and its Variants
Samyak Jain, Ayush Agrawal, Navin Goyal · PDF
Tracing the Traces: Latent-Space Metrics for Efficient and Accurate Reasoning
Martina G. Vilas, Safoora Yousefi, Besmira Nushi, Eric Horvitz, Vidhisha Balachandran · PDF
TS-Agent: A Time Series Reasoning Agent with Iterative Statistical Insight Gathering
Penghang Liu, Elizabeth Fons, Svitlana Vyetrenko, Daniel Borrajo, Vamsi K. Potluru, Manuela Veloso · PDF
Understanding the Test-Time Computing of Transformers: A Theoretical Study on In-Context Linear Regression
Xingwu Chen, Miao Lu, Beining Wu, Difan Zou · PDF
UQ: Assessing Language Models on Unsolved Questions
Fan Nie, Ken Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff · PDF
Variation in Verification: Understanding Verification Dynamics in Large Language Models
Yefan Zhou, Austin Xu, Yilun Zhou, Janvijay Singh, Jiang Gui, Shafiq Joty · PDF
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
Boammani Aser Lompo · PDF
Weak-to-Strong Generalization with Failure Trajectories
Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui · PDF

Accepted papers (101)

☆"Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning"

☆ActivationReasoning: Logical Reasoning in Latent Activation Spaces

☆Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

☆ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

☆Asking the Missing Piece: Context-Driven Clarification for Ambiguous VQA

☆Benchmarking Temporal Reasoning: Can Large Language Models Navigate Time When Stories Refuse to Follow a Straight Line?

☆Benefits and Limitations of Communication in Multi-Agent Reasoning

☆Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

☆Beyond Introspection: Reinforcing Thinking via Externalist Behavioral Feedback

☆Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries

☆Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens

☆Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability

☆Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models

☆CARE: Turning LLMs Into Causal Reasoning Expert

☆CaRT: Teaching LLM Agents to Know When They Know Enough

☆Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning

☆Characterizing Deep Research: A Benchmark and Formal Definition

☆Characterizing good teachers for distillation using gradient features

☆Correct Reasoning Paths Visit Shared Decision Pivots

☆COSMIR: Chain Orchestrated Structured Memory for Iterative Reasoning over Long Context

☆Data Diversification Methods In Alignment Enhance Math Performance In LLMs

☆Decoupling the "What" and "Where" With Polar Coordinate Positional Embedding

☆Deep sequence models tend to memorize geometrically, we do not understand why.

☆Deep Thinking via Recursive Self-Aggregation

☆Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

☆Diagnosing Moral Reasoning: A Benchmark for Evaluating Consistency and Robustness in Large Language Models

☆Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

☆Dormant Reasoning Circuits in RL-Trained Language Models

☆EAT: Entropy After $\langle/ \tt Think \rangle$ for reasoning model early exiting

☆Efficient First-Order Logic-Based Method for Enhancing Logical Reasoning Capabilities of LLMs

☆Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code

☆Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches

☆Exploring System 1 and 2 communication for latent reasoning in LLMs

☆Fathom-Search-4B: Unlocking Long-Horizon DeepSearch via RL

☆FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

☆FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness

☆GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

☆GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning

☆Grounding LLM Reasoning with Knowledge Graphs

☆Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive Language Models

☆Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

☆How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

☆How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models

☆Influence Functions for Efficient Data Selection in Reasoning

☆Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction

☆Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

☆Is Random Attention Sufficient for Sequence Modeling?

☆Label-Invariant Hessian Regularization Mitigates Grokking in Mathematical Reasoning

☆Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

☆Language Models That Think, Chat Better

☆Learning Composable Chains-of-Thought

☆Learning to Answer from Correct Demonstrations

☆Limits of Emergent Reasoning of Large Language Models in Agentic Frameworks for Deterministic Games

☆LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess

☆Lost at the Beginning of Reasoning

☆MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning

☆Monitor-Generate-Verify (MGV): Formalising Metacognitive Theory for Language Model Reasoning

☆Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

☆Multiple Token Divergence: A Measure of In-Context Computation Density

☆Murphy: Reflective Multi-Turn Reinforcement Learning for Self-Correcting Code Generation in Large Language

☆Not All Thoughts Matter: Selective Attention for Efficient Reasoning

☆Observer, Not Player: Simulating Theory of Mind in Large Language Models through Game Observation

☆OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics

☆On the generalization of language models from in-context learning and finetuning: a controlled study

☆On the Optimization Dynamics of RLVR: Gradient Gap and Step Size Scaling

☆On the Role of Temperature Sampling in Test-Time Scaling

☆OpenThoughts: Data Recipes for Reasoning Models

☆Peek-a-Boo Reasoning: Contrastive Region Masking in MLLMs

☆POLYMATH: A Challenging Multi-modal Mathematical Reasoning Benchmark

☆R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

☆Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features

☆Reasoning Through Chess: How Reasoning Evolves from Data Through Fine-Tuning and Reinforcement Learning

☆Reasoning Up the Instruction Ladder for Controllable Language Models

☆Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets

☆ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

☆Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

☆Representational Homomorphism Error Predicts Compositional Generalization In Language Models

☆Reverse-KL Reinforcement Learning Can Sample From Multiple Diverse Modes

☆RL Fine-Tuning Heals the OOD Forgetting in SFT

"Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning"

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Asking the Missing Piece: Context-Driven Clarification for Ambiguous VQA

Benchmarking Temporal Reasoning: Can Large Language Models Navigate Time When Stories Refuse to Follow a Straight Line?

Benefits and Limitations of Communication in Multi-Agent Reasoning

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

Beyond Introspection: Reinforcing Thinking via Externalist Behavioral Feedback

Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries

Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens

Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability

Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models

CARE: Turning LLMs Into Causal Reasoning Expert

CaRT: Teaching LLM Agents to Know When They Know Enough

Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning

Characterizing Deep Research: A Benchmark and Formal Definition

Characterizing good teachers for distillation using gradient features

Correct Reasoning Paths Visit Shared Decision Pivots

COSMIR: Chain Orchestrated Structured Memory for Iterative Reasoning over Long Context

Data Diversification Methods In Alignment Enhance Math Performance In LLMs

Decoupling the "What" and "Where" With Polar Coordinate Positional Embedding

Deep sequence models tend to memorize geometrically, we do not understand why.

Deep Thinking via Recursive Self-Aggregation

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Diagnosing Moral Reasoning: A Benchmark for Evaluating Consistency and Robustness in Large Language Models

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Dormant Reasoning Circuits in RL-Trained Language Models

EAT: Entropy After $\langle/ \tt Think \rangle$ for reasoning model early exiting

Efficient First-Order Logic-Based Method for Enhancing Logical Reasoning Capabilities of LLMs

Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code

Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches

Exploring System 1 and 2 communication for latent reasoning in LLMs

Fathom-Search-4B: Unlocking Long-Horizon DeepSearch via RL

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning

Grounding LLM Reasoning with Knowledge Graphs

Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive Language Models

Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models

Influence Functions for Efficient Data Selection in Reasoning

Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Is Random Attention Sufficient for Sequence Modeling?

Label-Invariant Hessian Regularization Mitigates Grokking in Mathematical Reasoning

Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Language Models That Think, Chat Better

Learning Composable Chains-of-Thought

Learning to Answer from Correct Demonstrations

Limits of Emergent Reasoning of Large Language Models in Agentic Frameworks for Deterministic Games

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess

Lost at the Beginning of Reasoning

MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning

Monitor-Generate-Verify (MGV): Formalising Metacognitive Theory for Language Model Reasoning

Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

Multiple Token Divergence: A Measure of In-Context Computation Density

Murphy: Reflective Multi-Turn Reinforcement Learning for Self-Correcting Code Generation in Large Language

Not All Thoughts Matter: Selective Attention for Efficient Reasoning

Observer, Not Player: Simulating Theory of Mind in Large Language Models through Game Observation

OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics

On the generalization of language models from in-context learning and finetuning: a controlled study

On the Optimization Dynamics of RLVR: Gradient Gap and Step Size Scaling

On the Role of Temperature Sampling in Test-Time Scaling

OpenThoughts: Data Recipes for Reasoning Models

Peek-a-Boo Reasoning: Contrastive Region Masking in MLLMs

POLYMATH: A Challenging Multi-modal Mathematical Reasoning Benchmark

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features

Reasoning Through Chess: How Reasoning Evolves from Data Through Fine-Tuning and Reinforcement Learning

Reasoning Up the Instruction Ladder for Controllable Language Models

Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

Representational Homomorphism Error Predicts Compositional Generalization In Language Models

Reverse-KL Reinforcement Learning Can Sample From Multiple Diverse Modes

RL Fine-Tuning Heals the OOD Forgetting in SFT

RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs