ICLR 2025PastMath & reasoningLarge language models

Workshop on Reasoning and Planning for Large Language Models

LLM_Reason_and_Plan

Official website ↗OpenReview venue ↗See all ICLR workshops →✎ Edit this entry

Submission deadline: Feb 9, 2025, 21:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (110)

Fetched from OpenReview (v2) on 2026-06-10.

A Simple Model of Inference Scaling Laws
Noam Itzhak Levi · PDF
Adaptive Self-improvement LLM Agentic System for ML Library Development
Genghan Zhang, Weixin Liang, Olivia Hsu, Kunle Olukotun · PDF
Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations
Yanshu Li · PDF
Agentic Knowledgeable Self-awareness
Shuofei Qiao, Zhisong Qiu, Baochang Ren, Xiaobin Wang, Xiangyuan Ru, Ningyu Zhang, Xiang Chen, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen · PDF
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction
Yiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong · PDF
ARIES: Stimulating Self-Refinement of Large Language Models with and for Iterative Preference Optimization
Yongcheng Zeng, Xuanfa Jin, Guoqing Liu, Quan He, Dong Li, Jianye HAO, Haifeng Zhang, Jun Wang · PDF
Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks
Fangru Lin, Shaoguang Mao, Emanuele La Malfa, Valentin Hofmann, Adrian de Wynter, Xun Wang, Si-Qing Chen, Michael J. Wooldridge, Janet B. Pierrehumbert, Furu Wei · PDF
Automating Evaluation of Creativity in LLMs with Semantic Entropy and Efficient Multi-Agent Judge
Tan Min Sen, Zachary Choy Kit Chun, Swaagat Bikash Saikia, Syed Ali Redha Alsagoff, Banerjee Mohor, Nadya Yuki Wangsajaya, Alvin Chan · PDF
AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind
Zhining Zhang, Chuanyang Jin, Mung Yao Jia, Tianmin Shu · PDF
Benchmarking Agentic Workflow Generation
Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen · PDF
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong · PDF
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou · PDF
Can Large Language Models Reason? A Characterization via 3-SAT
RISHI HAZRA, Gabriele Venturato, Pedro Zuidberg Dos Martires, Luc De Raedt · PDF
Chain-of-Thought Reasoning in the Wild is not Always Faithful
Iván Arcuschin, Jett Janiak, Robert Krzyzanowski, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy · PDF
Chain-of-Timeline: Enhancing LLM Zero-Shot Temporal Reasoning with SQL-Style Timeline Formalization
Jiaying Wu, Bryan Hooi · PDF
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
Yongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan · PDF
Cutting Through the Noise: Boosting LLM Performance on Math Word Problems
Ujjwala Anantheswaran, Himanshu Gupta, Kevin Scaria, Shreyas Verma, Chitta Baral, Swaroop Mishra · PDF
Decoupling the components of geometric understanding
Eliza Kosoy, Annya Dahmani, Andrew Kyle Lampinen, Iulia Maria Comsa, Soojin Jeong, Ishita Dasgupta, Kelsey R Allen · PDF
DEDUCE: DEDUCTIVE CONSISTENCY AS A FRAMEWORK TO EVALUATE LLM REASONING
Atharva Pandey, Kshitij Dubey, Rahul Sharma, Amit Sharma · PDF
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels
Zhe Xu, Jiasheng Ye, Xiaoran Liu, Xiangyang Liu, Tianxiang Sun, Zhigeng Liu, Qipeng Guo, Linlin Li, Qun Liu, Xuanjing Huang, Xipeng Qiu · PDF
Disentangling Exploration of Large Language Models by Optimal Exploitation
Tim Grams, Patrick Betz, Christian Bartelt · PDF
Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning
Chengsong Huang, Langlin Huang, Jiaxin Huang · PDF
Diving into Self-Evolve Training for Multimodal Reasoning
Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He · PDF
EcoAct: Economic Agent Determines When to Register What Action
Shaokun Zhang, Jieyu Zhang, Dujian Ding, Jiale Liu, Mirian Del Carmen Hipolito Garcia, Ankur Mallick, Daniel Madrigal, Menglin Xia, Victor Rühle, Qingyun Wu, Chi Wang · PDF
Enhancing Mathematical Reasoning in Language Models Through Focused Differentiation Training
Zhiyu Zhao, Yongcheng Zeng, Ning Yang, Zihan Zhao, Haifeng Zhang, Jun Wang, Guoqing Liu · PDF
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection
Yibo Yan, Shen Wang, Jiahao Huo, Hang Li, BOYAN LI, Jiamin Su, Xiong Gao, YiFan Zhang, Tianlong Xu, Zhendong Chu, Aoxiao Zhong, Kun Wang, Hui Xiong, Philip S. Yu, Xuming Hu, Qingsong Wen · PDF
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models
Sid Bharthulwar, John Rho, Katrina Brown · PDF
Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
Harshita Chopra, Chirag Shah · PDF
FLEX-TRAVELPLANNER: A BENCHMARK FOR FLEXIBLE PLANNING WITH LANGUAGE AGENTS
Juhyun Oh, Eunsu Kim, Alice Oh · PDF
GRAPE: Generalizing Robot Policy via Preference Alignment
Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Siwei Han, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao · PDF
IGDA: INTERACTIVE GRAPH DISCOVERY THROUGH LARGE LANGUAGE MODEL AGENTS
Alexander Havrilla, David Alvarez-Melis, Nicolo Fusi · PDF
Implicit Language Models are RNNs: Balancing Parallelization and Expressivity
Mark Schöne, Babak Rahmani, Heiner Kremer, Fabian Falck, Hitesh Ballani, Jannes Gladrow · PDF
Improving Test-Time Search for LLMs with Backtracking Against In-Context Value Verifiers
Anikait Singh, Kushal Arora, Sedrick Keh, Jean Mercat, Tatsunori Hashimoto, Chelsea Finn, Aviral Kumar · PDF
InductionBench: LLMs Fail in the Simplest Complexity Class
Wenyue Hua, Fei Sun, Liangming Pan, Adam Jardine, William Yang Wang · PDF
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models
Zhanke Zhou, Xuan Li, Zhaocheng Zhu, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han · PDF
Language Models Use Trigonometry to Do Addition
Subhash Kantamneni, Max Tegmark · PDF
Large Language Model-Enhanced Multi-Armed Bandits
Jiahang Sun, Zhiyong Wang, Runhan Yang, Chenjun Xiao, John C.S. Lui, Zhongxiang Dai · PDF
Large Language Models to Diffusion Finetuning
Edoardo Cetin, Tianyu Zhao, Yujin Tang · PDF
Learning to Defer for Causal Discovery with Imperfect Experts
Oscar Clivio, Divyat Mahajan, Perouz Taslakian, Sara Magliacane, Ioannis Mitliagkas, Valentina Zantedeschi, Alexandre Drouin · PDF
LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation
Xuan Zhang, Fengzhuo Zhang, Cunxiao Du, Chao Du, Tianyu Pang, Wei Gao, Min Lin · PDF
Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory
Nikola Zubic, Federico Soldà, Aurelio Sulser, Davide Scaramuzza · PDF
LLMs Are Not Good Strategists, Yet Memory-Enhanced Agency Boosts Reasoning
Yi Wu, Zhimin Hu · PDF
LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws
Prasanna Mayilvahanan, Thaddäus Wiedemer, Sayak Mallick, Matthias Bethge, Wieland Brendel · PDF
LM2: Large Memory Models for Long Context Reasoning
Jikun Kang, Wenqi Wu, Filippos Christianos, Alex James Chan, Fraser David Greenlee, George Thomas, Marvin Purtorab, Andrew Toulis · PDF
LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations
Anian Ruoss, Fabio Pardo, Harris Chan, Bonnie Li, Volodymyr Mnih, Tim Genewein · PDF
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving
Sara Rajaee, Kumar Pratik, Gabriele Cesa, Arash Behboodi · PDF
LogitGaze: Predicting Human Attention Using Semantic Information from Vision-Language Models
Dmitry Lvov, Ilya Pershin · PDF
LookPlanGraph: Embodied instruction following method with VLM graph augmentation
Anatoly Onishchenko, Alexey Kovalev, Aleksandr Panov · PDF
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini · PDF
MALT: Improving Reasoning with Multi-Agent LLM Training
Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Rafael Rafailov, Ivan Laptev, Philip Torr, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt · PDF
MAS-GPT: Training LLMs To Build LLM-Based Multi-Agent Systems
Rui Ye, Shuo Tang, Rui Ge, Yaxin Du, Zhenfei Yin, Jing Shao, Siheng Chen · PDF
MastermindEval: A Simple But Scalable Reasoning Benchmark
Jonas Golde, Patrick Haller, Fabio Barth, Alan Akbik · PDF
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations
Kaixuan Huang, Jiacheng Guo, Zihao Li, Xiang Ji, Jiawei Ge, Wenzhe Li, Yingqing Guo, Tianle Cai, Hui Yuan, Runzhe Wang, Yue Wu, Ming Yin, Shange Tang, Yangsibo Huang, Chi Jin, Xinyun Chen, Chiyuan Zhang, Mengdi Wang · PDF
Meta-Prompt Optimization for LLM-Based Sequential Decision Making
Mingze Kong, Zhiyong Wang, Yao Shu, Zhongxiang Dai · PDF
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
Shengkang Wang, Hongzhan Lin, Ziyang Luo, Zhen Ye, Guang Chen, Jing Ma · PDF
MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems
Anirudh Chari, Suraj Marpadga Reddy, Aditya Tiwari, Richard Lian, Brian Lee Zhou · PDF
MIR-Bench: Benchmarking LLM's Long-Context Intelligence via Many-Shot In-Context Inductive Reasoning
Kai Yan, Zhan Ling, Kang Liu, Yifan Yang, Ting-Han Fan, Lingfeng Shen, Zhengyin Du, Jiecao Chen · PDF
MMCode: Benchmarking Multimodal Large Language Models in Code Generation with Visually Rich Programming Problems
Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Zhiyong Huang, Jing Ma · PDF
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers (Abridged)
Shalev Lifshitz, Sheila A. McIlraith, Yilun Du · PDF
Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage
Zhi Gao, Bofei Zhang, Pengxiang Li, Xiaojian Ma, Tao Yuan, Yue Fan, Yuwei Wu, Yunde Jia, Song-Chun Zhu, Qing Li · PDF
Multi-Turn Code Generation Through Single-Step Rewards
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury · PDF
Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration
Qinglin Zhu, Runcong Zhao, Hanqi Yan, Yulan He, Yudong Chen, Lin Gui · PDF
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning
Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou · PDF
Offline Reinforcement Learning for LLM Multi-Step Reasoning
Huaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang, Yilin Bao, Ziran Yang, Yi Wu · PDF
On the Language of Thoughts in Large Language Models
Chenxi Liu, Yongqiang Chen, Tongliang Liu, James Cheng, Bo Han, Kun Zhang · PDF
Optimizing Test-Time Compute via Meta Reinforcement Finetuning
Yuxiao Qu, Matthew Y. R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar · PDF
PC-Agent: A Hierarchical Agentic Framework for Complex Task Automation on PC
Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang · PDF
PDE-Controller: LLMs for Autoformalization and Reasoning of PDEs
Mauricio Soroco, Jialin Song, Mengzhou Xia, Kye Emond, Weiran Sun, Wuyang Chen · PDF
PHYSICS: Benchmarking Foundation Models for Problem Solving in Physics
Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan · PDF
Plan$^\ast$RAG: Efficient Test-Time Planning for Retrieval Augmented Generation
Prakhar Verma, Sukruta Prakash Midigeshi, Gaurav Sinha, Arno Solin, Nagarajan Natarajan, Amit Sharma · PDF
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search
Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang · PDF
Rationalization Models for Text-to-SQL
Gaetano Rossiello, Nhan H Pham, Michael Glass, Junkyu Lee, Dharmashankar Subramanian · PDF
Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation
Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Fabian Falck, Risa Ueno, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez · PDF
Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs
Benjamin Estermann, Roger Wattenhofer · PDF
Reasoning3D - Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models
Tianrun Chen, Chunan Yu, Jing Li, Jianqi Zhang, Lanyun Zhu, Deyi Ji, Yong Zhang, Ying Zang, Lingyun Sun, Zejian Li · PDF
Refining Answer Distributions for Improved Large Language Model Reasoning
Soumyasundar Pal, Didier Chételat, Yingxue Zhang, Mark Coates · PDF
Reinforcement Learning in Inference Time: A Perspective from Successive Policy Iterations
Xinnan Zhang, Chenliang Li, Siliang Zeng, Jiaxiang Li, Zhongruo Wang, Songtao Lu, Alfredo Garcia, Mingyi Hong · PDF
Resolving Ambiguity through Personalization in LLM chat systems
Sophia Huiwen Sun, Abishek Sankararaman, Balakrishnan Murali Narayanaswamy · PDF
Rethinking Fine-tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning
Feng Chen, Allan Raventos, Nan Cheng, Surya Ganguli, Shaul Druckmann · PDF
Reveal the Mystery of DPO: The Connection between DPO and RL Algorithms
Xuerui Su, Yue Wang, Jinhua Zhu, Mingyang Yi, Feng Xu, Zhi-Ming Ma, Yuting Liu · PDF
Revealing chemical reasoning in LLMs through search on complex planning tasks
Andres M Bran, Théo A. Neukomm, Daniel P Armstrong, Zlatko Jončev, Philippe Schwaller · PDF
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification
Hyunseok Lee, Seunghyuk Oh, Jihoon Tack, Jaehyung Kim, Jinwoo Shin · PDF
RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner
Fu-Chieh Chang, Yu-Ting Lee, Hui-Ying Shih, Yi Hsuan Tseng, Pei-Yuan Wu · PDF
RuleArena: A Benchmark for LLM Rule-Guided Reasoning in Real-World Scenarios
Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang · PDF
s1: Simple test-time scaling
Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candes, Tatsunori Hashimoto · PDF
Scaling Flaws of Verifier-guided Search in Mathematical Reasoning
Fei Yu, Yingru Li, Benyou Wang · PDF
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
Xiyao Wang, Zhengyuan Yang, Linjie Li, Hongjin Lu, Yuancheng Xu, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang · PDF
ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use
Kaixin Li, Meng ziyang, Hongzhan Lin, Ziyang Luo, Yuchen Tian, Jing Ma, Zhiyong Huang, Tat-Seng Chua · PDF
Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst
Hongru WANG, Deng Cai, Wanjun Zhong, Shijue Huang, Jeff Z. Pan, Zeming Liu, Kam-Fai Wong · PDF
SiriuS: Self-improving Multi-agent Systems via Bootstrapped Reasoning
Wanjia Zhao, Mert Yuksekgonul, Shirley Wu, James Zou · PDF
Spectral Journey: How Transformers Predict the Shortest Path
Andrew Cohen, Andrey Gromov, Kaiyu Yang, Yuandong Tian · PDF
StochasTok: Improving Fine-Grained Subword Understanding in LLMs
Anya Sims, Cong Lu, Klara Kaleb, Jakob Nicolaus Foerster, Yee Whye Teh · PDF
Strategic LLM Decoding through Bayesian Games
Weitong Zhang, Chengqi Zang, Bernhard Kainz · PDF
TACO: Learning Multi-modal Models to Reason and Act with Synthetic Chains-of-Thought-and-Action
Zixian Ma, Jianguo Zhang, Zhiwei Liu, Jieyu Zhang, Juntao Tan, Manli Shu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Caiming Xiong, Ranjay Krishna, silvio savarese · PDF
Teaching Transformers Causal Reasoning through Axiomatic Training
Aniket Vashishtha, Abhinav Kumar, Atharva Pandey, Abbavaram Gowtham Reddy, Kabir Ahuja, Vineeth N. Balasubramanian, Amit Sharma · PDF
The in-context inductive biases of vision-language models differ across modalities
Kelsey R Allen, Eliza Kosoy, Ishita Dasgupta, Andrew Kyle Lampinen · PDF
Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization
Zishun Yu, Tengyu Xu, Di Jin, Karthik Abinav Sankararaman, Yun He, Wenxuan Zhou, Zhouhao Zeng, Eryk Helenowski, Chen Zhu, Sinong Wang, Hao Ma, Han Fang · PDF
Think to Ground: Improving Spatial Reasoning in LLMs for better Visual Grounding
Karun Sharma, Vidushee Vats · PDF
Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners
Daniele Paliotta, Junxiong Wang, Matteo Pagliardini, Kevin Li, Aviv Bick, Albert Gu, François Fleuret, Tri Dao · PDF
Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization
Yuchi Liu, Jaskirat Singh, Gaowen Liu, Ali Payani, Liang Zheng · PDF
Training Large Language Models to Reason in a Continuous Latent Space
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason E Weston, Yuandong Tian · PDF
TRIG-Bench: A Benchmark for Text-Rich Image Grounding
Ming Li, Ruiyi Zhang, Jian Chen, Tianyi Zhou · PDF
Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach
SHUANGYAN DENG, Haizhou Peng, Jiachen Xu, Chunhou Liu, Ciprian Doru Giurcaneanu, Jiamou Liu · PDF
UNDERSTANDING INFERENCE SCALING LAWS FOR MIXTURES OF LLMS
Alexander Havrilla, Srishti Gureja · PDF
Understanding Reasoning in Thinking Language Models via Steering Vectors
Constantin Venhoff, Iván Arcuschin, Philip Torr, Arthur Conmy, Neel Nanda · PDF
Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures
Fu-Chieh Chang, You-Chen Lin, Pei-Yuan Wu · PDF
Value-Based Deep RL Scales Predictably
Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Victor Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar · PDF
WebWalker: Benchmarking LLMs in Web Traversal
Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Zhou, Pengjun Xie, Fei Huang · PDF
When Debate Fails: Bias Reinforcement in Large Language Models
Jihwan Oh, Minchan Jeong, Jongwoo Ko, Se-Young Yun · PDF
When More is Less: Understanding Chain-of-Thought Length in LLMs
Yuyang Wu, Yifei Wang, Tianqi Du, Stefanie Jegelka, Yisen Wang · PDF

Accepted papers (110)

☆A Simple Model of Inference Scaling Laws

☆Adaptive Self-improvement LLM Agentic System for ML Library Development

☆Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations

☆Agentic Knowledgeable Self-awareness

☆Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

☆ARIES: Stimulating Self-Refinement of Large Language Models with and for Iterative Preference Optimization

☆Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

☆Automating Evaluation of Creativity in LLMs with Semantic Entropy and Efficient Multi-Agent Judge

☆AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind

☆Benchmarking Agentic Workflow Generation

☆BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

☆Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

☆Can Large Language Models Reason? A Characterization via 3-SAT

☆Chain-of-Thought Reasoning in the Wild is not Always Faithful

☆Chain-of-Timeline: Enhancing LLM Zero-Shot Temporal Reasoning with SQL-Style Timeline Formalization

☆CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

☆Cutting Through the Noise: Boosting LLM Performance on Math Word Problems

☆Decoupling the components of geometric understanding

☆DEDUCE: DEDUCTIVE CONSISTENCY AS A FRAMEWORK TO EVALUATE LLM REASONING

☆DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

☆Disentangling Exploration of Large Language Models by Optimal Exploitation

☆Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning

☆Diving into Self-Evolve Training for Multimodal Reasoning

☆EcoAct: Economic Agent Determines When to Register What Action

☆Enhancing Mathematical Reasoning in Language Models Through Focused Differentiation Training

☆ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection

☆Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models

☆Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations

☆FLEX-TRAVELPLANNER: A BENCHMARK FOR FLEXIBLE PLANNING WITH LANGUAGE AGENTS

☆GRAPE: Generalizing Robot Policy via Preference Alignment

☆IGDA: INTERACTIVE GRAPH DISCOVERY THROUGH LARGE LANGUAGE MODEL AGENTS

☆Implicit Language Models are RNNs: Balancing Parallelization and Expressivity

☆Improving Test-Time Search for LLMs with Backtracking Against In-Context Value Verifiers

☆InductionBench: LLMs Fail in the Simplest Complexity Class

☆Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

☆Language Models Use Trigonometry to Do Addition

☆Large Language Model-Enhanced Multi-Armed Bandits

☆Large Language Models to Diffusion Finetuning

☆Learning to Defer for Causal Discovery with Imperfect Experts

☆LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

☆Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory

☆LLMs Are Not Good Strategists, Yet Memory-Enhanced Agency Boosts Reasoning

☆LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

☆LM2: Large Memory Models for Long Context Reasoning

☆LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

☆Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving

☆LogitGaze: Predicting Human Attention Using Semantic Information from Vision-Language Models

☆LookPlanGraph: Embodied instruction following method with VLM graph augmentation

☆Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

☆MALT: Improving Reasoning with Multi-Agent LLM Training

☆MAS-GPT: Training LLMs To Build LLM-Based Multi-Agent Systems

☆MastermindEval: A Simple But Scalable Reasoning Benchmark

☆MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations

☆Meta-Prompt Optimization for LLM-Based Sequential Decision Making

☆MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

☆MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems

☆MIR-Bench: Benchmarking LLM's Long-Context Intelligence via Many-Shot In-Context Inductive Reasoning

☆MMCode: Benchmarking Multimodal Large Language Models in Code Generation with Visually Rich Programming Problems

☆Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers (Abridged)

☆Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage

☆Multi-Turn Code Generation Through Single-Step Rewards

☆Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration

☆OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

☆Offline Reinforcement Learning for LLM Multi-Step Reasoning

☆On the Language of Thoughts in Large Language Models

☆Optimizing Test-Time Compute via Meta Reinforcement Finetuning

☆PC-Agent: A Hierarchical Agentic Framework for Complex Task Automation on PC

☆PDE-Controller: LLMs for Autoformalization and Reasoning of PDEs

☆PHYSICS: Benchmarking Foundation Models for Problem Solving in Physics

☆Plan$^\ast$RAG: Efficient Test-Time Planning for Retrieval Augmented Generation

☆QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

☆Rationalization Models for Text-to-SQL

☆Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation

☆Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs

☆Reasoning3D - Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models

☆Refining Answer Distributions for Improved Large Language Model Reasoning

☆Reinforcement Learning in Inference Time: A Perspective from Successive Policy Iterations

☆Resolving Ambiguity through Personalization in LLM chat systems

☆Rethinking Fine-tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning

A Simple Model of Inference Scaling Laws

Adaptive Self-improvement LLM Agentic System for ML Library Development

Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations

Agentic Knowledgeable Self-awareness

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

ARIES: Stimulating Self-Refinement of Large Language Models with and for Iterative Preference Optimization

Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

Automating Evaluation of Creativity in LLMs with Semantic Entropy and Efficient Multi-Agent Judge

AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind

Benchmarking Agentic Workflow Generation

BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Can Large Language Models Reason? A Characterization via 3-SAT

Chain-of-Thought Reasoning in the Wild is not Always Faithful

Chain-of-Timeline: Enhancing LLM Zero-Shot Temporal Reasoning with SQL-Style Timeline Formalization

CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Cutting Through the Noise: Boosting LLM Performance on Math Word Problems

Decoupling the components of geometric understanding

DEDUCE: DEDUCTIVE CONSISTENCY AS A FRAMEWORK TO EVALUATE LLM REASONING

DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

Disentangling Exploration of Large Language Models by Optimal Exploitation

Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning

Diving into Self-Evolve Training for Multimodal Reasoning

EcoAct: Economic Agent Determines When to Register What Action

Enhancing Mathematical Reasoning in Language Models Through Focused Differentiation Training

ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection

Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models

Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations

FLEX-TRAVELPLANNER: A BENCHMARK FOR FLEXIBLE PLANNING WITH LANGUAGE AGENTS

GRAPE: Generalizing Robot Policy via Preference Alignment

IGDA: INTERACTIVE GRAPH DISCOVERY THROUGH LARGE LANGUAGE MODEL AGENTS

Implicit Language Models are RNNs: Balancing Parallelization and Expressivity

Improving Test-Time Search for LLMs with Backtracking Against In-Context Value Verifiers

InductionBench: LLMs Fail in the Simplest Complexity Class

Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Language Models Use Trigonometry to Do Addition

Large Language Model-Enhanced Multi-Armed Bandits

Large Language Models to Diffusion Finetuning

Learning to Defer for Causal Discovery with Imperfect Experts

LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation

Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory

LLMs Are Not Good Strategists, Yet Memory-Enhanced Agency Boosts Reasoning

LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

LM2: Large Memory Models for Long Context Reasoning

LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving

LogitGaze: Predicting Human Attention Using Semantic Information from Vision-Language Models

LookPlanGraph: Embodied instruction following method with VLM graph augmentation

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

MALT: Improving Reasoning with Multi-Agent LLM Training

MAS-GPT: Training LLMs To Build LLM-Based Multi-Agent Systems

MastermindEval: A Simple But Scalable Reasoning Benchmark

MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations

Meta-Prompt Optimization for LLM-Based Sequential Decision Making

MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems

MIR-Bench: Benchmarking LLM's Long-Context Intelligence via Many-Shot In-Context Inductive Reasoning

MMCode: Benchmarking Multimodal Large Language Models in Code Generation with Visually Rich Programming Problems

Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers (Abridged)

Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage

Multi-Turn Code Generation Through Single-Step Rewards

Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Offline Reinforcement Learning for LLM Multi-Step Reasoning

On the Language of Thoughts in Large Language Models

Optimizing Test-Time Compute via Meta Reinforcement Finetuning

PC-Agent: A Hierarchical Agentic Framework for Complex Task Automation on PC

PDE-Controller: LLMs for Autoformalization and Reasoning of PDEs

PHYSICS: Benchmarking Foundation Models for Problem Solving in Physics

Plan$^\ast$RAG: Efficient Test-Time Planning for Retrieval Augmented Generation

QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

Rationalization Models for Text-to-SQL

Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation

Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs

Reasoning3D - Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models

Refining Answer Distributions for Improved Large Language Model Reasoning

Reinforcement Learning in Inference Time: A Perspective from Successive Policy Iterations

Resolving Ambiguity through Personalization in LLM chat systems

Rethinking Fine-tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning

Reveal the Mystery of DPO: The Connection between DPO and RL Algorithms