NeurIPS 2024PastMath & reasoningML systems

The First Workshop on System-2 Reasoning at Scale, NeurIPS'24

Sys2-Reasoning

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 27, 2024, 10:41 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (50)

Fetched from OpenReview (v2) on 2026-06-10.

A Llama Sunk My Battleship! Asking Rational Questions with LLMs via Bayesian Inference
Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum · PDF
Algorithmic Language Models with Neurally Compiled Libraries
Lucas Paul Saldyt, Subbarao Kambhampati · PDF
ALTA: Compiler-Based Analysis of Transformers
Peter Shaw, James Cohan, Jacob Eisenstein, Kenton Lee, Jonathan Berant, Kristina Toutanova · PDF
Automated Design of Agentic Systems
Shengran Hu, Cong Lu, Jeff Clune · PDF
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad?
Antonia Wüst, Tim Tobiasch, Lukas Helff, Devendra Singh Dhami, Constantin A. Rothkopf, Kristian Kersting · PDF
Can Language Models Perform Implicit Bayesian Inference Over User Preference States?
Linlu Qiu, Fei Sha, Kelsey R Allen, Yoon Kim, Tal Linzen, Sjoerd van Steenkiste · PDF
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs
Siyuan Wang, zhongyu wei, Yejin Choi, Xiang Ren · PDF
Can Stories Help LLMs Reason? Curating Information Space Through Narrative
Vahid Sadiri Javadi, Johanne Trippas, Lucie Flek · PDF
CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of Large Language Models
ZEYU WANG · PDF
Compositional Generalization Across Distributional Shifts with Sparse Tree Operations
Paul Soulos, Henry Conklin, Mattia Opper, Paul Smolensky, Jianfeng Gao, Roland Fernandez · PDF
Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning
Harry Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio · PDF
CryptoFormalEval: Integrating Large Language Models and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection
Cristian Curaba, D'Ambrosi Denis, Alessandro Minisini · PDF
Diffusion On Syntax Trees For Program Synthesis
Shreyas Kapur, Erik Jenner, Stuart Russell · PDF
Distilling System 2 into System 1
Ping Yu, Jing Xu, Jason E Weston, Ilia Kulikov · PDF
Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules
Binxu Wang, Jiaqi Shang, Haim Sompolinsky · PDF
Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning
Wasu Top Piriyakulkij, Cassidy Langenfeld, Tuan Anh Le, Kevin Ellis · PDF
Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus
Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa · PDF
Equitable Access to Justice: Logical LLMs Show Promise
Manuj Kant, Marzieh Nabi, Manav Kant, Preston Carlson, Megan Ma · PDF
From Isolated Conversations to Hierarchical Schemas: Dynamic Tree Memory Representation for LLMs
Alireza Rezazadeh, Zichao Li, Wei Wei, Yujia Bao · PDF
Generative Verifiers: Reward Modeling as Next-Token Prediction
Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, Rishabh Agarwal · PDF
Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning
Yifeng Ding, Hantian Ding, Shiqi Wang, Qing Sun, Varun Kumar, Zijian Wang · PDF
Implicit Reasoning in Deep Time Series Forecasting
Willa Potosnak, Cristian Ignacio Challu, Mononito Goswami, Michał Wiliński, Nina Żukowska, Artur Dubrawski · PDF
Improving LLM Generation with Inverse and Forward Alignment: Reward Modeling, Prompting, Fine-Tuning, and Inference-Time Optimization
Hao Sun, Thomas Pouplin, Nicolás Astorga, Tennison Liu, Mihaela van der Schaar · PDF
Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents
Quentin Delfosse, Sebastian Sztwiertnia, Mark Rothermel, Wolfgang Stammer, Kristian Kersting · PDF
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints
Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng · PDF
LLMs on interactive feature collections with implicit look-ahead strategies
Juyeon Heo, Vihari Piratla, Kyunghyun Lee, Hyonkeun Joh, Adrian Weller · PDF
Logically Consistent Language Models via Neuro-Symbolic Integration
Diego Calanzone, Stefano Teso, Antonio Vergari · PDF
MemReasoner: A Memory-augmented LLM Architecture for Multi-hop Reasoning
Ching-Yun Ko, Sihui Dai, Payel Das, Georgios Kollias, Subhajit Chaudhury, Aurelie Lozano · PDF
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning
Yuxi Xie, Anirudh Goyal, Wenyue Zheng, Min-Yen Kan, Timothy P Lillicrap, Kenji Kawaguchi, Michael Shieh · PDF
MovieCORE: COgnitive REasoning in Movies
Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Shang-Hong Lai, Winston H. Hsu · PDF
Not All LLM Reasoners Are Created Equal
Arian Hosseini, Alessandro Sordoni, Daniel Kenji Toyama, Aaron Courville, Rishabh Agarwal · PDF
Planning in Natural Language Improves LLM Search for Code Generation
Evan Z Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, William Song, Vaskar Nath, Ziwen Han, Sean M. Hendryx, Summer Yue, Hugh Zhang · PDF
Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning
Matthew Ho, Vincent Zhu, Xiaoyin Chen, Moksh Jain, Nikolay Malkin, Edwin Zhang · PDF
PROOF OF THOUGHT : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning
Debargha Ganguly, Srinivasan Iyengar, Vipin Chaudhary, Shivkumar Kalyanaraman · PDF
Rational Metareasoning for Large Language Models
C. Nicolò De Sabbata, Theodore Sumers, Thomas L. Griffiths · PDF
Reasoning Abilities of Large Language Models through the Lens of Abstraction and Reasoning
Seungpil Lee, Woochang Sim, Donghyeon Shin, Sejin Kim, Sundong Kim · PDF
Recurrent Transformers Trade-off Parallelism for Length Generalization on Regular Languages
Paul Soulos, Aleksandar Terzic, Michael Hersche, Abbas Rahimi · PDF
Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning
Sergio Hernández-Gutiérrez, Minttu Alakuijala, Alexander V Nikitin, Pekka Marttinen · PDF
Sampling Language from Latent System 2 Reasoning
Celine Lee, Md Arafat Sultan, Tahira Naseem, Alexander M Rush, Ramón Fernandez Astudillo · PDF
softmax is not enough (for sharp out-of-distribution)
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu · PDF
STaR: Benchmarking Spatio-Temporal Reasoning for Systematic Generalization
Irtaza Khalid, Steven Schockaert · PDF
System 1.5: Designing Metacognition in Artificial Intelligence
Nick Oh, Fernand Gobet · PDF
System 2 Reasoning Capabilities Are Nigh
Scott C. Lowe · PDF
System-2 Reasoning via Generality and Adaptation
Sejin Kim, Sundong Kim · PDF
The Turing Game
Michal Lewandowski, Simon Lucas Schmid, Patrick Mederitsch, Alexander Aufreiter, Gregor Aichinger, Felix Nessler, Severin Bergsmann, Viktor Szolga, Tobias Halmdienst, Bernhard Nessler · PDF
Thinking Fast and Laterally: Multi-Agentic Approach for Reasoning about Uncertain Emerging Events
Stefan Dernbach, Alejandro Michel, Khushbu Agarwal, Christopher Brissette, geetika gupta, Sutanay Choudhury · PDF
Thought of Search: Planning with Language Models Through The Lens of Efficiency
Michael Katz, Harsha Kokel, Kavitha Srinivas, Shirin Sohrabi · PDF
VCR: Visual Caption Restoration
Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio · PDF
World Models for Web Agents
Hyungjoo Chae, Namyoung Kim, Minju Gwak, Gwanwoo Song, Jihoon Kim, Kai Tzu-iunn Ong, Sunghwan Kim, Dongha Lee, Jinyoung Yeo · PDF
Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers
MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic · PDF

Accepted papers (50)

☆A Llama Sunk My Battleship! Asking Rational Questions with LLMs via Bayesian Inference

☆Algorithmic Language Models with Neurally Compiled Libraries

☆ALTA: Compiler-Based Analysis of Transformers

☆Automated Design of Agentic Systems

☆Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad?

☆Can Language Models Perform Implicit Bayesian Inference Over User Preference States?

☆Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

☆Can Stories Help LLMs Reason? Curating Information Space Through Narrative

☆CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of Large Language Models

☆Compositional Generalization Across Distributional Shifts with Sparse Tree Operations

☆Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning

☆CryptoFormalEval: Integrating Large Language Models and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection

☆Diffusion On Syntax Trees For Program Synthesis

☆Distilling System 2 into System 1

☆Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules

☆Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning

☆Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus

☆Equitable Access to Justice: Logical LLMs Show Promise

☆From Isolated Conversations to Hierarchical Schemas: Dynamic Tree Memory Representation for LLMs

☆Generative Verifiers: Reward Modeling as Next-Token Prediction

☆Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

☆Implicit Reasoning in Deep Time Series Forecasting

☆Improving LLM Generation with Inverse and Forward Alignment: Reward Modeling, Prompting, Fine-Tuning, and Inference-Time Optimization

☆Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents

☆LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints

☆LLMs on interactive feature collections with implicit look-ahead strategies

☆Logically Consistent Language Models via Neuro-Symbolic Integration

☆MemReasoner: A Memory-augmented LLM Architecture for Multi-hop Reasoning

☆Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning

☆MovieCORE: COgnitive REasoning in Movies

☆Not All LLM Reasoners Are Created Equal

☆Planning in Natural Language Improves LLM Search for Code Generation

☆Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning

☆PROOF OF THOUGHT : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning

☆Rational Metareasoning for Large Language Models

☆Reasoning Abilities of Large Language Models through the Lens of Abstraction and Reasoning

☆Recurrent Transformers Trade-off Parallelism for Length Generalization on Regular Languages

☆Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning

☆Sampling Language from Latent System 2 Reasoning

☆softmax is not enough (for sharp out-of-distribution)

☆STaR: Benchmarking Spatio-Temporal Reasoning for Systematic Generalization

☆System 1.5: Designing Metacognition in Artificial Intelligence

☆System 2 Reasoning Capabilities Are Nigh

☆System-2 Reasoning via Generality and Adaptation

☆The Turing Game

☆Thinking Fast and Laterally: Multi-Agentic Approach for Reasoning about Uncertain Emerging Events

☆Thought of Search: Planning with Language Models Through The Lens of Efficiency

☆VCR: Visual Caption Restoration

☆World Models for Web Agents

☆Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers

A Llama Sunk My Battleship! Asking Rational Questions with LLMs via Bayesian Inference

Algorithmic Language Models with Neurally Compiled Libraries

ALTA: Compiler-Based Analysis of Transformers

Automated Design of Agentic Systems

Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad?

Can Language Models Perform Implicit Bayesian Inference Over User Preference States?

Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

Can Stories Help LLMs Reason? Curating Information Space Through Narrative

CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of Large Language Models

Compositional Generalization Across Distributional Shifts with Sparse Tree Operations

Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning

CryptoFormalEval: Integrating Large Language Models and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection

Diffusion On Syntax Trees For Program Synthesis

Distilling System 2 into System 1

Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules

Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning

Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus

Equitable Access to Justice: Logical LLMs Show Promise

From Isolated Conversations to Hierarchical Schemas: Dynamic Tree Memory Representation for LLMs

Generative Verifiers: Reward Modeling as Next-Token Prediction

Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning

Implicit Reasoning in Deep Time Series Forecasting

Improving LLM Generation with Inverse and Forward Alignment: Reward Modeling, Prompting, Fine-Tuning, and Inference-Time Optimization

Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents

LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints

LLMs on interactive feature collections with implicit look-ahead strategies

Logically Consistent Language Models via Neuro-Symbolic Integration

MemReasoner: A Memory-augmented LLM Architecture for Multi-hop Reasoning

Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning

MovieCORE: COgnitive REasoning in Movies

Not All LLM Reasoners Are Created Equal

Planning in Natural Language Improves LLM Search for Code Generation

Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning

PROOF OF THOUGHT : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning

Rational Metareasoning for Large Language Models

Reasoning Abilities of Large Language Models through the Lens of Abstraction and Reasoning

Recurrent Transformers Trade-off Parallelism for Length Generalization on Regular Languages

Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning

Sampling Language from Latent System 2 Reasoning

softmax is not enough (for sharp out-of-distribution)

STaR: Benchmarking Spatio-Temporal Reasoning for Systematic Generalization

System 1.5: Designing Metacognition in Artificial Intelligence

System 2 Reasoning Capabilities Are Nigh

System-2 Reasoning via Generality and Adaptation

The Turing Game

Thinking Fast and Laterally: Multi-Agentic Approach for Reasoning about Uncertain Emerging Events

Thought of Search: Planning with Language Models Through The Lens of Efficiency

VCR: Visual Caption Restoration

World Models for Web Agents

Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers