NeurIPS 2025PastOther

NeurIPS 2025 Fourth Workshop on Deep Learning for Code

DL4C @ NeurIPS 2025

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Aug 28, 2025, 20:00 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (69)

Fetched from OpenReview (v2) on 2026-06-10.

A Matter of Representation: Towards Graph-Based Abstract Code Generation
Nyx Audrey Angelo Iskandar, Hisham Bedri, Andy Tsen · PDF
A Note on the Code Quality Score System: LLMs for Maintainable Large Codebases
Jalaj Bhandari, Sherman Wong, Fan Yang · PDF
Adapting Language Models for Low-Resource Programming Languages
Ananya Singha, Mukul Singh, Hosein Hasanbeig, Arjun Radhakrishna, Sumit Gulwani · PDF
Advancing Environment Setup LLMs through Online Reinforcement Learning
Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov · PDF
Agentic Property-Based Testing: Finding Bugs Across the Python Ecosystem
Muhammad Maaz, Liam DeVoe, Zac Hatfield-Dodds, Nicholas Carlini · PDF
Agint: Agentic Graph Compilation for Software Engineering Agents
Abhiram Chivukula, Jay Somasundaram, Vijay Somasundaram · PDF
Asm2SrcEval: Evaluating Large Language Models for Assembly to Source Code Translation
Parisa Hamedi, Hamed Jelodar, Samita Bai, Mohammad Meymani, Roozbeh Razavi-Far, Ali A. Ghorbani · PDF
Astra: A Multi-Agent System for GPU Kernel Performance Optimization
Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken · PDF
Beyond Accuracy: Realistic and Diagnostic Evaluation of Code Generation Models
Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu · PDF
BUILD-BENCH: Benchmarking LLM Agents on Compiling Real-World Open-Source Software
Zehua Zhang, Ati Priya Bajaj, Divij Handa, Siyu Liu, Arvind S Raj, Hongkai Chen, Hulin Wang, Yibo Liu, Zion Leonahenahe Basque, Souradip Nath, Vishal Juneja, Nikhil Chapre, Yan Shoshitaishvili, Adam Doupe, Chitta Baral, Ruoyu Wang · PDF
Can Test-Time Compute Help LLMs Write Low-Resource Parallel Code Better?
Gautam Singh, Arjun Guha, Bhavya Kailkhura, Harshitha Menon · PDF
ChopChop: Semantically Constraining the Code Output of Language Models
Shaan Nagy, Timothy Zhou, Nadia Polikarpova, Loris D'Antoni · PDF
Code2Video: A Code-centric Paradigm for Educational Video Generation
Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou · PDF
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis
Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken · PDF
CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback
Qiushi Sun, Jingyang Gong, Qipeng Guo, Lei Li, Fei Yuan · PDF
CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs
Hanxi Guo, Siyuan Cheng, Kaiyuan Zhang, Guangyu Shen, Xiangyu Zhang · PDF
CoDyn: Dynamic LLM Routing for Coding Tasks
Mirazul Haque, Petr Babkin, Vali Tawosi, Saba Rahimi, Natraj Raman, Xiaomo Liu · PDF
Constrained Decoding of Diffusion LLMs with Context-Free Grammars
Niels Mündler, Jasper Dekoninck, Martin Vechev · PDF
Cyber-Zero: Training Cybersecurity Agents without Runtime
Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang · PDF
Deep-Reproducer: From Paper Understanding to Code Generation
Pengcheng Chen, Ning Yan, Zihan Zhao, Yixiao Lin, Huaibo Chen, Yue Hu, Qinbo Bai, Xiang Li, Masood S. Mortazavi · PDF
Demystify the Potential of Large Language Models as General-Purpose Surrogate Code Executors
Bohan Lyu, Siqiao Huang, Zichen Liang, Wenjia Yang, Qian Sun, Jiaming Zhang · PDF
Diff-XYZ: A Benchmark for Evaluating Diff Understanding
Evgeniy Glukhov, Michele Conti, Egor Bogomolov, Yaroslav Golubev, Alex Bezzubov · PDF
DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code
Shriyansh Agrawal, Aidan Lau, Sanyam Shah, Ahan M R, Kevin Zhu, Sunishchal Dev, Vasu Sharma · PDF
Efficient Code Embeddings from Code Generation Models
Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao · PDF
Ensuring Functional Correctness of Large Code Models with Selective Generation
Jaewoo Jeong, Taesoo Kim, Sangdon Park · PDF
EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking
Anjiang Wei, Jiannan Cao, Ran Li, Hongyu Chen, Yuhui Zhang, Ziheng Wang, Yuan Liu, Thiago S. F. X. Teixeira, Diyi Yang, Ke Wang, Alex Aiken · PDF
FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration
Victor May, Diganta Misra, Yanqi Luo, Anjali Sridhar, Justine Gehring, Silvio Soares Ribeiro Junior · PDF
GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities
Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Sajjad Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia · PDF
Good-Enough Structured Generation: A Case Study on JSON Schema
Ivan Lee, Loris D'Antoni, Taylor Berg-Kirkpatrick · PDF
HardTests: Synthesizing High-Quality Test Cases for LLM Coding
Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li · PDF
HarnessLLM: Automatic Testing Harness Generation via Reinforcement Learning
Yujian Liu, Jiabao Ji, Yang Zhang, Wenbo Guo, Tommi Jaakkola, Shiyu Chang · PDF
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
Anjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken · PDF
Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces
Anjiang Wei, Allen Nie, Thiago S. F. X. Teixeira, Rohan Yadav, Wonchan Lee, Ke Wang, Alex Aiken · PDF
In-Context Learning for Esoteric Programming Languages: Evaluating and Enhancing LLM Reasoning Without Fine-Tuning
Saraswathy Amjith, Michael X. Wang, Jayson Lynch, Arul Kolla, Neil Thompson · PDF
Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks
Amal Abed, Ivan Lukic, Jörg K.H. Franke, Frank Hutter · PDF
Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks
Dimitrios Rontogiannis, Maxime Peyrard, Nicolas Baldwin, Martin Josifoski, Robert West, Dimitrios Gunopulos · PDF
Is Your Benchmark Still Useful? Dynamic Benchmarking for Code Language Models
Batu Guan, Xiao Wu, Yuanyuan Yuan, Shaohua Li · PDF
Learning From Design Procedure To Generate CAD Programs for Data Augmentation
Yan-Ying Chen, Dule Shu, Matthew K Hong, Andrew Taber, Jonathan Qiang Li, Matthew Klenk · PDF
Learning to Solve and Verify: A Self-Play Framework for Mutually Improving Code and Test Generation
Zi Lin, Sheng Shen, Jingbo Shang, Jason E Weston, Yixin Nie · PDF
LLM-Driven Multi-step Translation from C to Rust using Static Analysis
Tianyang Zhou, Haowen Lin, Somesh Jha, Mihai Christodorescu, Kirill Levchenko, Varun Chandrasekaran · PDF
LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
Hai Huang, Yann LeCun, Randall Balestriero · PDF
MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding
Siddeshwar Raghavan, Tanwi Mallick · PDF
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang · PDF
Practical Code RAG at Scale: Task-Aware Retrieval Design Choices under Compute Budgets
Timur Galimzyanov, Olga Kolomyttseva, Egor Bogomolov · PDF
pydra: Probing Code Representations With Synthetic Clones and Bugs
Ellie Kitanidis, Cole J Hunter · PDF
R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents
Naman Jain, Jaskirat Singh, Manish Shetty, Tianjun Zhang, Liang Zheng, Koushik Sen, Ion Stoica · PDF
Random Baselines for Simple Code Problems are Competitive with Code Evolution
Yonatan Gideoni, Yujin Tang, Sebastian Risi, Yarin Gal · PDF
Refactoring Codebases through Library Design
Žiga Kovačič, Justin T Chiu, Celine Lee, Wenting Zhao, Kevin Ellis · PDF
RocqStar: Leveraging Similarity-driven Retrieval and Agentic Systems for Rocq generation
Andrei Kozyrev, Nikita Khramov, Gleb Solovev, Anton Podkopaev · PDF
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas
Anjiang Wei, Yuheng Wu, Yingjia Wan, Tarun Suresh, Huanmi Tan, Zhanke Zhou, Sanmi Koyejo, Ke Wang, Alex Aiken · PDF
Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models
Mehrzad Samadi, Aleksander Ficek, Sean Narenthiran, Siddhartha Jain, Wasi Uddin Ahmad, Somshubra Majumdar, Vahid Noroozi, Boris Ginsburg · PDF
Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks
Jiaqi Yin, Yi-Wei Chen, Meng-Lung Lee, Xiya Liu · PDF
Security Knowledge Dilution in Large Language Models: How Irrelevant Context Degrades Critical Domain Expertise
Shivani Shukla, Himanshu Joshi · PDF
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun MA, Bo An · PDF
SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction
Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler · PDF
STACKFEED: Structured Textual Actor-Critic Knowledge base editing with FEEDback
Shashank Kirtania, Naman Gupta, Priyanshu Gupta, Sumit Gulwani, Arun Iyer, Suresh Parthasarathy Iyengar, Arjun Radhakrishna, Sriram K. Rajamani, Gustavo Soares · PDF
SubtaskEval: Benchmarking LLMs on Competitive Programming Subtasks
Samik Goyal · PDF
SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development
Yaxin Du, Yuzhu Cai, Yifan Zhou, Cheng Wang, Yu Qian, Xianghe Pang, Qian Liu, Yue Hu, Siheng Chen · PDF
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?
Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, ZhiJie Fan, Yiming Huang, Zejian Yuan, Zejun MA · PDF
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, LINGMING ZHANG, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida Wang · PDF
The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management
Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov · PDF
The Valley of Code Reasoning: Scaling Knowledge Distillation of Large Language Models
Muyu He, Muhammad Ali Shafique, Anand Kumar, Tsach Mackey, Nazneen Rajani · PDF
Thyme: Think Beyond Images
YiFan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou · PDF
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang · PDF
Training LLM Agents to Empower Humans
Evan Ellis, Vivek Myers, Jens Tuyls, Sergey Levine, Anca Dragan, Benjamin Eysenbach · PDF
Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective
Meifang Chen, Zhe YANG, HUANG Nianchen, Yizhan Huang, Yichen LI, Michael R. Lyu · PDF
VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation
Anjiang Wei, Huanmi Tan, Tarun Suresh, Daniel Mendoza, Thiago S. F. X. Teixeira, Ke Wang, Caroline Trippel, Alex Aiken · PDF
Where's the Bug? Attention Probing for Scalable Fault Localization
Adam Stein, Arthur Wayne, Aaditya Naik, Mayur Naik, Eric Wong · PDF
Workflows vs Agents for Code Translation
Henry Gray, Octavian Udrea, Tom Yotam · PDF

Accepted papers (69)

☆A Matter of Representation: Towards Graph-Based Abstract Code Generation

☆A Note on the Code Quality Score System: LLMs for Maintainable Large Codebases

☆Adapting Language Models for Low-Resource Programming Languages

☆Advancing Environment Setup LLMs through Online Reinforcement Learning

☆Agentic Property-Based Testing: Finding Bugs Across the Python Ecosystem

☆Agint: Agentic Graph Compilation for Software Engineering Agents

☆Asm2SrcEval: Evaluating Large Language Models for Assembly to Source Code Translation

☆Astra: A Multi-Agent System for GPU Kernel Performance Optimization

☆Beyond Accuracy: Realistic and Diagnostic Evaluation of Code Generation Models

☆BUILD-BENCH: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

☆Can Test-Time Compute Help LLMs Write Low-Resource Parallel Code Better?

☆ChopChop: Semantically Constraining the Code Output of Language Models

☆Code2Video: A Code-centric Paradigm for Educational Video Generation

☆CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

☆CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback

☆CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs

☆CoDyn: Dynamic LLM Routing for Coding Tasks

☆Constrained Decoding of Diffusion LLMs with Context-Free Grammars

☆Cyber-Zero: Training Cybersecurity Agents without Runtime

☆Deep-Reproducer: From Paper Understanding to Code Generation

☆Demystify the Potential of Large Language Models as General-Purpose Surrogate Code Executors

☆Diff-XYZ: A Benchmark for Evaluating Diff Understanding

☆DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code

☆Efficient Code Embeddings from Code Generation Models

☆Ensuring Functional Correctness of Large Code Models with Selective Generation

☆EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking

☆FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration

☆GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities

☆Good-Enough Structured Generation: A Case Study on JSON Schema

☆HardTests: Synthesizing High-Quality Test Cases for LLM Coding

☆HarnessLLM: Automatic Testing Harness Generation via Reinforcement Learning

☆Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

☆Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces

☆In-Context Learning for Esoteric Programming Languages: Evaluating and Enhancing LLM Reasoning Without Fine-Tuning

☆Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks

☆Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks

☆Is Your Benchmark Still Useful? Dynamic Benchmarking for Code Language Models

☆Learning From Design Procedure To Generate CAD Programs for Data Augmentation

☆Learning to Solve and Verify: A Self-Play Framework for Mutually Improving Code and Test Generation

☆LLM-Driven Multi-step Translation from C to Rust using Static Analysis

☆LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures

☆MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding

☆Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

☆Practical Code RAG at Scale: Task-Aware Retrieval Design Choices under Compute Budgets

☆pydra: Probing Code Representations With Synthetic Clones and Bugs

☆R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents

☆Random Baselines for Simple Code Problems are Competitive with Code Evolution

☆Refactoring Codebases through Library Design

☆RocqStar: Leveraging Similarity-driven Retrieval and Agentic Systems for Rocq generation

☆SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas

☆Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models

☆Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks

☆Security Knowledge Dilution in Large Language Models: How Irrelevant Context Degrades Critical Domain Expertise

☆SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

☆SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

☆STACKFEED: Structured Textual Actor-Critic Knowledge base editing with FEEDback

☆SubtaskEval: Benchmarking LLMs on Competitive Programming Subtasks

☆SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

☆SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

☆SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

☆The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

☆The Valley of Code Reasoning: Scaling Knowledge Distillation of Large Language Models

☆Thyme: Think Beyond Images

☆Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

☆Training LLM Agents to Empower Humans

☆Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective

☆VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation

☆Where's the Bug? Attention Probing for Scalable Fault Localization

☆Workflows vs Agents for Code Translation

A Matter of Representation: Towards Graph-Based Abstract Code Generation

A Note on the Code Quality Score System: LLMs for Maintainable Large Codebases

Adapting Language Models for Low-Resource Programming Languages

Advancing Environment Setup LLMs through Online Reinforcement Learning

Agentic Property-Based Testing: Finding Bugs Across the Python Ecosystem

Agint: Agentic Graph Compilation for Software Engineering Agents

Asm2SrcEval: Evaluating Large Language Models for Assembly to Source Code Translation

Astra: A Multi-Agent System for GPU Kernel Performance Optimization

Beyond Accuracy: Realistic and Diagnostic Evaluation of Code Generation Models

BUILD-BENCH: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

Can Test-Time Compute Help LLMs Write Low-Resource Parallel Code Better?

ChopChop: Semantically Constraining the Code Output of Language Models

Code2Video: A Code-centric Paradigm for Educational Video Generation

CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback

CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs

CoDyn: Dynamic LLM Routing for Coding Tasks

Constrained Decoding of Diffusion LLMs with Context-Free Grammars

Cyber-Zero: Training Cybersecurity Agents without Runtime

Deep-Reproducer: From Paper Understanding to Code Generation

Demystify the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Diff-XYZ: A Benchmark for Evaluating Diff Understanding

DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code

Efficient Code Embeddings from Code Generation Models

Ensuring Functional Correctness of Large Code Models with Selective Generation

EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking

FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration

GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities

Good-Enough Structured Generation: A Case Study on JSON Schema

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

HarnessLLM: Automatic Testing Harness Generation via Reinforcement Learning

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces

In-Context Learning for Esoteric Programming Languages: Evaluating and Enhancing LLM Reasoning Without Fine-Tuning

Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks

Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks

Is Your Benchmark Still Useful? Dynamic Benchmarking for Code Language Models

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Learning to Solve and Verify: A Self-Play Framework for Mutually Improving Code and Test Generation

LLM-Driven Multi-step Translation from C to Rust using Static Analysis

LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures

MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Practical Code RAG at Scale: Task-Aware Retrieval Design Choices under Compute Budgets

pydra: Probing Code Representations With Synthetic Clones and Bugs

R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents

Random Baselines for Simple Code Problems are Competitive with Code Evolution

Refactoring Codebases through Library Design

RocqStar: Leveraging Similarity-driven Retrieval and Agentic Systems for Rocq generation

SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas

Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models

Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks

Security Knowledge Dilution in Large Language Models: How Irrelevant Context Degrades Critical Domain Expertise

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

STACKFEED: Structured Textual Actor-Critic Knowledge base editing with FEEDback

SubtaskEval: Benchmarking LLMs on Competitive Programming Subtasks

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

The Valley of Code Reasoning: Scaling Knowledge Distillation of Large Language Models

Thyme: Think Beyond Images

Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Training LLM Agents to Empower Humans

Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective

VeriCoder: Enhancing LLM-Based RTL Code Generation through Functional Correctness Validation

Where's the Bug? Attention Probing for Scalable Fault Localization

Workflows vs Agents for Code Translation