COLM 2025PastMath & reasoningLarge language modelsAI for science

LLM for Scientific Discovery: Reasoning, Assistance, and Collaboration

LM4Sci

Official website ↗OpenReview venue ↗See all COLM workshops →✎ Edit this entry

Submission deadline: Jul 7, 2025, 11:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (17)

Fetched from OpenReview (v2) on 2026-06-11.

Agentic Superoptimization of Bioimaging Analysis Workflows
Xuefei Wang, Jonathan Chen, Alexander R. Farhang, Sophia Stiles, Kai A. Horstmann, Atharva Sehgal, Jonathan Light, David Van Valen, Yisong Yue, Jennifer J. Sun · PDF
An LLM-driven framework for cosmological model-building and exploration
Nayantara Mudur, Carolina Cuesta-Lazaro, Michael W. Toomey, Douglas Finkbeiner · PDF
Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems
Jiayi Geng, Howard Chen, Dilip Arumugam, Thomas L. Griffiths · PDF
AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists
Yifei Li, Hanane Nour Moussa, Ziru Chen, Shijie Chen, Botao Yu, Mingyi Xue, Benjamin Burns, Tzu-Yao Chiu, Vishal Dey, Zitong Lu, Chen Wei, Qianheng Zhang, Tianyu Zhang, Song Gao, Xuhui Huang, Xia Ning, Nesreen K. Ahmed, Ali Payani, Huan Sun · PDF
Causal AI Assistant: Facilitating Causal Data Science with Large Language Models
Sawal Acharya, Vishal Verma, Samuel Simko, Anahita Haghighat, Devansh Bhardwaj, Dominik Janzing, Mrinmaya Sachan, Bernhard Schölkopf, Zhijing Jin · PDF
Cross-Modal Adaptation of Decoder-only Models to Partial Differential Equation Data
Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam · PDF
Data Heterogeneity Limits the Scaling Effect of Pretraining in Neural Data Transformers
Linxing Preston Jiang, Shirui Chen, Emmanuel Tanumihardja, Xiaochuang Han, Weijia Shi, Eric Todd SheaBrown, Rajesh P. N. Rao · PDF
DiffAntiSeq: A Controllable Diffusion Model for Efficient Antibody Library Design
Fang Wu · PDF
Evaluating and Improving LitLLMs with Deep Research
Gaurav Sahu, Shubham Agarwal, Abhay Puri, Issam H. Laradji, Krishnamurthy Dj Dvijotham, Jason Stanley, Laurent Charlin, Christopher Pal · PDF
Fine-tuning Vision-Language Models for Animal Behavior Analysis
Sepideh Mamooler, Haozhe Qi, Valentin Gabeff, Syrielle Montariol, Antoine Bosselut, Alexander Mathis · PDF
From Street Views to Urban Science: Discovering Road Safety Factors with Multimodal Large Language Models
Yihong Tang, Ao Qu, Xujing Yu, Weipeng Deng, Jun Ma, Jinhua Zhao, Lijun Sun · PDF
InertialTransformer: Early Explorations and Insights into Transformer-based Geometric Representation
Haorui Li, weitao Du, Hongyu Guo, Shengchao Liu · PDF
Information Extraction from Diverse Charts In Materials Science
Defne Circi, Miles Bradley, Sam Blouir, Boris Wilthan, Antonios Anastasopoulos, Amarda Shehu, L. Catherine, Bhuwan Dhingra · PDF
Protein2Text: Providing Rich Descriptions from Protein Sequences
Edo Dotan, Iris Lyubman, Marcelo Ehrlich, Eran Bacharach, Tal Pupko, Yonatan Belinkov · PDF
Solving Inequality Proofs with Large Language Models
Jiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu · PDF
The Ramon Llull's Thinking Machine for Automated Ideation
Xinran Zhao, Boyuan Zheng, Chenglei Si, Haofei Yu, Ken Liu, Runlong Zhou, Ruochen Li, Tong Chen, Xiang Li, Yiming Zhang, Tongshuang Wu · PDF
Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes
Michael Bereket, Jure Leskovec · PDF

Accepted papers (17)

☆Agentic Superoptimization of Bioimaging Analysis Workflows

☆An LLM-driven framework for cosmological model-building and exploration

☆Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems

☆AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists

☆Causal AI Assistant: Facilitating Causal Data Science with Large Language Models

☆Cross-Modal Adaptation of Decoder-only Models to Partial Differential Equation Data

☆Data Heterogeneity Limits the Scaling Effect of Pretraining in Neural Data Transformers

☆DiffAntiSeq: A Controllable Diffusion Model for Efficient Antibody Library Design

☆Evaluating and Improving LitLLMs with Deep Research

☆Fine-tuning Vision-Language Models for Animal Behavior Analysis

☆From Street Views to Urban Science: Discovering Road Safety Factors with Multimodal Large Language Models

☆InertialTransformer: Early Explorations and Insights into Transformer-based Geometric Representation

☆Information Extraction from Diverse Charts In Materials Science

☆Protein2Text: Providing Rich Descriptions from Protein Sequences

☆Solving Inequality Proofs with Large Language Models

☆The Ramon Llull's Thinking Machine for Automated Ideation

☆Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes

Agentic Superoptimization of Bioimaging Analysis Workflows

An LLM-driven framework for cosmological model-building and exploration

Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems

AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists

Causal AI Assistant: Facilitating Causal Data Science with Large Language Models

Cross-Modal Adaptation of Decoder-only Models to Partial Differential Equation Data

Data Heterogeneity Limits the Scaling Effect of Pretraining in Neural Data Transformers

DiffAntiSeq: A Controllable Diffusion Model for Efficient Antibody Library Design

Evaluating and Improving LitLLMs with Deep Research

Fine-tuning Vision-Language Models for Animal Behavior Analysis

From Street Views to Urban Science: Discovering Road Safety Factors with Multimodal Large Language Models

InertialTransformer: Early Explorations and Insights into Transformer-based Geometric Representation

Information Extraction from Diverse Charts In Materials Science

Protein2Text: Providing Rich Descriptions from Protein Sequences

Solving Inequality Proofs with Large Language Models

The Ramon Llull's Thinking Machine for Automated Ideation

Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes