ICML 2026PastEvaluation & benchmarks

Culture x AI: Evaluating AI as a Cultural Technology (ICML 2026)

Culture x AI 2026

Official website ↗OpenReview venue ↗See all ICML workshops →✎ Edit this entry

Submission deadline: May 13, 2026, 12:59 UTC
OpenReview-synced 2026-05-13 12:59 UTC (as of 2026-06-23) — extensions on OpenReview are applied automatically; verify on the website.
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (63)

Fetched from OpenReview (v2) on 2026-06-10.

“AI is (not) the new..”: A Diagnostic Analogy Framework for Generative AI’s Cultural Impacts
Rida Qadri, Vinodkumar Prabhakaran, Remi Denton
A Charter for Cultural AI Evaluation: Methodological Principles for Long-Tail, Cross-Cultural Tasks
Federico Pianzola, Arianna Graciotti
A Vision for Cultural Alignment: Opportunities and Safety Imperatives for AI in Mental Health Support
Ratna Kandala, Akshata Kishore Moharir, Niva Manchanda, Samantha Adorno
Agonistic AI: Advancing Interpretive Pluralism in the Cultural AI Value Space
Tessa Haining
AI as Cultural Mediation: Agentic Sanskrit–English Translation with Linguistic Grounding
Jintao Ma, Junwen SHEN, Xinyue WANG, Leqi LIU, Dengkui Hou, lingxiang hu, nicolas turenne, Dun Li
AI-Assisted Video Montage as Coordination: Design Guidelines for Platforms of Interactive Agent-based Multimodal Synthesis
Luís Arandas, Mick Grierson
Beyond Bias: Evaluating Cultural AI Through Participation and Interpretation
Archana Prasad
Beyond Hallucination: Evaluating Cultural and Institutional Misinterpretation in Public-Facing LLMs
Oleh Bohatov
Caesar Speaks Again: Bringing Historical Characters to Life using AI-Driven Avatars for Immersive Cultural Heritage in AR
Stephen Uzor
Care Is Not a Style Transfer Task: Evaluating Culturally Grounded Clinical AI
Priyanshi Garg
Causal Mechanisms of the Gender Pay Gap
Sarah Razack, Brandon Yee, Pairie Koh, Jiayi Fu
Code-Switching Reveals Anchor Bias in Multilingual Large Language Models
Jeonghyun Park, Seunghyun Yoon, Hwanhee Lee
Consensus Is Not Enough: Disagreement-Preserving Evaluation for Cultural AI
Robert Sneiderman
Cultural Fermentation: on Craft, Ecology, Listening, and Safety
Luisa Ji
Cultural Fidelity in English-to-Hindi Translation: A Preservation–Fluency Frontier for Gender Recoverability
Samyak Savi, Chavi Gupta, Shreyas Gantayet, Tanay Sodha, Dhruv Kumar
Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis
hyeji choi, YongTaek Lim, Minwoo Kim
CuPS: Measuring Cultural Preference Signatures in LLM/VLM Agents and Their Steering by Profile Memories
Kyeong Seon Kim, GeonU Kim, Joohyun Chang, Hyeyeon Kim, Tae-Hyun Oh
Detecting and Mitigating Bias by Treating Fairness as a Symmetry Operation
Nishit Singh
Does Persona Make LLM a K-pop Fan? A Pilot Study of LLM-Based Online Concert Audience Agents
Kirak Kim, Hyojin Kim, Yejin Son, Sungyoung Kim, Kyung Myun Lee
Environmental Slow AI: Design Principles for Generative Systems
Vanessa Utz
Evolution of Cooperation in LLM Societies : A Multi-Lingual Examination
Kriti Mahajan
Fine-Tuning as Repair? Care Ethics and Situated Knowledges in LLM Alignment Cultures
Lara Dal Molin, Jacqueline Rowe
From Error Detection to Cultural Legibility: Human-AI Cooperation for Trauma-Informed Heritage Education in Conflict Zones
Ying Tang, Argya Hanisi, Tia Dwi S, Irfani Aura Salsabila, Inria Astari Zahra
From Style to Cultural Calibration: Evaluating Institutional Voice in LLM-Generated News
Jiahang Luo
GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts
Amir Hossein Kargaran, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schuetze
IndicDB - Benchmarking Multilingual Text-to-SQL Capabilities in Indian Languages
Aviral Dawar, Roshan Karanth, Vikram Goyal, Dhruv Kumar
Injecting Knowledge from Social Science Journals to Improve Indonesian Cultural Understanding by LLMs
Adimulya Kartiyasa, Bao G. Cao, Boyang Li
Interpretive Anchoring for Culturally Situated LLM Evaluation
Cheng Wu, Vishal Anand, Jaya Krishna Mandivarapu, Xiya Liu, Rui Zhuang
KG-FairDiff: Knowledge Graph-Guided Prompt Refinement for Demographically Fair Text-to-Image Generation
Farbod Davoodi, seyedreza tavakoli, Pooriya Safaei, Sana Harighi, Parsa Gholami, Amirali Amini, Kimia Vanaei, Emad Firoozi, Parham Abed Azad, Babak Khalaj, Siavash Ahmadi, Amir H. Payberah, Mohammad Hossein Rohban, Mehdi Noroozi, Soheil Kolouri, Ali Diba
Korean Culture into LLM Alignment: From Refusal to Cultural Coherence
MIN JAE JUNG, Minwoo Kim
LLMs Exhibit Significantly Lower Uncertainty in Creative Writing Than Professional Writers
Peiqi Sui
Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding
Jeonghun Baek, Atsuyuki Miyai, Shota Onohara, Hikaru Ikuta, Kiyoharu Aizawa
Mise en Place for Taste: Recipes, Connoisseurship, and Cultural Competence in Generative AI
Jun Li
NarrativeWorldBench: A Frontier-Saturated Benchmark and a Latent World Model for Long-Horizon Co-Creative Audio Drama
Logan Mann, Abdur Rahman, Mohammad Saifullah, Taaha Kazi, Vasu Sharma
Operative Contexts: Belief Revision and Memory in Agentic AI
Emma Cabalé, Selina Guter, Philippe Beraud, Philippe Limantour
PAUSE: Editable Strategy Artifacts for Long-Form Cultural Story Adaptation
Taaha Kazi, Vasu Sharma, Mohammad Saifullah, Abdur Rahman
Plural Voices: A Cultural Contestability Framework for Evaluating AI-Mediated Service Work
Adrian Mak, Supheakmungkol Sarin, Edward Tsoi, Wing-Yee Lau, Alejandro Reyes
Reading Models’ Self-Defense: Narratology as Legibility Instrument for Cultural AI Evaluation
Seohyon Jung, Songeun Chae, Donghoon Jung, Jiwoo Choi
Repertoires, Not Scores: Instability as Signal in Cultural Evaluation of LLMs
Suchir Salhan, Filip Trhlík, Diana Galvan-Sosa, Paula Buttery
Robustness of Cultural Norm Reasoning Under Language and Context Perturbations
Ankita Maity, Sajag Swami, Van Ngo, Akhil Arora, Nikita Moghe
SAFE: Segment-Aware Filtering and Evaluation for Lyric Content Moderation
Peng Zhang, Jiawen Xie, Zihan Su
SEA-MU: Cultural Meme Understanding Benchmark for Southeast Asia
Bao G. Cao, Adimulya Kartiyasa, Ponpavi Sangsuradej, Boyang Li
Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling
Peiqi Sui, Yutong Zhu, Tianyi Cheng, Peter West, Richard Jean So, Hoyt Long, Ari Holtzman
Stress-Testing Emotional Support Models: Moving from Homogeneous to Diverse Help Seekers
Chaewon Heo, Cheyon Jin, Yohan Jo
StylisticBias: A Few Human Visual Cues Drive Most Social Bias in MLLMs
Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner
The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety
Ian Rios-Sialer
The Language of Bargaining: Linguistic Effects in LLM Negotiations
Stuti Sinha, Himanshu Kumar, Aryan Raju Mandapati, Rakshit Sakhuja, Dhruv Kumar
The Modular Encyclopedia: LLMs and the Assemblage of Cultural Knowledge
Giulia Taurino
The Time of the Latent: Evaluating Cultural AI Through Human–AI Creative Trajectories
Manuela Violi
Three Years of r/ChatGPT: Societal Impact Evaluations from Social Media Data
Jessica Dai
Tokenization as Cultural Erasure: How Corpus Composition Shapes the Representation of Aymara Morphology in NLP Systems
Bruno Fernando Silva Plata
Toward a 21st Century Turing Test: Games, Authority, and Interpretive Intelligence in AI
Thomas Gaskin, Richard Jean So, Milena Tsvetkova
Towards A New Toolkit for Measuring AI-Enabled Influence Operations
Shannon Yang
What Could Cézanne Have Painted? Geometric Search for Stylistic Gaps in Embedding Spaces
Fernando Aguilar-Canto, Hiram Calvo, Ricardo Menchaca-Mendez
What Do Historical Language Models Model?
Thierry Poibeau
What does a surplus of interpretations consume?
Andrew Buzzell
What Gets Lost When Memory Becomes Media? Evaluating AI-Generated Oral History Visualization
KWANGSUK PARK, Jaehyun, Jiyeon Lee, Anjung Tan, Hyoungchul park
What If Chinese Were Latinized? A Counterfactual Study of Script, Tokenization, and Language Modeling
Zijie Zheng, Ej Zhou
What Makes AI a Good Cultural Mediator? Evidence from Literary Paratexts
Zhou Mengyuan
When East Asia Loses Its Names: Interpreting Neighborhood Effect and Cultural Generalization in Vision-Language Models
Youngsik Yun, Yusang Cho, Jihie Kim
When Perspective Becomes Control: Verifying Role-Conditioned Image Generation
Hyunsuk Chung, Caren Han, Kyungreem Han, Sang-Wook Yi
Where Models Concentrate and Humans Spread: Toward Cultural Reach in Generative AI
Zini Yang, Richard Jean So, Emily Wenger
Whose Interpretation Counts? Reading Generative AI as an Interpretive Technology Across UK and Indian Households
Varad Vishwarupe, Professor Marina Jirotka, Samruddhi Saoji, Shwetanshu Shekhar, Gururaj Shinde, Ritu Kuklani, Meshari M Alwazae, Haazique Sayyed

Accepted papers (63)

☆“AI is (not) the new..”: A Diagnostic Analogy Framework for Generative AI’s Cultural Impacts

☆A Charter for Cultural AI Evaluation: Methodological Principles for Long-Tail, Cross-Cultural Tasks

☆A Vision for Cultural Alignment: Opportunities and Safety Imperatives for AI in Mental Health Support

☆Agonistic AI: Advancing Interpretive Pluralism in the Cultural AI Value Space

☆AI as Cultural Mediation: Agentic Sanskrit–English Translation with Linguistic Grounding

☆AI-Assisted Video Montage as Coordination: Design Guidelines for Platforms of Interactive Agent-based Multimodal Synthesis

☆Beyond Bias: Evaluating Cultural AI Through Participation and Interpretation

☆Beyond Hallucination: Evaluating Cultural and Institutional Misinterpretation in Public-Facing LLMs

☆Caesar Speaks Again: Bringing Historical Characters to Life using AI-Driven Avatars for Immersive Cultural Heritage in AR

☆Care Is Not a Style Transfer Task: Evaluating Culturally Grounded Clinical AI

☆Causal Mechanisms of the Gender Pay Gap

☆Code-Switching Reveals Anchor Bias in Multilingual Large Language Models

☆Consensus Is Not Enough: Disagreement-Preserving Evaluation for Cultural AI

☆Cultural Fermentation: on Craft, Ecology, Listening, and Safety

☆Cultural Fidelity in English-to-Hindi Translation: A Preservation–Fluency Frontier for Gender Recoverability

☆Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis

☆CuPS: Measuring Cultural Preference Signatures in LLM/VLM Agents and Their Steering by Profile Memories

☆Detecting and Mitigating Bias by Treating Fairness as a Symmetry Operation

☆Does Persona Make LLM a K-pop Fan? A Pilot Study of LLM-Based Online Concert Audience Agents

☆Environmental Slow AI: Design Principles for Generative Systems

☆Evolution of Cooperation in LLM Societies : A Multi-Lingual Examination

☆Fine-Tuning as Repair? Care Ethics and Situated Knowledges in LLM Alignment Cultures

☆From Error Detection to Cultural Legibility: Human-AI Cooperation for Trauma-Informed Heritage Education in Conflict Zones

☆From Style to Cultural Calibration: Evaluating Institutional Voice in LLM-Generated News

☆GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

☆IndicDB - Benchmarking Multilingual Text-to-SQL Capabilities in Indian Languages

☆Injecting Knowledge from Social Science Journals to Improve Indonesian Cultural Understanding by LLMs

☆Interpretive Anchoring for Culturally Situated LLM Evaluation

☆KG-FairDiff: Knowledge Graph-Guided Prompt Refinement for Demographically Fair Text-to-Image Generation

☆Korean Culture into LLM Alignment: From Refusal to Cultural Coherence

☆LLMs Exhibit Significantly Lower Uncertainty in Creative Writing Than Professional Writers

☆Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding

☆Mise en Place for Taste: Recipes, Connoisseurship, and Cultural Competence in Generative AI

☆NarrativeWorldBench: A Frontier-Saturated Benchmark and a Latent World Model for Long-Horizon Co-Creative Audio Drama

☆Operative Contexts: Belief Revision and Memory in Agentic AI

☆PAUSE: Editable Strategy Artifacts for Long-Form Cultural Story Adaptation

☆Plural Voices: A Cultural Contestability Framework for Evaluating AI-Mediated Service Work

☆Reading Models’ Self-Defense: Narratology as Legibility Instrument for Cultural AI Evaluation

☆Repertoires, Not Scores: Instability as Signal in Cultural Evaluation of LLMs

☆Robustness of Cultural Norm Reasoning Under Language and Context Perturbations

☆SAFE: Segment-Aware Filtering and Evaluation for Lyric Content Moderation

☆SEA-MU: Cultural Meme Understanding Benchmark for Southeast Asia

☆Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

☆Stress-Testing Emotional Support Models: Moving from Homogeneous to Diverse Help Seekers

☆StylisticBias: A Few Human Visual Cues Drive Most Social Bias in MLLMs

☆The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

☆The Language of Bargaining: Linguistic Effects in LLM Negotiations

☆The Modular Encyclopedia: LLMs and the Assemblage of Cultural Knowledge

☆The Time of the Latent: Evaluating Cultural AI Through Human–AI Creative Trajectories

☆Three Years of r/ChatGPT: Societal Impact Evaluations from Social Media Data

☆Tokenization as Cultural Erasure: How Corpus Composition Shapes the Representation of Aymara Morphology in NLP Systems

☆Toward a 21st Century Turing Test: Games, Authority, and Interpretive Intelligence in AI

☆Towards A New Toolkit for Measuring AI-Enabled Influence Operations

☆What Could Cézanne Have Painted? Geometric Search for Stylistic Gaps in Embedding Spaces

☆What Do Historical Language Models Model?

☆What does a surplus of interpretations consume?

☆What Gets Lost When Memory Becomes Media? Evaluating AI-Generated Oral History Visualization

☆What If Chinese Were Latinized? A Counterfactual Study of Script, Tokenization, and Language Modeling

☆What Makes AI a Good Cultural Mediator? Evidence from Literary Paratexts

☆When East Asia Loses Its Names: Interpreting Neighborhood Effect and Cultural Generalization in Vision-Language Models

☆When Perspective Becomes Control: Verifying Role-Conditioned Image Generation

☆Where Models Concentrate and Humans Spread: Toward Cultural Reach in Generative AI

☆Whose Interpretation Counts? Reading Generative AI as an Interpretive Technology Across UK and Indian Households

“AI is (not) the new..”: A Diagnostic Analogy Framework for Generative AI’s Cultural Impacts

A Charter for Cultural AI Evaluation: Methodological Principles for Long-Tail, Cross-Cultural Tasks

A Vision for Cultural Alignment: Opportunities and Safety Imperatives for AI in Mental Health Support

Agonistic AI: Advancing Interpretive Pluralism in the Cultural AI Value Space

AI as Cultural Mediation: Agentic Sanskrit–English Translation with Linguistic Grounding

AI-Assisted Video Montage as Coordination: Design Guidelines for Platforms of Interactive Agent-based Multimodal Synthesis

Beyond Bias: Evaluating Cultural AI Through Participation and Interpretation

Beyond Hallucination: Evaluating Cultural and Institutional Misinterpretation in Public-Facing LLMs

Caesar Speaks Again: Bringing Historical Characters to Life using AI-Driven Avatars for Immersive Cultural Heritage in AR

Care Is Not a Style Transfer Task: Evaluating Culturally Grounded Clinical AI

Causal Mechanisms of the Gender Pay Gap

Code-Switching Reveals Anchor Bias in Multilingual Large Language Models

Consensus Is Not Enough: Disagreement-Preserving Evaluation for Cultural AI

Cultural Fermentation: on Craft, Ecology, Listening, and Safety

Cultural Fidelity in English-to-Hindi Translation: A Preservation–Fluency Frontier for Gender Recoverability

Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis

CuPS: Measuring Cultural Preference Signatures in LLM/VLM Agents and Their Steering by Profile Memories

Detecting and Mitigating Bias by Treating Fairness as a Symmetry Operation

Does Persona Make LLM a K-pop Fan? A Pilot Study of LLM-Based Online Concert Audience Agents

Environmental Slow AI: Design Principles for Generative Systems

Evolution of Cooperation in LLM Societies : A Multi-Lingual Examination

Fine-Tuning as Repair? Care Ethics and Situated Knowledges in LLM Alignment Cultures

From Error Detection to Cultural Legibility: Human-AI Cooperation for Trauma-Informed Heritage Education in Conflict Zones

From Style to Cultural Calibration: Evaluating Institutional Voice in LLM-Generated News

GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

IndicDB - Benchmarking Multilingual Text-to-SQL Capabilities in Indian Languages

Injecting Knowledge from Social Science Journals to Improve Indonesian Cultural Understanding by LLMs

Interpretive Anchoring for Culturally Situated LLM Evaluation

KG-FairDiff: Knowledge Graph-Guided Prompt Refinement for Demographically Fair Text-to-Image Generation

Korean Culture into LLM Alignment: From Refusal to Cultural Coherence

LLMs Exhibit Significantly Lower Uncertainty in Creative Writing Than Professional Writers

Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding

Mise en Place for Taste: Recipes, Connoisseurship, and Cultural Competence in Generative AI

NarrativeWorldBench: A Frontier-Saturated Benchmark and a Latent World Model for Long-Horizon Co-Creative Audio Drama

Operative Contexts: Belief Revision and Memory in Agentic AI

PAUSE: Editable Strategy Artifacts for Long-Form Cultural Story Adaptation

Plural Voices: A Cultural Contestability Framework for Evaluating AI-Mediated Service Work

Reading Models’ Self-Defense: Narratology as Legibility Instrument for Cultural AI Evaluation

Repertoires, Not Scores: Instability as Signal in Cultural Evaluation of LLMs

Robustness of Cultural Norm Reasoning Under Language and Context Perturbations

SAFE: Segment-Aware Filtering and Evaluation for Lyric Content Moderation

SEA-MU: Cultural Meme Understanding Benchmark for Southeast Asia

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Stress-Testing Emotional Support Models: Moving from Homogeneous to Diverse Help Seekers

StylisticBias: A Few Human Visual Cues Drive Most Social Bias in MLLMs

The Homogenization Problem in LLMs: Towards Meaningful Diversity in AI Safety

The Language of Bargaining: Linguistic Effects in LLM Negotiations

The Modular Encyclopedia: LLMs and the Assemblage of Cultural Knowledge

The Time of the Latent: Evaluating Cultural AI Through Human–AI Creative Trajectories

Three Years of r/ChatGPT: Societal Impact Evaluations from Social Media Data

Tokenization as Cultural Erasure: How Corpus Composition Shapes the Representation of Aymara Morphology in NLP Systems

Toward a 21st Century Turing Test: Games, Authority, and Interpretive Intelligence in AI

Towards A New Toolkit for Measuring AI-Enabled Influence Operations

What Could Cézanne Have Painted? Geometric Search for Stylistic Gaps in Embedding Spaces

What Do Historical Language Models Model?

What does a surplus of interpretations consume?

What Gets Lost When Memory Becomes Media? Evaluating AI-Generated Oral History Visualization

What If Chinese Were Latinized? A Counterfactual Study of Script, Tokenization, and Language Modeling

What Makes AI a Good Cultural Mediator? Evidence from Literary Paratexts

When East Asia Loses Its Names: Interpreting Neighborhood Effect and Cultural Generalization in Vision-Language Models

When Perspective Becomes Control: Verifying Role-Conditioned Image Generation

Where Models Concentrate and Humans Spread: Toward Cultural Reach in Generative AI

Whose Interpretation Counts? Reading Generative AI as an Interpretive Technology Across UK and Indian Households