NeurIPS 2024PastSpeech & audioGenerative models

Audio Imagination: NeurIPS 2024 Workshop AI-Driven Speech, Music, and Sound Generation

Audio Imagination: NeurIPS 2024 Workshop

Official website ↗OpenReview venue ↗See all NeurIPS workshops →✎ Edit this entry

Submission deadline: Sep 21, 2024, 23:59 UTC
imported from OpenReview — check the website for extensions
Submission portal: OpenReview
Notes: Topics were auto-suggested and may be imprecise — edits welcome.

Accepted papers (48)

Fetched from OpenReview (v2) on 2026-06-10.

3D Audio-Visual Segmentation
Artem Sokolov, Swapnil Bhosale, Xiatian Zhu · PDF
A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation
Alexander H. Liu, Qirui Wang, Yuan Gong, James R. Glass · PDF
Articulatory Synthesis of Speech and Diverse Vocal Sounds via Optimization
Luke Mo, Manuel Cherep, Nikhil Singh, Quinn Langford, Patricia Maes · PDF
AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models
JISHENG BAI, Haohe Liu, Mou Wang, Dongyuan Shi, Wenwu Wang, Mark D Plumbley, Woon-Seng Gan, Jianfeng Chen · PDF
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian · PDF
Benchmarking Music Generation Models and Metrics via Human Preference Studies
Ahmet Solak, Florian Grötschla, Luca A Lanzendörfer, Roger Wattenhofer · PDF
BLAP: Bootstrapping Language-Audio Pre-training for Music Captioning
Luca A Lanzendörfer, Constantin Pinkl, Nathanaël Perraudin, Roger Wattenhofer · PDF
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
Junwon Lee, Modan Tailleur, Laurie M. Heller, Keunwoo Choi, Mathieu Lagrange, Brian McFee, Keisuke Imoto, Yuki Okamoto · PDF
Coarse-to-Fine Text-to-Music Latent Diffusion
Luca A Lanzendörfer, Tongyu Lu, Nathanaël Perraudin, Dorien Herremans, Roger Wattenhofer · PDF
Contextual Speech Emotion Recognition with Large Language Models and ASR-Based Transcriptions
Enshi Zhang, Christian Poellabauer · PDF
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
Marco Pasini, Javier Nistal, Stefan Lattner, George Fazekas · PDF
Contrastive Lyrics Alignment with a Timestamp-Informed Loss
Timon Kick, Florian Grötschla, Luca A Lanzendörfer, Roger Wattenhofer · PDF
DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech
Jan Melechovsky, Ambuj Mehrish, BERRAK SISMAN, Dorien Herremans · PDF
Decoding Musical Perception: Music Stimuli Reconstruction from Brain Activity
Matteo Ciferri, Matteo Ferrante, Nicola Toschi · PDF
Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis
Kazuki Yamauchi, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari · PDF
DGFM: Full Body Dance Generation Driven by Music Foundation Models
Xinran Liu, Zhenhua Feng, Diptesh Kanojia, Wenwu Wang · PDF
Diffusion-based Speech Enhancement: Demonstration of Performance and Generalization
Julius Richter, Timo Gerkmann · PDF
Disentangling Multi-instrument Music Audio for Source-level Pitch and Timbre Manipulation
Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Wei-Hsiang Liao, Keisuke Toyama, Toshimitsu Uesaka, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Simon Dixon, Yuki Mitsufuji · PDF
Do music LLMs learn symbolic concepts? A pilot study using probing and intervention
Wenye Ma, Xinyue Li, Gus Xia · PDF
Efficient Generative Multimodal Integration (EGMI): Enabling Audio Generation from Text-Image Pairs through Alignment with Large Language Models
Taemin Kim, Wooyeol Baek, Heeseok Oh · PDF
FSD: Acoustic Echo Cancellation with Fewer Step Diffusion
Yang Liu, Li Wan, Yiteng Huang, Ming Sun, Changsheng Zhao, Zhaoheng Ni, Xinhao Mei, Yangyang Shi, Florian Metze · PDF
Generating Vocals from Lyrics and Musical Accompaniment
Georg Streich, Luca A Lanzendörfer, Florian Grötschla, Roger Wattenhofer · PDF
High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching
Gael Le Lan, Bowen Shi, Zhaoheng Ni, Sidd Srinivasan, Anurag Kumar, Brian Ellis, David Kant, Varun K. Nagaraja, Ernie Chang, Wei-Ning Hsu, Yangyang Shi, Vikas Chandra · PDF
Improving Musical Accompaniment Co-creation via Diffusion Transformers
Javier Nistal, Marco Pasini, Stefan Lattner · PDF
Improving Source Extraction with Diffusion and Consistency Models
Tornike Karchkhadze, Mohammad Rasool Izadi, Shuo Zhang · PDF
Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses
Suhita Ghosh, Frank Dreyer, Tim Thiele, Frederic Lorbeer, Sebastian Stober · PDF
Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM
Robin Shing-Hei Yuen, Timothy Tin-Long Tse, Jian Zhu · PDF
Latent Diffusion Model for Audio: Generation, Quality Enhancement, and Neural Audio Codec
Haohe Liu, Wenwu Wang, Mark D Plumbley · PDF
LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking
Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji · PDF
LoVA: Long-form Video-to-Audio Generation
Xin Cheng, Xihua Wang, Yihan Wu, Yuyue Wang, Ruihua Song · PDF
MLADDC: Multi-Lingual Audio Deepfake Detection Corpus
ARTH JUHUL SHAH, Ravindrakumar M. Purohit, Dharmendra H. Vaghera, Hemant Patil · PDF
Multi-Source Music Generation with Latent Diffusion
Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury · PDF
MusicScore: A Dataset for Music Score Modeling and Generation
Yuheng Lin, Zheqi DAI, Qiuqiang Kong · PDF
Neural Audio Codec for Latent Music Representations
Luca A Lanzendörfer, Florian Grötschla, Amir Dellali, Roger Wattenhofer · PDF
One-shot Text-aligned Virtual Instrument Generation Utilizing Diffusion Transformer
Qihui Yang, Jiahe Lei, Qiuqiang Kong · PDF
Parrot: Autoregressive Spoken Dialogue Language Modeling with Decoder-only Transformers
Ziqiao Meng, Qichao Wang, Wenqian Cui, Yifei Zhang, Bingzhe Wu, Irwin King, Liang Chen, Peilin Zhao · PDF
SNAC: Multi-Scale Neural Audio Codec
Hubert Siuzdak, Florian Grötschla, Luca A Lanzendörfer · PDF
Sound-VECaps: Improving Audio Generation With Visual Enhanced Captions
Yi Yuan, Dongya Jia, Xiaobin Zhuang, Yuanzhe Chen, Zhengxi Liu, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xubo Liu, Xiyuan Kang, Mark D Plumbley, Wenwu Wang · PDF
SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji · PDF
Spatially-Aware Losses for Enhanced Neural Acoustic Fields
Christopher A. Ick, Gordon Wichern, Yoshiki Masuyama, François Germain, Jonathan Le Roux · PDF
Style Mixture of Experts for Expressive Text-To-Speech Synthesis
Ahad Jawaid, Shreeram Suresh Chandra, Junchen Lu, BERRAK SISMAN · PDF
Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation
Chenxu Xiong, Ruibo Fu, Shuchen Shi, Zhengqi Wen, Tao Wang, Chenxing Li, Chunyu Qiang, Yuankun Xie, XinQi, Guanjun Li, Zizheng Yang · PDF
Text-to-Audio Generation via Bridging Audio Language Model and Latent Diffusion
ZHENYU WANG, Chenxing Li, YONG XU, Chunlei Zhang, John H. L. Hansen, Dong Yu · PDF
Three-modal guidance for symbolic music generation: melody, structure, texture
Daniel Alexander Lucht, David Philip Leins, Dimitri von Rütte, Alexandra Moringen · PDF
Towards Temporally Synchronized Visually Indicated Sounds Through Scale-Adapted Positional Embeddings
Xinhao Mei, Gael Le Lan, Haohe Liu, Zhaoheng Ni, Varun K. Nagaraja, Anurag Kumar, Yangyang Shi, Vikas Chandra · PDF
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment
Bing Han, Long Zhou, Shujie LIU, Sanyuan Chen, Lingwei Meng, Yanmin Qian, Eric Liu, sheng zhao, Jinyu Li, Furu Wei · PDF
Vision Language Models Are Few-Shot Audio Spectrogram Classifiers
Satvik Dixit, Laurie Heller, Chris Donahue · PDF
What do MLLMs hear? Examining the interaction between LLM and audio encoder components in Multimodal Large Language Models
Enis Berk Çoban, Michael I Mandel, Johanna Devaney · PDF

Accepted papers (48)

☆3D Audio-Visual Segmentation

☆A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation

☆Articulatory Synthesis of Speech and Diverse Vocal Sounds via Optimization

☆AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models

☆AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

☆Benchmarking Music Generation Models and Metrics via Human Preference Studies

☆BLAP: Bootstrapping Language-Audio Pre-training for Music Captioning

☆Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation

☆Coarse-to-Fine Text-to-Music Latent Diffusion

☆Contextual Speech Emotion Recognition with Large Language Models and ASR-Based Transcriptions

☆Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

☆Contrastive Lyrics Alignment with a Timestamp-Informed Loss

☆DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech

☆Decoding Musical Perception: Music Stimuli Reconstruction from Brain Activity

☆Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis

☆DGFM: Full Body Dance Generation Driven by Music Foundation Models

☆Diffusion-based Speech Enhancement: Demonstration of Performance and Generalization

☆Disentangling Multi-instrument Music Audio for Source-level Pitch and Timbre Manipulation

☆Do music LLMs learn symbolic concepts? A pilot study using probing and intervention

☆Efficient Generative Multimodal Integration (EGMI): Enabling Audio Generation from Text-Image Pairs through Alignment with Large Language Models

☆FSD: Acoustic Echo Cancellation with Fewer Step Diffusion

☆Generating Vocals from Lyrics and Musical Accompaniment

☆High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching

☆Improving Musical Accompaniment Co-creation via Diffusion Transformers

☆Improving Source Extraction with Diffusion and Consistency Models

☆Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses

☆Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM

☆Latent Diffusion Model for Audio: Generation, Quality Enhancement, and Neural Audio Codec

☆LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking

☆LoVA: Long-form Video-to-Audio Generation

☆MLADDC: Multi-Lingual Audio Deepfake Detection Corpus

☆Multi-Source Music Generation with Latent Diffusion

☆MusicScore: A Dataset for Music Score Modeling and Generation

☆Neural Audio Codec for Latent Music Representations

☆One-shot Text-aligned Virtual Instrument Generation Utilizing Diffusion Transformer

☆Parrot: Autoregressive Spoken Dialogue Language Modeling with Decoder-only Transformers

☆SNAC: Multi-Scale Neural Audio Codec

☆Sound-VECaps: Improving Audio Generation With Visual Enhanced Captions

☆SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

☆Spatially-Aware Losses for Enhanced Neural Acoustic Fields

☆Style Mixture of Experts for Expressive Text-To-Speech Synthesis

☆Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation

☆Text-to-Audio Generation via Bridging Audio Language Model and Latent Diffusion

☆Three-modal guidance for symbolic music generation: melody, structure, texture

☆Towards Temporally Synchronized Visually Indicated Sounds Through Scale-Adapted Positional Embeddings

☆VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment

☆Vision Language Models Are Few-Shot Audio Spectrogram Classifiers

☆What do MLLMs hear? Examining the interaction between LLM and audio encoder components in Multimodal Large Language Models

3D Audio-Visual Segmentation

A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation

Articulatory Synthesis of Speech and Diverse Vocal Sounds via Optimization

AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Benchmarking Music Generation Models and Metrics via Human Preference Studies

BLAP: Bootstrapping Language-Audio Pre-training for Music Captioning

Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation

Coarse-to-Fine Text-to-Music Latent Diffusion

Contextual Speech Emotion Recognition with Large Language Models and ASR-Based Transcriptions

Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation

Contrastive Lyrics Alignment with a Timestamp-Informed Loss

DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech

Decoding Musical Perception: Music Stimuli Reconstruction from Brain Activity

Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis

DGFM: Full Body Dance Generation Driven by Music Foundation Models

Diffusion-based Speech Enhancement: Demonstration of Performance and Generalization

Disentangling Multi-instrument Music Audio for Source-level Pitch and Timbre Manipulation

Do music LLMs learn symbolic concepts? A pilot study using probing and intervention

Efficient Generative Multimodal Integration (EGMI): Enabling Audio Generation from Text-Image Pairs through Alignment with Large Language Models

FSD: Acoustic Echo Cancellation with Fewer Step Diffusion

Generating Vocals from Lyrics and Musical Accompaniment

High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching

Improving Musical Accompaniment Co-creation via Diffusion Transformers

Improving Source Extraction with Diffusion and Consistency Models

Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses

Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM

Latent Diffusion Model for Audio: Generation, Quality Enhancement, and Neural Audio Codec

LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking

LoVA: Long-form Video-to-Audio Generation

MLADDC: Multi-Lingual Audio Deepfake Detection Corpus

Multi-Source Music Generation with Latent Diffusion

MusicScore: A Dataset for Music Score Modeling and Generation

Neural Audio Codec for Latent Music Representations

One-shot Text-aligned Virtual Instrument Generation Utilizing Diffusion Transformer

Parrot: Autoregressive Spoken Dialogue Language Modeling with Decoder-only Transformers

SNAC: Multi-Scale Neural Audio Codec

Sound-VECaps: Improving Audio Generation With Visual Enhanced Captions

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Spatially-Aware Losses for Enhanced Neural Acoustic Fields

Style Mixture of Experts for Expressive Text-To-Speech Synthesis

Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation

Text-to-Audio Generation via Bridging Audio Language Model and Latent Diffusion

Three-modal guidance for symbolic music generation: melody, structure, texture

Towards Temporally Synchronized Visually Indicated Sounds Through Scale-Adapted Positional Embeddings

VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment

Vision Language Models Are Few-Shot Audio Spectrogram Classifiers

What do MLLMs hear? Examining the interaction between LLM and audio encoder components in Multimodal Large Language Models