Julius Richter, MSc

Photo: unknown-riju

Audio-Visual Signal Processing

Signal Processing (SP)

Address

University of Hamburg

Department of Informatics

SP Research Group

Contact

Email: julius.richter"AT"uni-hamburg.de

Research interests

Deep generative models

Speech enhancement

Multi-modal learning

Publications

Julius Richter, Till Svajda, Timo Gerkmann, "ReverbFX: A Dataset of Room Impulse Responses Derived from Reverb Effect Plugins for Singing Voice Dereverberation," submitted to ITG Conference on Speech Communication, Berlin, Germany, Sept. 2025. [arxiv] [audio]
Danilo de Oliveira, Julius Richter, Tal Peer, Timo Gerkmann, "LipDiffuser: Lip-to-Speech Generation with Conditional Diffusion Models," submitted to Conference on Neural Information Processing Systems (NeurIPS), 2025. [arxiv]
Julius Richter, Danilo de Oliveira, Timo Gerkmann, "Normalize Everything: A Preconditioned Magnitude-Preserving Architecture for Diffusion-Based Speech Enhancement," submitted to IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2025. [arxiv]
Danilo de Oliveira, Julius Richter, Jean-Marie Lemercier, Simon Welker, Timo Gerkmann, "Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech," ISCA Interspeech, Rotterdam, Netherlands, Aug. 2025. [arxiv]
Julius Richter, Danilo de Oliveira, Timo Gerkmann, "Investigating Training Objectives for Generative Speech Enhancement," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Hyderabad, India, April 2025. [doi] [arxiv] [audio] [code]
Jean-Marie Lemercier, Julius Richter, Simon Welker, Eloi Moliner, Vesa Välimäki, Timo Gerkmann, "Diffusion Models for Audio Restoration," IEEE Signal Processing Magazine, vol. 41, no. 6, pp. 72-84, Nov. 2024. [doi] [arxiv]
Julius Richter, Timo Gerkmann, "Diffusion-based Speech Enhancement: Demonstration of Performance and Generalization," Audio Imagination NeurIPS 2024 Workshop, Vancouver, Canada, Dec. 2024. [openreview] [video]
Julius Richter, Yi-Chiao Wu, Steven Krenn, Simon Welker, Bunlong Lay, Shinji Watanabe, Alexander Richard, Timo Gerkmann, "EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation," ISCA Interspeech, Kos, Greece, Sep. 2024. [doi] [arxiv] [audio] [code]
Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Tal Peer, Timo Gerkmann, "Causal Diffusion Models for Generalized Speech Enhancement," IEEE Open Journal of Signal Processing, vol. 5, pp 780-789, 2024. [doi] [audio]
Bunlong Lay, Jean-Marie Lemercier, Julius Richter, Timo Gerkmann, "Single and Few-step Diffusion for Generative Speech Enhancement," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Seoul, South Korea, Apr. 2024. [doi] [arxiv] [audio] [code]
Julius Richter, Simone Frintrop, Timo Gerkmann, "Audio-Visual Speech Enhancement with Score-Based Generative Models," ITG Conference on Speech Communication, Aachen, Germany, Sept. 2023. [doi] [arxiv] [audio]
Danilo de Oliveira, Julius Richter, Jean-Marie Lemercier, Tal Peer, Timo Gerkmann, "On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings," ITG Conference on Speech Communication, Aachen, Germany, Sept. 2023. [doi] [arxiv]
Bunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann "Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement", ISCA Interspeech, Dublin, Ireland, Aug. 2023. [doi] [arxiv] [audio] [code]
Hector Martel, Julius Richter, Kai Li, Xiaolin Hu, Timo Gerkmann, "Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model," ISCA Interspeech, Dublin, Ireland, Aug. 2023. [doi] [arxiv] [code]
Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Tal Peer, Timo Gerkmann, "Speech Signal Improvement Using Causal Generative Diffusion Models," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Rhodes, Greece, Jun. 2023. [doi] [arxiv] [audio]
Jean-Marie Lemercier, Julius Richter, Simon Welker, Timo Gerkmann, "Analysing Diffusion-based Generative Approaches versus Discriminative Approaches for Speech Restoration," IEEE IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Rhodes, Greece, Jun. 2023. [doi] [arxiv]
Jean-Marie Lemercier, Julius Richter, Simon Welker, Timo Gerkmann, "StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation," IEEE/ACM Transactions on Audio, Speech, Language Processing, vol. 31, pp. 2724 -2737, 2023. [doi] [arxiv] [audio] [code]
Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann, "Speech Enhancement and Dereverberation with Diffusion-Based Generative Models," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 2351 - 2364, 2023. [doi] [arxiv] [audio] [code]
Simon Welker, Julius Richter, Timo Gerkmann, "Speech Enhancement with Score-Based Generative Models in the Complex STFT Domain," ISCA Interspeech, Incheon, Korea, Sep. 2022. [doi] [arxiv] [audio] [code]
Julius Richter, Jeanine Liebold, Timo Gerkmann, "Continuous Phoneme Recognition based on Audio-Visual Modality Fusion," IEEE World Congress on Computational Intelligence, Padua, Italy, Jul. 2022. [doi] [code]
Guillaume Carbajal, Julius Richter, Timo Gerkmann, "Disentanglement Learning for Variational Autoencoders Applied to Audio-Visual Speech Enhancement," IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, Oct. 2021. [doi] [arxiv]
Guillaume Carbajal, Julius Richter, Timo Gerkmann, "Guided Variational Autoencoder for Speech Enhancement With a Supervised Classifier," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Toronto, Ontario, Canada, Jun. 2021. [doi] [arxiv]
Julius Richter, Guillaume Carbajal, Timo Gerkmann, "Speech Enhancement with Stochastic Temporal Convolutional Networks," ISCA Interspeech, Shanghai, China, Oct. 2020. [doi] [audio]
Quan Nguyen, Julius Richter, Mikko Lauri, Timo Gerkmann, Simone Frintrop, "Improving mix-and-separate training in audio-visual sound source separation with an object prior," ICPR 2020. [doi]