I am a second-year master’s student in Zhejiang University. I also worked at MSRA-Natural Language Computing Group , Alibaba Speech Lab, Qwen LLM Team ago. I have published some papers (第一作者/共一第一) at the top international AI conferences such as ICLR2025, ACL2025, ACL2024, AAAI2025, ICASSP2024 with total google scholar citations .

My first-author paper include:

Large Audio Languge Models, End-to-End Spoken Dialogue Models. (WavTokenzier, WavChat, WavRAG, WavReward, WavOmni, WavBench)
Text to Speech. (TextrolSpeech, MobileSpeech, ControlSpeech)
Codec. (Language-Codec, UniCodec, WavTokenizer, VQGAE (comming soon🔥))

🔥 News

2025.07: Language-Codec, WavRAG, T2A-Feedback are selected as ACL Oral. We propose WavReward on arxiv. 2 papers are accepted by ICCV and ACM MM.
2025.05: ControlSpeech and Language-Codec are accepted by ACL 2025 Main. 9 papers are accepted by ACL 2025 (8 Main). 1 paper is accepted by ICML 2025.
2025.02: 1 paper is accepted by CVPR 2025. I was selected as a reviewer for ICCV 2025, ACMMM 2025, NeurIPS 2025.
2025.01: 🎉🎉WavTokenizer is accepted by ICLR 2025! 4 papers are accepted by ICLR 2025. I was selected as a reviewer for ARR (ACL 2025) and an outstanding reviewer for ICASSP 2025.
2024.12: DiscreteWM is accepted by AAAI 2025 and I was selected as a reviewer for IJCAI 2025, ICML 2025.
2024.11: We release WavChat (A survey of spoken dialogue models about 60 pages) on arxiv.
2024.10: 🎉🎉 I win the Nation Scholarship in the first year of master and was selected as a Top Reviewer for NeurIPS 2024. I join Qwen Team this month.
2024.09: 1 paper is accepted by 2024 EMNLP Main.
2024.07: Alibaba Tongyi (co-worker) open source a large speech system and release technical report FunAudioLLM(CosyVoice) which will largely influence the speech area!
2024.07: 1 paper is accepted by 2024 ACMMM.
2024.05: MobileSpeech is accepted by 2024 ACL Main(Top conference in nlp)!
2024.01: MobileSpeech has been successfully deployed into Magic6 series in Honor Mobile phone!
2024.01: MagaTTS 2 (co-worker) is accepted by 2024 ICLR (Top conference in machine learning)!
2023.11: Megatts has been successfully deployed into products at ByteDance!
2023.03: 🎉🎉 I join Microsoft Research Asia(MSRA), Natural Language Computing Group as a research intern!
2021.11: I join Tsinghua Shenzhen International Graduate School as a remote intern.

📝 Publications(一作/共一/高影响力)

🎙 Controllable and Zero-shot Text-to-Speech, Codec Representation

ICLR 2025

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
Authors: Shengpeng Ji, Ziyue Jiang, Wen Wang, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Xize Cheng, Zehan Wang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Zhou Zhao

Hugingface Face Daily paper rank3, Our work are promoted by different media and forums, such as Speech Home, and Twitter, which is a Trending Project at both Github and Paperwithcode.
Audio samples are available in this website
Code is available in this

ICASSP 2024

TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models
Authors: Shengpeng Ji, Jialong Zuo, Minghui Fang, Ziyue Jiang, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao

Audio samples are available in this website
Code is available in this

ACL 2024 Main

MobileSpeech: A Fast and High-Fidelity Framework for Mobile Zero-Shot Text-to-Speech
Authors: Shengpeng Ji, Ziyue Jiang, Hanting Wang, Jialong Zuo, Zhou Zhao

Audio samples are available in this website
This work was deployed in the Honor phone Magic6 series.

AAAI 2025

DiscreteWM: Speech Watermarking with Discrete Representations
Authors: Shengpeng Ji, Ziyue Jiang, Jialon Zuo, Minghui Fang, Yifu Chen, Tao Jin, Zhou Zhao

Audio samples are available in this website

ACL 2025 Main

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec
Authors: Shengpeng Ji, Jialong Zuo, Minghui Fang, Siqi Zheng, Qian Chen, Wen Wang, Ziyue Jiang, Hai Huang, Xize Cheng, Rongjie Huang, Zhou Zhao

Codes are available in this website
Audio samples are available in this website

ACL 2025 Oral

Language-Codec: Reducing the Gaps Between Discrete Codec Representation and Speech Language Models
Authors: Shengpeng Ji, Minghui Fang, Ziyue Jiang, Rongjie Huang, Jialong Zuo, Shulei Wang, Zhou Zhao

Codes are available in this website
Audio samples are available in this website

ACL 2025 Oral WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models, Yifu Chen^*, Shengpeng Ji^*, Haoxiao Wang, Ziqing Wang, Siyu Chen, Jinzheng He, Jin Xu, Zhou Zhao

ACL 2025 Main UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook, Yidi Jiang^*, Qian Chen^*, Shengpeng Ji^*, Yu Xi, Wen Wang, Chong Zhang, Xianghu Yue, ShiLiang Zhang, Haizhou Li

ACL 2025 Main Rhythm Controllable and Efficient Zero-Shot Voice Conversion via Shortcut Flow Matching, Jialong Zuo^*, Shengpeng Ji^*, Minghui Fang^*, Mingze Li, Ziyue Jiang, Xize Cheng, Xiaoda Yang, Chen Feiyang, Xinyu Duan, Zhou Zhao

ACL 2025 Main ACE: A Generative Cross-Modal Retrieval Framework With Coarse-To-Fine Semantic Modeling, Minghui Fang^*, Shengpeng Ji^*, Jialong Zuo^*, Hai Huang, Yan Xia, Jieming Zhu, Xize Cheng, Xiaoda Yang, Wenrui Liu, Gang Wang, Zhenhua Dong, Zhou Zhao

ICASSP 2025 PFlow-VC: Enhancing Expressive Voice Conversion with Discrete Pitch-Conditioned Flow Matching Model, Jialong Zuo^*, Shengpeng Ji^*, Minghui Fang, Ziyue Jiang, Xize Cheng, Qian Yang,Wenrui Liu, Guangyan Zhang, Zehai Tu, Yiwen Guo, Zhou Zhao

Alibaba Technical report FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs, Keyu An, Qian Chen, Chong Deng, Zhihao Du, Changfeng Gao, Zhifu Gao, Yue Gu, Ting He, Hangrui Hu, Kai Hu, Shengpeng Ji, Yabin Li, Zerui Li, Heng Lu, Xiang Lv, Bin Ma, Ziyang Ma, Chongjia Ni, Changhe Song, Jiaqi Shi, Xian Shi, Hao Wang, Wen Wang, Yuxuan Wang, Zhangyu Xiao, Zhijie Yan, Yexin Yang, Bin Zhang, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Siqi Zheng

ICLR 2024 (Zero-shot TTS) MegaTTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis, Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Zhenhui Ye, Shengpeng Ji, Chen Zhang, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun MA, Zhou Zhao

🎖 Honors and Awards

2024.10 National Scholarship (master) (Top 1%, 2/327)
2023.06 Outstanding graduate of Jilin University (Top 5%)
2023.06 One-class scholarship of Jilin University (Top 1%, 1/392)
2021.10 National Scholarship (Undergraduate) (Top 1%, 5/392)

📖 Educations

2023.09 - 2026.03, Master, Software Engineering, Zhejiang University.
2019.09 - 2023.06, Undergraduate, Software Engineering, JiLin Univeristy.

🧑‍🎨 Professional Services

Conference Reviewer/Program Committee: EMNLP 2023, ACM-MM 2024, ECCV 2024, NeurIPS 2024 (outstanding reviewer), ICASSP 2025 (outstanding reviewer), AISTATS 2025, ICLR 2025, CVPR 2025, IJCAI 2025, ICML 2025, ACL 2025 (ARR 2), ICCV 2025, NeurIPS 2025, ACM-MM 2025, EMNLP 2025, AAAI 2026.

💻 Internships

2025.05 - now, Tencent, HunYuan Team , 青云计划, Shanghai Xuhui Area.
2024.10 - 2025.05, Alibaba, Qwen Team , Hangzhou YunGu Area.
2024.04 - 2024.10, Alibaba, DAMO Academy, Tongyi Lab , Hangzhou YunGu Area.
2023.03 - 2023.08, MSRA,Natural Language Computing Group , Beijing HaiDian Area.
2021.11 - 2022.05, Tsinghua Shenzhen International Graduate School , Remote.