AI-Sound

程皓楠
Haonan Cheng

中国传媒大学

媒体融合与传播国家重点实验室
haonancheng@cuc.edu.cn

程皓楠，中国传媒大学媒体融合与传播国家重点实验室副研究员，主要研究方向为音频信息处理、视听跨模态生成与鉴伪。2024年成为我国首位被亚广联ABU授予亚太地区“青年工程师奖”的技术专家，2021年入选校青年拔尖人才支持计划。近年来发表IEEE TOG、TIFS、TASLP、SIGGRAPH、IEEE VR、IJCAI、AAAI、ACM MM等SCI/EI论文40余篇；授权国家发明专利2项，获第5届CSIG中国媒体取证与安全大会优秀论文奖、第20届数字多媒体通信国际论坛最佳海报论文奖。获国家自然科学基金、国家重点研发计划、国家社会科学基金、广播电视和网络视听中长期科技计划等10余项项目资助，应邀在中国人工智能学会前沿讲习班、全国开源情报技术大会等国内外会议做特邀报告10余次。担任中国图象图形学学会多媒体专委会委员、数字多媒体通信国际论坛程序主席、中国多媒体大会论坛主席、ACM MM等国际会议分会场主席。

AI-Sound 小组研究方向一览

我们的研究方向包括音效合成、空间音频渲染/重放、音乐智能作曲、语音鉴伪、歌声鉴伪、视频鉴伪，服务于广播电视内容制作、内容安全等领域。

音效合成（Sound synthesis)

根据视觉信息（2D/3D）、文本信息合成内容一致、时序同步的音效。
Synthesizing sound effects with consistent content and synchronized timing based on visual (2D/3D) and textual information.

空间音频渲染（Spatial audio rendering）

通过对画面信息进行理解，实现对空间音频的重构。
Reconstructing spatial audio by understanding visual information.

音乐智能作曲（Music generation）

根据文本提示词生成不同风格、不同情感的音乐（伴奏+旋律）。
Generating music (accompaniment + melody) in different styles and emotions based on text prompt words.

语音鉴伪（Speech forgery detection)

自动识别输入语音通过TTS/VC算法合成或真实录制。
Automatic recognition of input speech synthesized by TTS/VC algorithms or real recorded.

歌声鉴伪（Fake song detection)

自动识别输入歌声通过TTS/VC算法合成或真实录制。
Automatic recognition of input songs synthesised by TTS/VC algorithms or real recorded.

时序伪造定位（Temporal forgery localization）

定位音频和视频的伪造内容的起始时间和终止时间。
Locate the beginning and ending times of the fake audio and video content.