程皓楠
Haonan Cheng
中国传媒大学
媒体融合与传播国家重点实验室
haonancheng@cuc.edu.cn

程皓楠,中国传媒大学媒体融合与传播国家重点实验室副研究员,主要研究方向为音频信息处理、视听跨模态生成与鉴伪。2024年成为我国首位被亚广联ABU授予亚太地区“青年工程师奖”的技术专家,2021年入选校青年拔尖人才支持计划。近年来发表IEEE TOG、TIFS、TASLP、SIGGRAPH、IEEE VR、IJCAI、AAAI、ACM MM等SCI/EI论文40余篇;授权国家发明专利2项,获第5届CSIG中国媒体取证与安全大会优秀论文奖、第20届数字多媒体通信国际论坛最佳海报论文奖。获国家自然科学基金、国家重点研发计划、国家社会科学基金、广播电视和网络视听中长期科技计划等10余项项目资助,应邀在中国人工智能学会前沿讲习班、全国开源情报技术大会等国内外会议做特邀报告10余次。担任中国图象图形学学会多媒体专委会委员、数字多媒体通信国际论坛程序主席、中国多媒体大会论坛主席、ACM MM等国际会议分会场主席。
AI-Sound 小组研究方向一览
我们的研究方向包括音效合成、空间音频渲染/重放、音乐智能作曲、语音鉴伪、歌声鉴伪、视频鉴伪,服务于广播电视内容制作、内容安全等领域。
音效合成(Sound synthesis)
根据视觉信息(2D/3D)、文本信息合成内容一致、时序同步的音效。
Synthesizing sound effects with consistent content and synchronized timing based on visual (2D/3D) and textual information.
空间音频渲染(Spatial audio rendering)
通过对画面信息进行理解,实现对空间音频的重构。
Reconstructing spatial audio by understanding visual information.
音乐智能作曲(Music generation)
根据文本提示词生成不同风格、不同情感的音乐(伴奏+旋律)。
Generating music (accompaniment + melody) in different styles and emotions based on text prompt words.
语音鉴伪(Speech forgery detection)
自动识别输入语音通过TTS/VC算法合成或真实录制。
Automatic recognition of input speech synthesized by TTS/VC algorithms or real recorded.
歌声鉴伪(Fake song detection)
自动识别输入歌声通过TTS/VC算法合成或真实录制。
Automatic recognition of input songs synthesised by TTS/VC algorithms or real recorded.
时序伪造定位(Temporal forgery localization)
定位音频和视频的伪造内容的起始时间和终止时间。
Locate the beginning and ending times of the fake audio and video content.