科技是第一生产力、人才是第一资源、创新是第一动力 加快建设科技强国,实现高水平科技自立自强
氢能科技 沙蓬绿色种养产业模式 联源科技 超联科技 园区 园区 园区 园区 园区

我区重点实验室在语音合成领域取得新进展

   2022-05-18 内蒙古自治区科技厅
41
核心提示:近日,内蒙古大学的自治区蒙古文信息处理技术重点实验室高光来教授科研团队与香港中文大学李海洲教授科研团

近日,内蒙古大学的自治区蒙古文信息处理技术重点实验室高光来教授科研团队与香港中文大学李海洲教授科研团队合作在国际信号处理领域TOP期刊《IEEE/ACM音频、语音和语言处理汇刊》(IEEE/ACM Transactions on Audio, Speech, and Language Processing)上发表了“神经语音合成训练中的解码知识迁移”(Decoding Knowledge Transfer for Neural Text-to-Speech Training)的最新成果。

该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目以及国家重点研发计划项目,国家自然基金项目,内蒙古自然科学基金项目,内蒙古自治区成果转化项目,内蒙古自治区应用技术研究与开发资金项目等项目的支持。

该研究针对语音合成的鲁棒性、表现力建模问题开展研究,提出了一种多教师知识蒸馏学习的语音合成声学建模方法。

语音合成的主要目的是将输入文本转化为高质量的合成语音,其中,端到端语音合成方法基于“编码器-解码器”结构可以实现优秀的语音合成表现,成为当前语音合成的主流方法。由于端到端语音合成模型的解码器在训练阶段和推理阶段存在解码方式不匹配的问题而导致模型在鲁棒性和表现力方面表现欠佳。为了提升端到端语音合成模型在鲁棒性和表现力两方面的表现,科研团队提出基于多教师知识蒸馏学习的声学建模方法。整个系统包含两个教师模型和一个学生模型:两个教师模型分别采用Teacher-forcing和Scheduled-Sampling解码机制,可以输出真实稳定的语音参数;学生模型则采用模型推理阶段的Free-Running解码机制。在多教师知识蒸馏学习阶段,通过添加多教师蒸馏损失函数,利用教师模型的知识来对学生模型的输出进行指导。训练结束后,学生模型可以在推理阶段直接使用,输出稳定可靠的声学参数进行合成语音的生成。最终,实验结果证明本文方法与传统端到端语音合成模型相比可以合成更加鲁棒和表现力丰富的合成语音。


论文链接:https://ieeexplore.ieee.org/document/9767637


免责声明:本网转载自其它媒体的文章,目的在于弘扬科技创新精神,传递更多科技创新信息,宣传国家科技政策,展示国家科技形象,增强国家科技软实力,参与国际科技舆论竞争,提高国际科技话语权,并不代表本网赞同其观点和对其真实性负责,在此我们谨向原作者和原媒体致以崇高敬意。如果您认为本网文章及图片侵犯了您的版权,请与我们联系,我们将第一时间删除。
 
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用说明  |  隐私政策  |  免责声明  |  网站地图  |   |  粤ICP备05102027号

粤公网安备 44040202001358号