前端之家收集整理的这篇文章主要介绍了
将语音音频连接到声音连续的算法?,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在构建一个简单的程序,用人声说出电话号码.
为此,我预先记录了每个数字(具有不同的语调),当我得到一个数字时,我加入音频文件并一起播放它们,并在数字之间添加一些静音.
然而,这听起来并不平滑或自然.
我尝试对文件进行增益和速度规范化,但感觉我需要以某种“智能”方式加入它们,以便过渡听起来很自然.
我寻找一些算法来做到这一点,但没有找到任何东西.
是否有一种已知的方法?
谢谢.
该算法被称为
PSOLA.存在诸如TD-PSOLA的变体.
总的来说,这里有很多东西 – 如何根据声学特性,源语调和所需的目标语调来决定加入哪些项目.实现起来非常复杂,因此最好使用现有的开源TTS系统和现有的合成器,这些合成器涵盖了所有内容.您可以查看festvox或Openmary.
原文链接:https://www.f2er.com/html/227420.html