将语音音频连接到声音连续的算法?

前端之家收集整理的这篇文章主要介绍了将语音音频连接到声音连续的算法?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在构建一个简单的程序,用人声说出电话号码.

为此,我预先记录了每个数字(具有不同的语调),当我得到一个数字时,我加入音频文件并一起播放它们,并在数字之间添加一些静音.

然而,这听起来并不平滑或自然.

我尝试对文件进行增益和速度规范化,但感觉我需要以某种“智能”方式加入它们,以便过渡听起来很自然.

我寻找一些算法来做到这一点,但没有找到任何东西.

是否有一种已知的方法

谢谢.

解决方法

该算法被称为 PSOLA.存在诸如TD-PSOLA的变体.

总的来说,这里有很多东西 – 如何根据声学特性,源语调和所需的目标语调来决定加入哪些项目.实现起来非常复杂,因此最好使用现有的开源TTS系统和现有的合成器,这些合成器涵盖了所有内容.您可以查看festvoxOpenmary.

原文链接:https://www.f2er.com/html/227420.html

猜你在找的HTML相关文章