我试图找出如何使用sphinx4或pocketphinx与英语voxforge模型,但我无法让它工作.我已经尝试阅读doc页面(像这样一个
http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html),但它并没有帮助我.
我想要的是一个可执行文件,我可以指定要使用的模型和哪个音频文件用作源代码,并且可执行文件打印出来,最好猜测录音中的声音是什么.
我有一些运气:
pocketphinx_continuous -infile recording.wav 2>的/ dev / null的
但是,在完整的音频文件被转录之前,它会中止,默认模型已经有几个字可以从音频创建可读的文本.
我已经编译和测试了sphinx4源码包中的演示,但是所有的例子似乎都需要几个字,并且需要一个模型,使用voxforge来对我有用.
我该如何设定?
解决方法
插入Voxforge声学模型非常简单.涵盖API的主要文档是cmusphinx教程:
http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4
在开始之前,建议阅读它.还请注意,建议使用En_US英文通用声学模型,它比Voxforge更准确.
一步一步,您需要执行以下操作:
>从sourceforge下载voxforge model并将其解压缩到一个文件夹
>从github结帐sphinx4,并用gradle构建它
> Run TranscriberDemo
>转到sphinx4-samples / src / main / java / edu / cmu / sphinx / demo / transcriber文件夹,打开Transcriber演示并编辑声学模型路径如下.
>如果您需要另一个音频文件,请在源中编辑音频文件的位置
再次运行演示,享受
就是这样
// Load model from the folder in your project configuration.setAcousticModelPath("file:voxforge-en-0.4/model_parameters/voxforge_en_sphinx.cd_cont_5000");