我正在寻找API在iOS上将语音项目转换为文本,但主要用于数字和字母,如1,2,3,4和a,b,c,d.
我已经像许多人建议的那样尝试过OpenEars,但它似乎只支持某些ords,例如“GO FORWARD BACKWARD LEFT RIGHT START STOP TURN”.它可以用于识别通用词或口语号吗?
我也尝试过iSpeech API,但是当我说出一串像12345这样的数字时,它只能返回文本“一二三四五”,它只能给我识别的结果而不是一个猜测列表(如Android上的Google语音识别API).
如何使用这些API(或其他替代方法)来识别口头数字或字母?
解决方法
要了解如何创建自定义语言模型以及如何使用OpenEars动态创建语言模型(语言模型是您自定义的单词集),请阅读OpenEars文档:
http://www.politepix.com/openears/yourapp
要了解如何使用OpenEars声学模型来识别口语数字,请在OpenEars论坛中阅读此讨论:
http://www.politepix.com/forums/topic/way-to-see-phonemes-openears-heard
您还可以查看OpenEars示例应用程序中的代码,该应用程序经过大量评论,并显示了内联更改应用程序“词汇表”的示例.如果您对实施OpenEars有更多疑问,我建议在OpenEars论坛上创建一个帐户(我是OpenEars开发人员).