Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运

前言:大家好,这是我的第二篇博文。上一篇介绍了一下在Linux环境下实现android的离线语音识别,本文主要说一下如何将这个工程成功地在Windows下运行起来。还是那句话,我所涉及的范围只是“应用”,由于时间的关系,对于一些原理性的东西我确实没有弄明白,我只是要求能够跑通,能够实现成功地的识别的目的。我会将一些我不懂的问题在下边一一列出来,有时间我一定尽力把它的原理弄明白。另外,上一篇中我引用了许多链接,虽然方便了,但我感觉不如自己写出来对自己以后发展更有帮助,很容易就忘掉了,所以,在这一次我争取把我所从事的试验、尝试和所遇到的问题都写出来,希望帮到别人同时也提醒自己不要忘掉。

我对这一个工程的理解:在我看来,这一工程实际上就是一个通过jni编程调用微软写的sphinx和pocketsphinx函数库(这两个库都是C语言写的),然后通过声学模型分析录入的语音,根据分析出的特性在数据字典中寻找匹配的文字。主要用到的知识应该就是jni交叉语言编程,其实质也就是通过NDK,借助这两个函数库编译出最终的.so文件。(当然,这其中也包括用到swig将c 接口转java 并生成java类,这个我不太懂就不说了)最终的android程序也就是要通过这个.so文件去实现识别功能,android终究是linux的程序,它还是要依托linux下的共享函数库即.so文件而不是windows下的.dll文件。

我的源代码下载链接:。

重要提示:有一点之前没有说明,在整个环境配置中涉及了两个demo,一个是官方提供的即?source=navbar.

在Windows下实现Android离线语音识别所需要的工具和步骤:

1、安装Cygwin—它是模拟Linux系统的软件。安装很简单,网上有很多,所要注意有以下几点:

1) cygwin就相当于一个小型的linux系统,它所有的包的安装和卸载都只能通过运行安装程序“setup.exe”实现。

2) 在选择站点的时候可以找一些距离自己位置比较近的,这样可以加快速度,我用得站点是“neusoft.cn”(东软 的),这个就比较快。

3)不要所有的包都安装,太浪费时间,选择一些必备的和程序相关的安装。这些必备的包在android NDK环境配置的教程中有,但是不全,在以后的编译安装中还要用到其他包,所以还要用同样的方法安装。注意:安装swig包的时候一定不要安装2.0.9的版本,要用1.3.40的,正是因为这一原因,ndk编译始终无法通过。

4)切换到root权限的办法是:修改cygwin/etc/passwd文件中的500:513为0:0。

2、配置NDK环境,这个网上很多,只需几步:下载-解压-配置.profile文件-测试。

3、虚拟的Linux环境已经搭建好。剩余的步骤和上一篇博文中提到的方法是样的。注意:在修改Android.mk文件中的SPHINX_PATH值时,应以“/cygdrive/d/….”开头。

4、与Linux下配置不同的一点是在对Eclipse的NDK环境配置上,我遇到的问题是,换了swig版本之后再cygwin终端下手动输入命令可以实现ndk编译,但是无法用eclipse自动编译pocketsphinx_wrap.c文件。我的解决办法是,更改NDK Builder的配置,上图:并且在“build option—specify resource”中选择自己的工程。相信大家应该能看懂。

这样,整个工程便可以运行了。但是,说实话,我着实不知道这是为什么。

下边是我在整个工程中不明白的问题:

1、不管是在Linux还是在Windows环境下,在pocketsphinx/swig路径下执行“make”这一步我都没有成功,但是最终却又没有影响程序的运行和识别。在swig中编译的目的是什么?为什么又不影响程序的运行。Swig作用又是什么?

2、在eclipse的NDK Builder配置中,在我看来我之前选择用ndk_build.cmd来编译是没问题的,,网上也有这样的配置,为什么编译工程的时候又会提示缺少一些头文件呢?Android.mk的路径配置没什么问题,手动编译可以,为什么自动编译就不行?

总结:Android离线语音识别的东西可能将要告一段落,毕业设计要做HTML5的东西,感觉这一块儿学的一点也不扎实,只是为了应用,希望以后能把这一课补上,尽量让自己能多理解一些原理性的东西,而不只是停留在表面。

为我祈祷平安就好。我的旅行,会有你们的故事陪伴,所以我不会孤单。放心吧。

Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运

相关文章:

你感兴趣的文章:

标签云: