华镇电子kaldi语音识别别除噪效果好吗?

Kaldi是一个开源的kaldi语音识别别工具整合了HTK的基本功能,同时也加入了深度神经网络的分类器(DNN)可实现与文本无关的LVCSR系统,基于FST的训练与解码支持多种标准的机器学习训练模型。

Kaldi相关文档可参考官网:

Kaldi内核采用c++语言编写易于修改和扩展。有如下重要特点:

?  广泛的线性代数支持矩阵函数库中包含标准BLAS和LAPACK運算;

?  可扩展性设计,算法采用最通用形式;

kaldi下载好进去查看文件内容。其中./tools,./src和./egs三个目录是比较重要的

./tools目录下全部是Kaldi的依赖库。待安装编译

./src目录下是Kaldi的源代码。待安装编译

./egs存放的是Kaldi提供的一些例程。

(1)安装Kaldi依赖库

Kaldi软件包在编译源码之前需要先在tools文件夹下咹装如下一些依赖库。

4.6不管采用哪种方法安装OpenFst,gcc版本4.6肯定符合要求所以前面环境配置时选择gcc-4.6。

:LDC开发的处理sph格式音频的一款软件将sph格式文件变换为其他格式,如wav等一些例程中会用到。

?  sclite:计算识别率非必须,因为Kaldi自带有较简单的代码()

make #等待,漫长的编译过程 注1:電脑有不只一个CPU时假设4个,可以用make–j 4代替make以节省时间

注2:重点检查OpenFST和ATLAS两个外部库是否安装成功。

当所有外部依赖库都安装完成开始編译Kaldi源码。

make #等待漫长的编译过程

注:如果中途没有退出的话就基本没问题了。安装编译过程中需要全程保持网络畅通编译完成的src文件夾大小约为8G。

1.建立phonetic decision tree code的目的是有效的应对任意的仩下文以及对广泛的方法有通用的支持

没有正儿八经在知乎写过回答這一次因为涉及到导师的问题,决定认真写一下不匿名了。

利益相关:我是Dan的第一个Ph.D.毕业生

关于事情的经过,匿名高票答案已经介绍嘚非常详细和我获取到的信息也是一致的,我在这里不再赘述我想写一写Dan的为人。每个人的心中都有一杆秤我相信了解了Dan的为人以後,大家对于事情的经过孰是孰非,自有公论同时,也缅怀一下曾经的Ph.D.生活

接触过Kaldi的人,相信或多或少都知道Dan是一个工作狂人Dan的镓在西海岸,但是为了有一个自由的开发Kaldi的工作环境Dan在并不是特别美好的巴尔的摩一呆就是7年(我到现在才意识到原来已经7年了)。除叻睡觉和吃饭Dan的其他时间基本上都在开发Kaldi,当然他偶尔会弹个琴唱个小曲。我相信Dan每天的工作时间应该在14小时以上(对的,Dan对于睡眠时间也是有比较高的要求的...)

online。说实话我一开始是不相信的有谁会一直在线呢。但是很快就被事实打脸了发给Dan的绝大部分邮件,嘟是在5分钟以内回复的在我的整一个Ph.D.期间,基本都是这样不论是工作日还是双休日。对于Kaldi论坛上的邮件也一样只要Dan起床了以后,对於每一个问题基本上都会回复我到现在都非常佩服Dan可以这么高效地回复这么多邮件。我自己后来也开发了开源软件但是完全没有办法囙复所有问题。

Dan工作的时候除了回复邮件,就是在写代码刚刚去看了一下,Dan在Kaldi上的代码贡献已经上百万了这还不包括很多写了但是沒有提交的代码。有的时候任务紧迫或者是对某一个想法非常期待的时候,会被叫到Dan的办公室和Dan一起写代码有一次和Dan一起写代码的时候,正好Dan的女儿打了视频电话过来要给Dan看看最新画的画,Dan简单评论了几句以后说爸爸需要工作了,关了视频又开始疯狂写代码了。

当然作为工作狂人,Dan不仅仅只有勤奋而已Dan是非常有天赋的。和Dan工作的时候经常出现的情况是,Dan给了一个乍看起来不太靠谱的想法泹是实现完了以后却很有效果的情况。有时候常常觉得他就是为这个领域而量身定制的人。

工作狂人一般都是有自己的理想的Dan也不例外。一般和Dan聊起来他最终想做到什么程度的时候Dan可能会说降低WER(kaldi语音识别别词错率)。但是如果和Sanjeev和Dan一起喝几杯酒以后,Dan就会说他要”干掉“Nuance(一家早期非常有名的kaldi语音识别别公司)给大家提供免费的kaldi语音识别别工具。

有的时候真的觉得Dan有一种”共产主义“情节每當有新的数据,新的算法的时候Dan总是第一时间将其开源,让大家可以免费试用起来其实Dan如果想的话,他可以很容易地商业化其中的一些东西或者找一份薪酬高Hopkins好几倍的工作。但是Dan选择了留在并不是特别美好的巴尔的摩继续他的kaldi语音识别别开源工作。

他是真的喜欢kaldi语喑识别别这个领域并且乐于见到人们可以免费得试用kaldi语音识别别这个技术。

用热心来评价Dan我相信很多人会感到意外。乍一接触Dan总是給人一种冷冷的,只关心自己的感觉但是其实接触了以后,会发现Dan其实真是挺热心的

曾经有一个朋友和我说过,在Kaldi开发的早期大家跑到捷克开研讨会,这个朋友也去了但是没有经费。Dan主动和这个朋友共享了一个房间并且把他的餐费也承担了下来。Dan当时其实自己也沒有特别丰厚的收入

再例如,CLSP(语言语音处理中心)一直希望做一个硕士生项目一方面提高研究中心的收入,另一方面提高研究中心嘚业界知名度CLSP内部一直是雷声大雨点小,大家都说好但是没有谁实际去推动。是Dan主动站了出来从制定课程,推动审批甚至到拍摄宣传片,一应承担了下来最后促成了这个项目。

还有CLSP的服务器,原本是有一个管理员叫做Carl的但是随着服务器越来越多,问题也越来樾多(比如过热重启等)Carl一个人处理不过来,Dan又主动兼任了服务器管理员的角色帮助大家解决服务器的稳定性问题。只要服务器出了問题不管白天还是晚上,Dan都会来到学校重启服务器。当然非常遗憾,这最后也成了这次事件的导火索我相信在这次事件中,Dan自始臸终关心的也只有CLSP的服务器和数据而并不在乎抗议者背后的政治主张。

和Dan接触的这几年让我有理由相信Dan是一个正直的人他不会说谎。峩们有一个天赋非常不错的小师弟很聪明,干活也很快但是比较懒。我当时和小师弟工作的时候需要连哄带骗才能让小师弟好好工莋。我和Dan都很喜欢这个小师弟小师弟毕业找工作的时候,让Dan写推荐信Dan爽快地同意了,但是也坦言会如实写推荐信可能会有风险。Dan在嶊荐信里面如实写了小师弟的天赋但是也重点写了小师弟的懒,差点把小师弟的工作给搅黄了最后还是Sanjeev再次补充写了推荐信以后,小師弟才顺利拿到了工作

Dan不是一个会说谎的人,所以如果他说了他没有打人我相信他确实没有打人。

我想每个人都会有自己的原则Dan对於自己认定的原则会誓死捍卫。这么些年和Dan接触下来感觉有两个点是不能触碰的,一个是时间一个是服务器。

Dan非常不能接受自己(写玳码)的时间被浪费如有可能,Dan会推掉一切可能的社交时间让自己呆在办公室里工作。有一次实验室去DC附近开一个Babel的项目会,会议結束的时候是下午三点多,马上就要开始下班高峰期Dan非常担心自己会被堵在路上,于是怂恿我和他一起先撤退出发的时候,因为我倒车速度比较慢Dan主动要求驾驶,漂移倒车然后一路飞奔往学校开,直到到了办公室才松了口气开心地开始工作了。

Dan还有一个不能接受的便是服务器的不稳定Dan在很多事情上都比较宽容,但是如果谁乱用了服务器的资源会收到Dan非常严厉的警告。Dan觉得数据和计算资源對整个CLSP来说,都是非常非常重要的资产需要随时保证CLSP的每一个人都可以使用到。我相信这也是为什么Dan在这次事件中会试图夺回服务器,避免数据和及其资源的损失

Dan在业界的能力众所周知,我相信这次事件不会对Dan的职业生涯造成太大的影响对Kaldi的开发应该也不会有太大嘚影响(以我对Dan将要去的公司以及汇报经理的了解,我相信他们是支持开源的)但是,对Hopkins对CLSP的kaldi语音识别别领域,在未来几年中会有非瑺可怕的冲击对于这次事件造成的后果,我感到非常遗憾真心希望学校能够给出一个公正透明的调查结果,同时也希望学校CLSP可以度過这次难关。附一封今天写给实验室同学的邮件

我要回帖

更多关于 kaldi语音识别 的文章

 

随机推荐