将一段话录下来,放在电脑上,通过语音识别平台,无需纸笔记录,轻松一按键,短时间内便可以成功将语音转化为文字,清晰明了。昨日,记者从高新区国家高新技术创业服务中心了解到,国内首款开放式在线语音识别平台开发获得成功。黄博、张国新、敖晓春作为平台创业团队,向记者讲述了“笔杆子”的来历。

“只需要10分钟,一个小时的录音就可以转换成文字,而且识别率达到97%以上!”国内首款PC端长语音识别平台日前在绵阳问世。

记者见到黄博时,他正忙着向朋友演示自己的语音识别平台,不亦乐乎。

此款软件的开发者之一黄博告诉记者,此前他在机关事业单位工作,经常负责整理领导、嘉宾的发言,耗费了大量的时间精力,“当时,我就想找一款语音识别软件,能减轻工作量”。

2014年科博会时,身为文字工作者的黄博需要接触大量文字材料,将领导嘉宾发言记录下来形成文字备案,让他万分头痛。“大家的发言都很长,如果单靠自己用笔写,肯定来不及;我只能用手机录音下来,回家再慢慢听,打成文字。”黄博表示,这不仅让效率大打折扣,自己的工作也成了重复的累赘。

几经搜索后,黄博发现市面上只有针对短语音识别的系统,且识别率偏低,“这件事对我启发很大,我立即约了几位搞技术的朋友,组建起开发团队,耗时近1年,开发出了这款产品!”黄博一边向记者讲解软件的使用方法,一边将手机内一段1小时左右的录音传到电脑上,点开软件,短短10分钟时间,这段录音就迅速转变为文字,且每句话都分行显示,方便使用者进行后期修改和校正。“这款软件之所以转换速度这么快,是因为它有独有的声学分析模型。”黄博告诉记者,该软件可以像“切片”一样,把一段长段语音进行压缩、分包,然后再通过云端进行翻译,进一步保证语音翻译的准确性和及时性。“目前国内市场上,能将长语音快速转换为文字的,仅有我们这一款软件。”黄博告诉记者,这款软件经过后期完善最终成型后,普通话的识别率达到97%,同时还能识别英语、四川话、河南话、粤语等。

于是,深刻体会到文字工作者的辛劳后,黄博试图开发应用软件来减轻工作压力。“思前想后,我考虑如果有一款应用,让语音轻松转化为文字,这样文字工作者的工作也会轻松不少。”

说干就干,黄博立马动用身边资源,集结了有资深技术的张国新和营销思维的敖晓春,开始了科研之旅。

过程 历时一年终见天日

从2014年6月、7月到2015年底,艰辛的研发之路消耗了一年多时间,才初见成效。

黄博说,整个语音识别平台包含两部分:PC端和手机端。“原本我们先做的手机端,但发现有很大弊病,录音效果受到限制,用手机编辑文字,人们普遍感到没有电脑那样方便。”于是整个团队发现,还是PC端有更强适应性和操控性,重心也慢慢开始向PC端移动。

基于团队之前有着做流媒体的经验,因此整体操作起来时间很短,相对得心应手。张国新是这款软件的技术负责人。他说,通过独有的声学分析模型,该软件可以像“切片”一样,把长段语音压缩、分包,然后通过云端翻译。经长期测试,服务器缓冲溢出率为0%,保证了语音翻译的准确、及时、高效。

而今,唯一令团队感到不足的便是,整个语音识别平台只是一个办公软件,功能还有待继续开发。

功能 文字翻译实时传输

在现场,张国新演示了“笔杆子”应用方式。将采访的录音通过USB接口传至电脑上,短短几分钟,录音便能迅速转变为文字,准确率达96%以上。据介绍,一段1个多小时的录音只用了十几分钟,便完成了翻译。

“除了翻译迅速外,这个平台还具备操作简单、使用安全等特点,非常适合机关事业单位、新闻媒体、律师、作家等行业的文字工作者。”黄博说,以前,很多文字工作者最害怕的就是开会,一个会开几个小时,长长的录音要花费一天甚至更长时间,耗时耗力,现在半个小时的录音电脑几分钟就能搞定,即使两三个小时的录音也能在很短时间里翻译成文字。更方便的是,使用者还可以对照每句录音对文字进行编辑、修正,有效避免误译、错译、漏译。

高端 “笔杆子”能认多种方言

威尼斯娱乐网站,尽管该款语音识别平台被命名为“笔杆子”,却跟笔毫无关系。黄博解释道,由于该平台主要针对文字工作者,团队便商量:“不然我们就叫它‘笔杆子’吧,也是因为跟笔有隐性的联系。”

记者获悉,目前国内需要语音识别平台对语言的识别率达90%以上,才能进入应用层面,而识别率不高则成为很多语音识别平台的老大难问题。“‘笔杆子’对普通话的识别率达96%,还能识别山东话、河南话、粤语等方言。”这也让“笔杆子”有机会成为国内首款语音识别平台。

黄博说,目前整个团队也只是完成了完整的建模过程,未来的蓝图还等着三人细致规划。“我们正积极努力,跳出办公领域局限,更着眼于语言学习、游戏娱乐等领域。”

对于新年,三人表示希望“笔杆子”能达到更高的智能化,尽力帮助文字工作者减轻工作负担。

发表评论

电子邮件地址不会被公开。 必填项已用*标注