智能语音识别系统的重要性、难点、国内外差距及应用、研究方向

发布时间:2024-12-15 18:55

AI语音识别技术应用于语音评测系统 #生活知识# #科技生活# #科技与教育#

智能语音识别系统的重要性、难点、国内外差距及应用、研究方向

什么是智能语音识别系统?

语音识别技术,也被称为自动语音识别AutomaTIc Speech RecogniTIon,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

当我们用语音发出某种请求,这项系统就能够识别出我们想要做的事情,然后进一步执行此命令!

语音识别呢,是有专门的芯片,植入中小词汇量词条,由此芯片的中心运算处理器将我们所说的话的词条组成完整的语音,或者是预先将所要是别的语句码本训练好装入芯片,当我们说完一句话时,系统就可以实时识别,并做出回应。

现在不光是手机出现系统,好多车辆也加入行列,比如东南新款DX7的keyword智能语音交互系统,只要你说出唤醒词:“你好,小南”,或者通过自定义唤醒词,就可以执行音乐播放、智能导航等功能,你无聊时,可以咨询你想知道的东西,甚至可以谈天说地。下面随贤集网小编一起来了解智能语音识别系统的重要性、难点、国内外差距及应用、研究方向

人工智能语音识别系统的重要性

在AI席卷全球时,围绕语音交互的产品之争正愈演愈烈,苹果siri、亚马逊echo这些产品风靡全球的同时,国内外科技巨头、创业团队也在暗流涌动,各种智能音箱以及语音解决方案层出不穷。

这种顺势发展的方式,造就了语音交互已经成为人工智能领域最成熟也是落地最快的技术。尤其是深度学习的起势,让语音识别、语音合成以及自然语言处理的发展速度提升到了一个新的高度。

现在语音识别真的可以我们比吗?各种算法之间该如何选择?如何提升语音交互的用户体验?

在我们生活中,语言最重要的功能是传递信息,让其他人知道我们的目的。在AI的领域里其实也是这一个功能,只是我们要机器人知道我们要做什么,怎么做。

也许这就是关注的语音交互的关键,语音交互之所以越来越被重视,是因为互联网、智能硬件的普及,改变互联网的入口方式,而语音就是最简单的,最直接的交互方式,是通用的互联网输入模式。

除了语音识别,AI在语音合成、对话管理,问答等方面也做了很多工作,还包括在不同端上的信号处理,例如麦克风阵列等等都是要去实践的。这样才能完成语音交互的完整过程。

未来语音交互技术可能会大规模应用,这是发展的趋势,并不是每个人都是算法或者人工智能领域的资深专家,需要一个不断学习和迭代的过程。AI技术的应用是一个系统工程,要有足够的耐心去打通产品和体验的优化链路,在应用中不断提升效果。

语音识别技术研究难点

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;

(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;

(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

相比国外,国内在人工智能语音识别方面的优势和差距有多大?

江铭虎教授:上世纪90年代,主导语音识别发展方向的主要研究机构是IBM、AT&T的Bell Lab和微软,所使用的技术均是基于统计模型HMM,其成功之处主要是它具有较强的对时间序列结构的建模能力。1997年IBM在中国市场推出不依赖于话者的大词汇连续汉语语音识别系统ViaVoice,对32000词的平均识别率达到95%,这一性能指标维持了很多年。2006年Hinton(2006)和Bengio(2007)等人提出了深层神经网络的深度学习技术,为语音识别提供了新的技术思路,百度公司采用端对端的深度学习技术,基于数百万转录语言库通过学习训练将声音和语句联系起来,语音识别率已达97%,已接近极限了。语音识别包括声学模型和语言模型,声学模型已经没有太多的研究空间,语言模型在利用各种知识提升理解能力还有很大的研究空间,其关键点是语言(语音)理解需要各种知识。

人类认识世界是通过把外界各种独立的刺激联系起来构成一个整体,以获得全面的信息和含义。语言是具有层次性的,在多重层面上按照词法、句法、语义和语用原则,进行字组词、词组短语和句子。人脑可以有效地处理并理解语言(语音),计算机语言(语音)信息处理没有人类那样有效。根据人脑理解语言过程的认知机理,人类理解语言(语音)需要知识(包括世界知识、历史知识、常识性知识、各学科门类的专业知识等)。在过去的几十年里计算机自然语言处理几乎都是用句法和语义信息进行自然语言理解的,而语用知识是人类理解自然语言不可或缺的重要组成部分,缺少这部分语用信息使语言的理解能力大大受限,很多歧义的词句和篇章只有在充分利用这些语用知识时才能有效地得到解决。要准确理解自然语言,需要把句法分析和语义理解与具体语境的语用信息相结合。语用信息研究的瓶颈是如何用计算机将人类的各种知识进行有效的特征提取和形式化的知识表达,过去这一挑战性工作一直困扰着我们,导致计算机无法像人脑一样灵活运用语用背景知识来解决自然语言中的各种歧义。

随着互联网及云技术的飞速发展,给人类知识的形式化表征带来了新的曙光。当前谷歌、百度、中科院软件所和清华大学等单位正在建立与人类知识相对应的大规模知识图谱,包括语言知识图谱,事实性知识图谱(Freebase已建立4000多万个实体,上万个属性关系,24亿多个事实三元组,百度百科的词条数已1000万个),其目的就是建模人脑中的世界知识,让计算机能够简洁快速地获取新的信息和知识,包括机读的语用特征信息,运用语用背景知识来解决语言理解中的各种歧义,由机器自动理解语言的真实含义。知识图谱可应用于问答系统、智能搜索引擎和自动推理等。将可机读的知识图谱融入到语音识别中的语言模型之中,为语音理解提供消除歧义的各类知识,相信会取得一些突破性的进展。

相比国外,国内在人工智能语音识别方面差距不大,其原因是在当前的互联网和云计算时代,各种信息和资源共享给国内外各研究单位提供了便利,加速了研发周期,在每年的AAAI,ACL,ICASSP等会议提供了理论和技术上交流,有些会议还定期提供语音识别、机器翻译等系统评测平台。中科院声学所、自动化所以及清华大学等单位比较突出的博士生在理论和技术水平上也接近欧美的水平,百度、亚洲微软研究院等国内高技术互联网信息研究单位提供高薪为高技术人才提供了与国际接轨的研究平台。相信AI和语音识别等领域的发展将会对社会的发展和人类生活的改善发挥越来越大的作用。

智能语音识别系统应用

智能语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

近日,湖北省天门市检察院开始使用智能语音识别系统。据悉,在湖北省检察机关“智慧公诉”试点院中,天门市检察院是第一家启用该系统的基层院。

智能语音识别系统能将语音自动转换成文字,在文书制作、阅卷摘卷等方面效果突出。办案人员只需口述,智能语音识别系统即刻将口述内容自动转化为文字、生成文书。其对于普通话转写准确率高达99%,对不同口音也具有很强的适应性,能够提高办案效率。

智能语音识别系统研发方向

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,智能语音识别系统技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

注:文章内的所有配图皆为网络转载图片,侵权即删!

网址:智能语音识别系统的重要性、难点、国内外差距及应用、研究方向 https://www.yuejiaxmz.com/news/view/482867

相关内容

语音识别技术的研究难点以及未来发展方向
语音识别国内外研究现状和发展趋势
基于智能语音系统的智能家居控制系统国内外研究现状分析
智能语音识别解决方案的研究
智能语音识别技术及其在家庭中的应用
智能语音识别系统的设计
语音识别遇到的困难
盘点语音识别技术在人工智能中的应用
智能语音识别何时能广泛应用
智能语音识别在生活中的应用有哪些方面 智能语音识别与处理

随便看看