深度学习语音识别方法概述与分析

发布时间:2024-11-20 17:39

学习如何进行深度分析和论述 #生活技巧# #自我提升技巧# #写作技巧训练#

1  语音识别方法研究现状

随着人机交互技术越来越受到人们的重视,而人通过语音与计算机进行交互是除了手动键盘输入之外最自然最基本的交互方式,所以也越来越引起研究人员的关注。语音识别方法即自动语音识别( automatic speech recognition,ASR) 技术,主要是完成语音到文字的转变,属于非特定人语音识别。语音识别发展到现在,已经改变了人们生活的很多方面,从语音打字机、数据库检索到特定的环境所需的语音命令,给人们的生活带来了很多方便。

2006年,由于深度学习理论在机器学习中初步的成功应用,开始引起人们的关注。在接下来的几年里,机器学习领域的研究热点开始逐步地转向深度学习。深度学习使用多层的非线性结构将低层特征变换成更加抽象的高层特征,以有监督或者无监督的方法对输入特征进行变换,从而提升分类或者预测的准确性。深度学习模型一般是指更深层的结构模型,它比传统的浅层模型拥有更多层的非线性变换,在表达和建模能力上更加强大,在复杂信号的处理上会更具优势相比于传统的高斯混合模型-隐马尔科夫模型语音识别系统获得了超过20%的相对性能提升。此后,基于深度神经网络的声学模型逐渐替代了GMM 成为语音识别声学建模的主流模型,并极大地促进了语音识别技术的发展,突破了某些实际应用场景下对语音识别性能要求的瓶颈,使语音识别技术走向真正实用化。

目前许多国内外知名研究机构,如微软、讯飞、Google、IBM 都积极开展对深度学习的研究。在人们生活的应用层面上,由于移动设备对语音识别的需求与日俱增,以语音为主的移动终端应用不断融入人们的日常生活中,如国际市场上有苹果公司的Siri、微软的 Cortana 等虚拟语音助手; 国内有百度语音、科大讯飞等。还有语音搜索( VS) 、短信听写( SMD) 等语音应用都采用了最新的语音识别技术。现在,绝大多数的SMD系统的识别准确率都超过了90%,甚至有些超过了95%,这意味着新一轮的语音研究热潮正在不断兴起。

2  深度学习语音识别方法

这一章将详细介绍深度学习在语音识别领域的应用。包括深度学习进行语音识别的训练准则即目标函数;基于深度学习的语音识别模型、结构或类型;如何提高深度学习训练语音识别模型的效率;说话人自适应模型。

2.1  深度学习的语音识别模型训练准则

相比于传统的基于GMM-HMM的语音识别框架,其最大的改变是采用DNN替换GMM模型来对语音的观察概率进行建模。DNN相比于GMM的优势在于:(1)使用DNN估计 HMM状态的后验概率分布不需要对语音数据分布进行假设;(2)DNN的输入特征可以是多种特征的融合,包括离散或者连续的;(3)DNN可以利用相邻语音帧所包含的结构信息。

最初主流的深层神经网络是最简单的全连接神经网络(FNN)。对于1个包含 L个隐层的FNN,其整个模型可以表示为如下公式:

其中X表示输入层的语音特征;W,和b表示神经网络的参数;f表示隐层的激活函数。输出层采用softmax函数输出每个分类的后验概率。通过网络的输出和对应的标注可以设计相应的优化目标函数进行模型的优化。交叉熵 (Cross—entropy,CE)函数经常被用作优化目标函数。CE用来衡量目标输出概率分布和实际输出概率分布之间的相似程度,其值熵越小相似程度越高,从而模型的性能也就越好。FCEW=-r=1Nt=1Tlogyrt(srt) yrt(s)  表示在t时刻第r句话在状态s下对应的Softmax函数的输出值,<

网址:深度学习语音识别方法概述与分析 https://www.yuejiaxmz.com/news/view/158426

相关内容

【深度学习】深度学习语音识别算法的详细解析
语音识别与合成:PyTorch实践
深入了解PyTorch中的语音识别和语音生成
实战案例:AI在语音识别与语音合成领域的应用
语音识别技术
一文读懂!人工智能、机器学习、深度学习的区别与联系!
噪声环境下的语音识别挑战与解决方案
智能机器人语音识别技术详细解析
基于深度学习的小学语文阅读教学策略研究(4页)
英语的学习方法

随便看看