Python实现语音识别：百度baidu

发布时间：2024-11-22 17:23

使用语音识别软件，实时反馈口语发音 #生活技巧# #学习技巧# #英语口语提升#

最新推荐文章于 2024-10-14 11:13:56 发布

Holidaylovesam 于 2019-07-27 15:39:04 发布

百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。上传需要完整的录音文件，录音文件时长不超过60s。

官方文档库：http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

调用方式

开发文档写可以两种方式调用。

可以下载使用SDK 不下载使用SDK：根据文档组装url获取token，处理本地音频以JSON格式POST到百度语音识别服务器，获得返回结果 语音格式格式支持 pcm（不压缩） wav（不压缩，pcm编码） amr（压缩格式）

推荐pcm，采样率16000 固定值。编码：16bit 位深的单声道。

百度服务端会将非pcm格式，转为pcm格式，因此使用wav、amr会有额外的转换耗时。

Python SDK安装及使用

支持Python版本：2.7.+ ,3.+

安装使用Python SDK有如下方式：

如果已安装pip，执行pip install baidu-aip即可。如果已安装setuptools，执行python setup.py install即可。

语音识别 Python SDK目录结构：

├── README.md

├── aip //SDK目录

│ ├── __init__.py //导出类

│ ├── base.py //aip基类

│ ├── http.py //http请求

│ └── speech.py //语音识别

└── setup.py //setuptools安装

实现简单的识别练习提前安装好百度的语音识别依赖包：baidu-Aip，从PyCharm的settings中安装即可申请百度语音识别接入的开发者账号，网址：https://ai.baidu.com/tech/speech，目的是为了获取AppID

网址：Python实现语音识别：百度baidu https://www.yuejiaxmz.com/news/view/195071