百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。 上传需要完整的录音文件,录音文件时长不超过60s。
官方文档库:http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top
调用方式开发文档写可以两种方式调用。
可以下载使用SDK 不下载使用SDK:根据文档组装url获取token,处理本地音频以JSON格式POST到百度语音识别服务器,获得返回结果 语音格式格式支持 pcm(不压缩) wav(不压缩,pcm编码) amr(压缩格式)推荐pcm,采样率16000 固定值。 编码:16bit 位深的单声道。
百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr会有额外的转换耗时。
Python SDK安装及使用支持Python版本:2.7.+ ,3.+
安装使用Python SDK有如下方式:
如果已安装pip,执行pip install baidu-aip即可。 如果已安装setuptools,执行python setup.py install即可。语音识别 Python SDK目录结构:
├── README.md
├── aip //SDK目录
│ ├── __init__.py //导出类
│ ├── base.py //aip基类
│ ├── http.py //http请求
│ └── speech.py //语音识别
└── setup.py //setuptools安装
实现简单的识别练习 提前安装好百度的语音识别依赖包:baidu-Aip,从PyCharm的settings中安装即可 申请百度语音识别接入的开发者账号,网址:https://ai.baidu.com/tech/speech,目的是为了获取AppID