机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能。人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中。语音交互是未来的发展方向。智能扬声器是语音交互着陆的第一代产品。
以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU)
,自然语言生成(Natural Language Generation, NLG),文字转语音(Text to Speech, TTS)
。

以欧能智能机器人中的语音交互流程图为例子,来看看Ai智能机器人对话技术的主要路径:

在上图我们可以看到,用户使用的时候是与设备进行交互完成的,并且主要是采用语音的处理方式。
要想完整完整的完成语音交互,必须要弄懂流程,这是一款电话机器人好不好用的关键,一次成功的语音交互流程,主要涉及以下4个阶段,且环环相扣。
意图
表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户。
识别意图—语义解析
对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。
处理意图—云端交互
调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。
语言合成模块 – 组织语
于 2019-06-19 15:50:59 发布 · 3.2k 阅读
