活动详情

语音关键词检测方法综述


摘要: 随着智能音箱、语音助手等应用的出现,普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语音检索系统当中。语音关键词检测可以分成两种,一种是用于设备唤醒、设备控制keyword spotting;一种是应用于语音文档检索的spoken term detection,二者虽然名字类似,但从功能侧重和技术路线上都有所区别。本次分享介绍语音关键词检测的主要方法与最新进展。
Spotlight(突出点):
1.语音关键词检测介绍;
2.基于隐马尔可夫模型的语音关键词检测;
3.基于样例查询的语音关键词检测;
4.基于大词汇量语音识别系统的语音关键词检测;
5.总结。



使用RNN-Transducer进行声学建模


摘要: 基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在着两个严重的瓶颈,一是缺乏语言模型建模能力,不能整合语言模型进行联合优化,二是不能建模模型输出之间的依赖关系。RNN-Transducer针对CTC的不足,进行了改进,使得模型具有了端到端联合优化、具有语言建模能力、便于实现Online语音识别等突出的优点, 更加适合语音任务,值得引起大家的重视。
Spotlight(突出点):
1.CTC模型与不足;
2.RNN-Transducer模型;
3.RNN-Transducer模型的改进。

论文共读
近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。

由 SFFAI18 分享嘉宾白烨同学为大家精选出来的关于语音关键词检索方面的论文以及田正坤同学为大家精选出来的关于利用RNN-Transducer进行端到端声学建模的论文,将带你了解语音识别基本方向。你可以先仔细阅读,并带着问题来现场交流哦。

(关注微信公众号:点击→人工智能前沿讲习班,在对话窗口回复“语音识别”,获取精选论文下载链接),并带着问题来现场交流呦。

🌟🌟🌟🌟🌟
推荐理由: 此篇文章是第一篇使用深度神经网络,直接将音频序列编码为固定长度向量进行QbE KWS的文章。在这之前的KWS基本上都是基于DTW计算序列之间的距离,而这篇文章首次使用了LSTM对序列进行编码,最后直接计算距离即可,速度快,效果好。基于这种范式,还诞生了关键词检测的应用SnowBoy(内部具体模型可能不一样)。

推荐理由来自:白烨

🌟🌟🌟🌟🌟
推荐理由: 语音检索(Keyword Search, or Spoken Term Detection)中,如何将语音识别的结果建立倒排索引,快速定位到关键词发生的位置,是语音检索中重要问题。基于加权有限状态转换器的时间因子自动机方法,因为其计算高效(检索时线性复杂度),准确,框架优雅,已经成为了语音检索中的标准方法。在流行的开源语音工具包Kaldi中也已经集成了这一方法。

推荐理由来自:白烨

🌟🌟🌟🌟🌟
推荐理由: 这是百度硅谷实验室的一篇文章,比较了CTC、RNN-Transducer以及Attention模型在原理以及实验性能上的差异,对于想利用端到端模型进行语音识别建模的同学,具有很好的指导意义。 文章显示没有额外语言模型的注意力模型以及RNN-Transducer模型性能都超过了基线CTC模型。同时文章还研究了怎么样选取编码器结构。

推荐理由来自:田正坤

🌟🌟🌟🌟
推荐理由: 这是Google2018年的一个工作,文章讲述了丰富的细节来帮助我们如何训练好一个RNN-Transducer网络。文章探索了多种模型结构以及如何利用外部数据。文中使用多级CTC来辅助模型训练,获得了很好的效果。

推荐理由来自:田正坤
活动嘉宾
白烨
白烨
中国科学院自动化研究所博士生
田正坤
田正坤
中国科学院自动化研究所智能交互团队,直博二年级
活动地点
时间: 2019-01-20 14:00 ~ 17:00
地址:  北京海淀区中国科学院自动化研究所
邮件