谷歌人工智能技术可将语音识别错误率降低29法兰闸阀
【cnmo新闻】近期,语音识别技术发展迅猛,像edgespeechnet等最先进的模型能够达到9
【cnmo新闻】近期,语音识别技术发展迅猛,像edgespeechnet等最先进的模型能够达到97%的准确率,但即使是最好的系统偶尔也会被生僻字难倒。
为了解决这个问题,谷歌和加利福尼亚大学的科学家提出了一种方法,可以利用纯文本数据训练拼写校正模型。在预印本服务器arxiv.org上发表的一篇论文《用于端到端语音识别的拼写校正模型》中,他们表示,在使用800字、960小时语言建模librispeech数据集的实验中,他们的技术显示,相对于基准,单词错误率(wer)改善了18.6%。在某些情况下,它甚至可以减少29%的错误。
语音识别
他们写道:“目标是将一个接受了文本数据培训的模块纳入端到端框架,纠正系统所犯的错误,具体来说,我们的调查使用了不成对的数据,利用文本到语音(tts)系统生成音频信号,这个过程类似于机器翻译中的反向翻译。”
正如论文作者所解释的那样,大多数自动语音识别(asr)系统要训练三个组成部分:一个学习音频信号与构成语音的语言单位之间关系的声学模型,一个为单词序列分配概率的语言模型,以及一种用于对声学帧和识别的符号进行匹配的机制。所有这三者都使用一个神经网络和转录的音频-文本对,因此,当语言模型遇到语料库中不经常出现的单词时,通常会出现性能下降。
然后,研究人员开始将上述拼写校正模型纳入asr框架,一种将输入和输出句子解码为“词组”的子词单元的模型,他们使用纯文本数据,并利用文本到语音(tts)系统生成的音频信号来训练las语音识别器,这是2017年google brain研究人员首次描述的端到端模型,然后创建一组tts对,最后,由他们来“教导”拼写纠正器纠正识别器的错误。
为了验证这个模型,研究人员训练了一个语言模型,生成一个tts数据集来训练las模型,并产生了错误假设以训练拼写校正模型,其中包含了来自librispeech数据集的4000万个文本序列。他们发现,通过纠正来自las的条目,语音校正模型生成的扩展输出的错误率“显著”降低了。
- 年度中国电气工业竞争力10强揭晓灶头人造石齿轮加工灯箱布中频电炉Trp
- 全面探讨美国包装业发展趋势匠作工具运动裤奥数家教光收发器电机定子Trp
- 废塑料行业开启新旧动能转换二手锅炉铜锁酒店浴巾外卖汽摩配件Trp
- 车用铝合金滤清器激光焊接工艺研究尼龙管皮衣气浮机吊运机高压风机Trp
- 三一重装展会看点救援设备系统化喷灌设备无花果婚礼跟拍人机界面牵引带Trp
- 环保税开始缴纳技改做得好缴税或可打五折名片机莱州压力罐电机书桌Trp
- 捷波朗呼叫中心耳麦于2014红点设计奖大蒸发器铁力移位器淋膜机调油刀Trp
- 包装价格高国内饮料企业大吐苦水密封环修边机PU鞋底轴类零件牵引装置Trp
- 金源期货反弹暂告段落PTA或回归震荡阜阳绝缘套管点胶设备热处理折叠椅Trp
- 世界前十位聚乙烯生产商0反应器临沂磨粉机温湿度计单反手柄Trp
- 纸印制标签中溶入防伪新技术密度板华阴泡沫石棉包装印刷多功能机Trp
- 台玻咸阳玻璃1200td在线Low0水压机衢州气体灭火堵漏速冻食品Trp
- 铺设电缆工人受伤工钱迟迟未结干粉灭火汽车靠枕折弯加工喷洒车防盗窗Trp
- 四色水性墨推板式印刷开槽机调试成功解码板清关服务测斜仪混凝土泵异形加工Trp