3月10日消息,据IBM官网报道,人们在说话时,对方每听20个单词都会漏掉或听错1-2个单词。 在5分钟的对话中,可能会听错80个单词。但我们多数人在听懂说话上没有问题。然而,电脑就不一样了。 去年,IBM宣布在自然对话环境中的语音识别上取得重大成就:开发出单词错误率为6.9%的系统。
此后,该公司不断取得进步。现在IBM宣布创造新的业界纪录:5.5%的错误率。这是对非常困难的语音识别任务:纪录人与人之间日常对话如“买汽车”,计算出来的结果。这种纪录的语料库被称为“SWITCHBOARD”,20多年来一直用于检验语音识别系统。
IBM研究人员在实现这个突破时,专注于应用深度学习技术,将LSTM(长短期记忆)和WaveNet语言模型与三个强大的声学模型结合起来。在被使用的3个声学模型中,前2个为双向6层LSTM,其中一个为多特征输入,另一个有对话多任务学习能力。最后一个模型有个独特的地方,其不仅能从积极的例子中学习,也能利用消极的例子,因此会变得越来越聪明,在重复出现类似说话风格时表现更好。