语音识别技术是从20世纪50年代开始发展的。现在让我们看看这些年来这项技术是如何发展的,以及我们使用的语音识别和语音转文本功能的方式是如何随着技术的发展而发展的。
20世纪50-80年代:第一台能听声音的电脑诞生
自动语音识别(ASR)的强大力量意味着它的发展总是与大公司联系在一起。
贝尔实验室在1952年率先研制出语音号码识别系统——AUDERY。在严格控制的条件下,AUDERY系统识别语音号码的准确率为97-99%。然而,根据科学家、前贝尔实验室电气工程师James Flanagan的说法,AUDERY坐在“一个六英尺高的继电器架上,消耗了大量的电力,并表现出与复杂的真空管电路相关的无数维护问题。”即使对于特定的用途而言,AUDREY太昂贵且不方便。
1962年,IBM推出了能够识别数字和简单数学术语的Shoebox。与此同时,日本的实验室正在开发元音和音素识别器以及第一个语音分词器。对于计算机来说,理解一小部分数字(比如0-9)是一回事,但京都大学的突破是“分割”一段语音,这样这项技术就可以用于语音的范围。
在20世纪70年代,美国国防部(DARPA)资助了语音理解研究(SUR)项目。该研究的成果包括卡耐基梅隆大学的HARPY语音识别系统。HARPY从1011个单词的词汇表中识别出句子,使这套系统的语音能力相当于三岁儿童的平均水平。
HARPY是最早使用HMM的语音识别模型之一。这种概率方法推动了20世纪80年代ASR的发展。事实上,在20世纪80年代,随着IBM的实验转录系统Tangora,语音到文本工具的第一个可行使用案例出现了。经过适当的训练,Tangora可以识别并输入2万个英语单词。然而,对于商业用途来说,该系统仍然过于笨重。
20世纪90年代到2010年代:消费级ASR
“我们认为让机器模仿人是错误的,”IBM的语音识别创新者Fred Jelinek回忆道。“毕竟,如果一台机器必须移动,它是通过轮子而不是步行来移动的。我们不是竭尽全力地研究人们是如何听和理解语言的,而是希望找到让机器来做这件事的自然方式。”
1990年,Dragon Dictate作为第一款商用语音识别软件推出。当时它的成本约为9000美元。在1997年推出Dragon Naturally Speaking之前,用户仍然需要在每个单词之间停顿。
1992年,AT&T推出了贝尔实验室的语音识别呼叫处理(VRCP)服务。VRCP现在每年处理大约12亿次语音交易。
但在20世纪90年代,大多数关于语音识别的工作都是在幕后进行的。个人电脑和无处不在的网络为创新创造了新的视角。这正是Mike Cohen发现的机会,他在2004年加入谷歌,启动了该公司的语音技术发展。谷歌Voice Search(2007)向大众提供了语音识别技术。但它也回收了数百万网络用户的语音数据,作为机器学习的培训材料。
苹果(Siri)和微软(Cortana)紧随其后。在2010年代早期,深度学习、循环神经网络(RNNs)和长短期记忆(LSTM)的出现,导致ASR技术能力的超空间飞跃。这种前进势头在很大程度上也受到低成本计算和大规模算法进步的出现和可用性的推动。
ASR的现状
在数十年的发展基础上,为了响应用户日益增长的期望,语音识别技术在过去五年中取得了进一步的飞跃。优化不同的音频保真度和苛刻的硬件要求的解决方案,使语音识别通过语音搜索和物联网,日常使用更为方便。
例如,智能音箱使用热词检测,通过嵌入式软件传递即时结果。同时,句子的其余部分被发送到云进行处理。谷歌的VoiceFilter-Lite在交易的设备端优化个人的语音。这使得消费者可以用自己的声音“训练”他们的设备。培训降低了源失真比(SDR),提高了声控辅助应用程序的可用性。
单词错误率(WER——语音到文本转换过程中出现的错误单词的百分比)正在大幅下降。研究人员认为,到本世纪20年代末,99%的转录工作将是自动化的。人们只会介入质量控制和纠正。
21世纪20年代的ASR使用案例
随着网络时代的发展,ASR能力正在共生发展。下面是自动语音识别的三个引人注目的案例。
2021年,播客产业将突破10亿美元大关。听众的数量在飙升,词汇不断涌现。
播客平台正在寻找具有高准确性和每字时间戳的ASR提供商,以帮助人们更容易创建播客,并最大化其内容的价值。像Description这样的应用程序可以将音频转换为可以快速编辑的文本。
此外,每个单词的时间戳节省了时间,使编辑可以像粘土一样塑造完成的播客。这些文本还可以让所有观众更容易获取内容,并帮助创作者通过搜索引擎优化提高他们节目的可搜索性和可发现性。
由于新冠疫情的大流行,越来越多的会议在线上进行。虽然会议记录需要耗费大量的时间,但是它对于与会者而言是一个非常实用的工具。因为会议记录可以让与会人员了解会议的概要并跟进细节。Streaming ASR能够实时转换语音到文字,为会议和研讨会提供更为便捷的字幕及现场转录。
法律作证、招聘等流程也正在走向虚拟。ASR可以使视频内容更容易被获取。但更重要的是,端到端(E2E)机器学习(ML)模型进一步改进了语音分割技术——记录谁在场,谁说了什么。