您的位置:首页 > 国内要闻

语音识别进化简史:从造技术到建系统

时间:2019-08-11

我昨天要分享的原始Alter聊天

在《2019年语音技术报告》,一个着名的美国投资机构,Mangrove Capital Partners给出了一个宏大的演讲定义 - 欢迎下一代颠覆者。

但如果你把时间缩短10年,大多数人会将“语音互动”定义为赌博。他们都知道获胜的面孔相对较大,但他们不敢下注,因为这个概念尚未达到明确的最后期限。在正确的路径通过之前总是存在不确定性。

然而,在过去的80年里,人类对语音技术的希望从未被打破过,就像在迷宫中寻找出口,试图一遍又一遍地犯错,最后找到正确的道路。

01 Long Childhood

“小,小,明天天气怎么样?” “小,我想听周杰伦的歌。” “小,我想打电话给我爸爸。”像这样的命令每天发生数亿次。即使是喋喋不休的孩子也可以与智能音箱进行流畅的对话。

image.php?url=0MobZ6wwvq

但是50年前,贝尔实验室工作的约翰皮尔斯在一封公开信中为语音识别写了一个“死亡诊断”:就像将水变成汽油,从海里提取黄金,完全治疗癌症一样。几乎不可能使机器识别声音。

自第一台能够处理合成语音的机器已经有30年了,自从发明了能够理解0到9的语音数量的机器已经有17年了。这些发明创造都来自贝尔实验室,但速度很慢语音识别技术的进步几乎消除了每个人的耐心。

在20世纪的大部分时间里,语音识别技术就像是一个不知道方向的长征,时间尺度被延长到10年:

20世纪60年代,时间扭曲机制,动态时间扭曲和音素动态跟踪三个关键技术为语音识别的发展奠定了基础;

20世纪70年代,语音识别进入快速发展阶段,模式识别思想,动态规划算法和线性预测编码开始应用;

在20世纪80年代,语音识别开始从孤立的单词识别系统演变为大型词汇连续语音识别系统。基于GMM-HMM的框架成为语音识别系统的主要框架;

在20世纪90年代,有许多商业语音识别系统,如小发猫的Via-vioce系统,微软的Whisper系统和剑桥大学的HTK系统;

然而,进入21世纪后,语音识别系统的错误率仍然很高,并再次陷入长期瓶颈期。直到2006年,Hiton提出用一个深度置信网络初始化神经网络,这使得训练深度神经网络变得更容易,从而引发了一波深度学习。

只有在2009年之前和之后的很长一段时间里,中国才主要在语音识别技术中处于边缘地位。 1958年,中国科学院声学研究所使用电子管电路识别10个元音。 1973年,中国科学院声学研究所开始计算机语音识别。然后,863计划开始组织语音识别技术研究,直到百度和香港科技大学等中国企业崛起。

02跃进时代

2010年注定是语音识别的转折点。

前一年,Hinton和D. Mohamed将深度神经网络应用于语音的声学建模,并在小词汇连续语音识别数据库TIMIT中取得了成功。

自2010年以来,微软的余东,邓力等学者首次尝试将深度学习技术引入语音识别领域,并建立了三个维度:

数据量取决于搜索和使用的大小;算法的质量,顶尖人才起着至关重要的作用;计算能力水平,关键在于FPGA等硬件的发展。

在竞争的这三个方面,谁具有数据优势,谁拥有了具有强大计算能力的顶尖人才,很可能成为本次竞赛的赢家。因此,在语音识别的“青少年”中,跨越式发展终于开始了,破纪录的时间间隔已经被压缩到几年到几个月。

2016年,语音识别准确率达到90%,但当年晚些时候,微软公开表示语音识别系统的错误率达到5.9%,相当于人类速记中同一对话的水平。当时百度的首席科学家吴恩达瓦声称,百度在2015年底达到了同一水平; 2017年6月,Google Table语音识别的准确率达到了95%,而10个月前,李彦宏在百度世界大会上宣布百度语音识别准确率为97%。

为什么在语音识别领域缺乏先前积累的中国能够在很短的时间内从零开始实现,甚至有先行的趋势?有两个原因可以找到:

首先,传统的专利池受到竞争性回归技术的挑战。

语音识别已进入深度学习的时代,并没有带来太多的专利负担。中国和美国球员有机会站在同一起跑线上。

image.php?url=0MobZ6k8NH

例如,2013年,百度的语音识别技术主要基于梅尔银行的子带CNN模型; 2014年,Sequence Discriminative Training独立开发; 2015年初,推出了基于LSTM CHMM的语音识别,该识别是在今年年底制定的。 LSTM-CTC的端到端语音识别系统;将2016年和2017年的深度CNN模型与LSTM和CTC,2018年的Deep Peak 2模型以及2019年的流动多级截断注意模型相结合.

在不久前结束的百度AI开发者大会上,百度还推出了用于远场语音交互的宏盛芯片,可以实现远场阵列信号的实时处理,高精度超低误报警语音唤醒 - 离线语音识别。

其次,语音识别已进入生态化和工业化时代。

在谷歌发布语音开放API之后,它对Nuance产生了致命的打击,不仅是谷歌的产品和技术优势,还来自谷歌强大的人工智能技术生态系统,如TensorFlow所代表的深度学习引擎。

同样的道理,百度在2015年开通了数百项智能语音专利,并与海尔,京东,中兴,中国普天等建立了智能语音知识产权产业联盟,而PaddlePaddle,Warp-CTC,百度脑开放和开源有一个对中文语音识别的微妙影响,已成为中文语音识别标准的标准制定者。

此外,在2018年公布的第20届中国专利审查结果中,百度在语音,机器翻译和无人驾驶车辆方面的三项专利已经赢得了人工智能领域的最高政府级别。奖。

其中,涉及“语音专利”的新语音识别模型使用深度学习算法在24小时内分析实时数百亿的大规模数据。高性能计算使语音识别技术的准确率达到97%。它解决了语音识别领域的关键和常见技术问题,被麻省理工学院评为“2016年全球十大突破技术”。

语音识别的声音逐渐从大学和机构实验室转移到微软,谷歌,百度等商业巨头的手中,最终迎来了十年的跨越式发展。也许语音技术的“少年时代”还有很长的路要走,但毕竟它已经过了漫长的夜晚,看到了黎明的黎明。

03语音交互的“诱惑”

为什么80年的长期技术中的语音识别,以及以某种方式提问的声音仍然如此着迷于语音识别?前70年的答案可能是希望,过去10年的驱动因素可能是巨大蛋糕的诱惑。

让我们来看看2010年后语音识别和应用的三个过程:

一个问题和一个答案阶段:当时,语音识别在自学和逻辑推理方面存在很大差距。在同一个会话内容上进行深入的交互是不可能的。例如,如果您询问天气,系统将自动检索天气数据,然后询问明天天气。如何?将获得明天的天气预报。然而,今天的天气和明天的天气是独立的回应。它们无法连接,无法形成逻辑。

有一个问答阶段:语音识别在问答的基础上开始具有对话的属性。相应的产品包括Apple的Siri,Google Now,百度之声,微软Cortana等,并且仍然留在“人机对话”中。在被动接受人为输入大量数据时,机器无法在更深层次上理解人的意义,也无法实现自我学习和自我成长。与机器的语音通信并不像人类那样自然。

自然互动阶段:从语音识别到语音交互,不仅是问题和答案,而且人工智能可以根据情境逻辑和环境信息做出个性化决策或建议。典型的场景是智能扬声器。亚马逊,谷歌,百度,阿里等都开始在智能扬声器领域工作。语音识别门户正逐步开放内容,物联网等生态,这已经成为人工智能入口纠纷的主战场。

image.php?url=0MobZ6X8vp

令人印象深刻的是,在《向往的生活》的第三季中,几乎每位客人都会主动与小型人交谈,然后通过智能扬声器的流畅答案相信,与一些仍然存在疑问并且在智能中回答的语音助手相比电话。语音交互的自然阶段已经提前到来。

不难看出这样的变化:最初的语音识别仍然处于技术创造阶段,可能只是为了新奇和酷炫的体验,但随着软件和硬件应用程序(如智能扬声器和语音助理)的普及,它具有解决了一个棘手的痛点,语音交互已经开始成为下一代人机交互,然后创建一个以语音为入口的新操作系统。

您可以从脑科学界的“感觉侏儒”中学习。手和舌头是人类最灵活的两个部分。从DOS系统到Xerox的图形界面到移动设备的触摸交互,都依赖于手部交互。

当语音技术和人工智能同时成熟时,也许如《2019语音技术报告》所述:“语音交互在过去逆转了人机交互的存在,并且基于用户和设备之间的语音交互的新关系开始建立就像向移动互联网的过渡一样,对底层平台的新需求也正在酝酿之中。“

即使没有语音优先权的可能性,亚马逊Alexa首席科学家罗希特普拉萨德曾直言道:“我们想要消除与客户摩擦的最自然方式是通过声音。它不仅仅是一个搜索引擎提供了一堆结果,它也是会告诉你答案。“这意味着语音技术可以帮助人们摆脱文本和屏幕的限制,提供用户体验。

04巨人的新战场

在接手前辈的衣服后,谷歌,百度等巨头并非没有“自私”。由于语音交互成为人机交互的主流,它还重建了现有的业务规则。正如李延红在《人民日报》发表的一篇文章中所说,“作为引领这一变革的战略技术,人工智能将比以往的工业革命对世界产生更大的影响。”

image.php?url=0MobZ6XdGy

例如,在触摸交互的世界中,人们通过这样的应用程序与服务连接,并且在社交,搜索,电子商务和信息领域中存在许多超级应用,但是语音交互是典型的服务。搜索,电子商务,社交,广告等主流利润路径将被重建,甚至颠覆现有的市场结构。

一个典型的例子,无论是国内百度的小助手,还是谷歌助手,亚马逊Alexa,长期以来都不再满足于“语音助手”的身份,并且已经开始向语音对话,内容服务,物联网设备管理方向发展,在场景中,家庭,汽车,酒店等都被覆盖,作为切入口的语音交互的生态系统已经形成,成为触摸之外的另一个杀手级应用。

与此同时,声音的颠覆性也逐渐浮出水面。当您想要收听歌曲并观看电影时,您需要在手机上打开特定应用并手动输入歌曲或电影的名称,该名称可在一系列搜索结果中找到。你需要什么在语音交互的情况下,设备只需要发出相应的语音命令,设备可以自动播放你想要的歌曲或视频,不仅可以指数级地提高效率,还可以改变音乐或视频服务方的状态,从前端到背景。内容提供商。

到目前为止,几乎所有的互联网巨头都发出了很多声音,特别是在热销的智能扬声器轨道上。曾有谷歌,亚马逊和苹果等外国巨头。国内的百度,阿里和小米直接得到了它。 90%的市场份额和主导趋势。

image.php?url=0MobZ6Nifi

在美国,亚马逊占智能扬声器的64.6%。在中国,StrategyAnalytics,Canalys和IDC报告说,去年正式推出智能扬声器的百度已经成为世界前三和中国。一个品牌。

特别是随着语音技术的不断深入,巨头们开始改变其战略路线。百度是一个特例。

2016年,它形成了“巩固移动基础,赢得AI时代”的驱动战略,建立了AIfirst的企业结构,先后创建了语音技术,图像技术,视频技术,NLP,知识地图,数据智能和深度。 AIG是一家技术研究热线,涵盖AIG的全自动驾驶,智能辅助驾驶和汽车网络服务。业务范围涵盖SLG,用于软件和硬件语音技术,如小型助手和智能扬声器。

通过这种方式,语音技术不仅为人机交互提供了新的可能性,而且成为巨头从互联网到人工智能轨道跨越互联网的“领导者”。

如果2019年被用作新的起点,语音识别已经从双翼时代进入喷气式飞机时代,下一步无疑将成为火箭级产品。幸运的是,在这个决定技术生态未来的战场上,中国球员不再缺席,而是成为追随者的追随者。

作者|更改公共号码|改变聊天IT

作者是独立作家,微信号imhefei

Titanium Media 2018的十大作者

Pinway Business Review 2018年十大专栏作家

成千上万的好文章创作者

每个人都是年度产品经理

超过50种技术媒体,包括老虎嗅探,创业状态和界面

本文为第一作者的原创,未经授权不得转载

收集报告投诉

  • 友情链接:
  • 安徽新闻网 版权所有© www.witkeyblog.com 技术支持:安徽新闻网| 网站地图