您的位置:名人名言网 > 与人交谈 > >> 一个人只要讲话清晰就能被自动识别

一个人只要讲话清晰就能被自动识别

2018-1-14 16:11:21

  在之后的一些年里,语音识别系统进一步发展。在二十世纪八十年代,IBM制造了语音激活的打字机Tangora,它能够处理20000个单词的词汇量。IBM的方法是基于隐马尔可夫模型(hidden Markov model),把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。

  IBM的竞争对手Dragon Systems提出了自己的方法。此时,技术取得了长足的进步,语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就,但是当时的所有程序都采用了不连续听写,这意味着用户必须在每个单词后停顿一下。1990年,Dragon Systems发布了第一款消费语音识别产品Dragon Dictate,9000美元的售价令人咂舌。然后,在1997年,Dragon NaturallySpeaking 问世——这是第一款连续语音识别产品。

  在那以前,语音识别产品局限在不连续的话语,这就意味着它们一次只能识别一个单词, Nuance Communications公司高级副总裁、Dragon的总经理彼得·马奥尼(Peter Mahoney)说,Dragon是连续语音识别的先锋,它首次实现了实用的语音识别,可用来创建文件。Dragon NaturallySpeaking每分钟能够识别100个单词的话语——时至今日,它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。

  在过去的十年间,大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练,从而成功识别不同人的不同口音。

  然而,直至谷歌发布了用于苹果手机的谷歌语音搜索应用Google Voice Search,技术才又继续向前发展。谷歌的方法是使用云计算处理应用收到的数据。突然间,大众可以获得的语音识别拥有了大规模计算的能力。谷歌能够运行大规模的数据分析,匹配用户的单词和数十亿个搜索词条中积累的大量人类语音的例子。2010年,谷歌为手机的语音搜索添加了个性化识别。2011年中期,又把语音搜索加入Chrome浏览器。苹果也很快推出了它自己的版本,名为Siri,而微软的语音识别功能名为AI Cortana,名字来自流行的系列游戏(Halo)中的一个人物。

  所以,下一步会发生什么?在语音处理领域,最成熟的技术就是语音合成,奥戈尔曼说,机器语音和人类语音现在已经基本上无法区分。但是在很多情况下,自动语音识别与人耳相比仍有较大差距。虽然在一个几乎没有噪音的下,一个人只要讲话清晰就能被自动识别,但是当发生所谓的鸡尾酒会效应(人类能够在嘈杂的中听到某一个人说的话)时,最新技术仍束手无策。就连Alexa也是这样,如果房间里很吵闹,你就必须靠近黑色圆柱体,清楚大声的对它讲话。

  亚马逊在语音识别方面的尝试是受到了《星际迷航》(Star Trek)中计算机的,凡德·穆勒恩说。亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然的与它交谈。当然,好莱坞的魔法仍然领先于今日的科技。但是,凡德·穆勒恩说:我们正处于机器学习和人工智能的黄金时代。让机器按照人类的方式做事仍然遥不可及,但是我们每天都在解决一些难以置信的复杂问题。


每一次点击都有惊喜!