應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

被互聯(lián)網(wǎng)女皇看好的語(yǔ)音,將成為巨頭爭(zhēng)奪的焦點(diǎn)

2016-06-07 09:21 百度百家
關(guān)鍵詞:語(yǔ)音識(shí)別

導(dǎo)讀:除了交互之外,語(yǔ)音還將在搜索、內(nèi)容、通訊和硬件等領(lǐng)域全面開(kāi)花,“麥克風(fēng)”變得重要,“喇叭”亦將變得重要,關(guān)于聲音的戰(zhàn)爭(zhēng)已經(jīng)拉開(kāi)序幕。


  KPCB合伙人、享有“互聯(lián)網(wǎng)女皇”稱(chēng)號(hào)的瑪麗·米克爾的互聯(lián)網(wǎng)趨勢(shì)報(bào)告于今天正式發(fā)布。毫不夸張地說(shuō),這份報(bào)告是互聯(lián)網(wǎng)行業(yè)分析的“超級(jí)碗”,它用200多頁(yè)的Keynote濃縮了全球龐大而復(fù)雜的互聯(lián)網(wǎng)發(fā)展現(xiàn)狀和趨勢(shì),是互聯(lián)網(wǎng)從業(yè)者、投資人以及想要窺見(jiàn)互聯(lián)網(wǎng)風(fēng)貌的外界人士不可多得的參考資料。

  有人說(shuō),今年報(bào)告亮點(diǎn)不多,在我看來(lái),亮點(diǎn)卻非常之多:不僅覆蓋了手機(jī)、電商、社交、廣告等基本面,還點(diǎn)名了移動(dòng)營(yíng)銷(xiāo)、網(wǎng)絡(luò)直播、智能汽車(chē)諸多正在崛起的所有新興領(lǐng)域。與IDC等機(jī)構(gòu)報(bào)告不同的是,女皇報(bào)告更側(cè)重于行業(yè)現(xiàn)象概括和行業(yè)趨勢(shì)展望,事實(shí)證明,她對(duì)未來(lái)趨勢(shì)的評(píng)判準(zhǔn)確率相當(dāng)之高。而今年報(bào)告最大亮點(diǎn)在于:語(yǔ)音。213頁(yè)的Keynote,23頁(yè)給了語(yǔ)音,篇幅遠(yuǎn)遠(yuǎn)超過(guò)汽車(chē)、直播等領(lǐng)域,僅次于每年的重頭戲即“營(yíng)銷(xiāo)”的31篇。

  女皇認(rèn)為麥克風(fēng)正在取代鍵盤(pán)

  瑪麗·米克爾認(rèn)為,語(yǔ)音正在被重塑,成為人機(jī)交互的新范式,在過(guò)去75年里,每10年就有一次人機(jī)交互的重大革新,人類(lèi)對(duì)機(jī)器的操作,從物理手柄按鍵,到物理鍵盤(pán)鼠標(biāo),再到觸摸屏,而現(xiàn)在語(yǔ)音成為了重要的交互方式。


  在其看來(lái),語(yǔ)音交互相對(duì)于傳統(tǒng)交互而言具有以下特點(diǎn):輸入更快速,人類(lèi)每分鐘可說(shuō)出150個(gè)單詞,打字卻只能完成40個(gè)單詞;使用更簡(jiǎn)單,不需要用手和眼,時(shí)間更及時(shí),不需要任何學(xué)習(xí);更加個(gè)性化,機(jī)器可基于上下文、環(huán)境、位置、語(yǔ)調(diào)等大環(huán)境更好地理解人類(lèi)的需求。從技術(shù)角度來(lái)看,語(yǔ)音計(jì)算具有成本低、尺寸小的特點(diǎn),特別適合物聯(lián)網(wǎng)。

  為何語(yǔ)音現(xiàn)在會(huì)爆發(fā)?瑪麗·米克爾認(rèn)為:

  1、技術(shù)成熟是核心原因之一。如果語(yǔ)音識(shí)別準(zhǔn)確率從95%提升到99%將從量變引發(fā)質(zhì)變,即“爆發(fā)點(diǎn)”到來(lái),語(yǔ)音識(shí)別準(zhǔn)確率已從2010年的70%上升到今年的90%,百度、谷歌、Hound等平臺(tái)的語(yǔ)音識(shí)別準(zhǔn)確率已超過(guò)90%,針對(duì)戶(hù)外嘈雜環(huán)境和講話者特性的語(yǔ)音識(shí)別是下階段的攻克重點(diǎn)。


  2、語(yǔ)音交互應(yīng)用正在日益變多。語(yǔ)音搜索正在蠶食搜索份額,百度、谷歌的語(yǔ)音搜索在近十年來(lái)均取得了數(shù)十倍的增長(zhǎng),其中安卓、百度和必應(yīng)語(yǔ)音搜索比例分別達(dá)到20%、10%、25%;以Siri為代表的語(yǔ)音助手正在快速普及,美國(guó)用戶(hù)使用這類(lèi)工具的比例,已從2013年的30%增加到2015年的65%。因?yàn)檎Z(yǔ)音能夠解放雙手和眼睛,人們?cè)絹?lái)越多地在車(chē)?yán)?、家里和隨身使用語(yǔ)音。相關(guān)數(shù)據(jù)顯示,從2014年到2016年間,全球API調(diào)用百度語(yǔ)音識(shí)別以及文本轉(zhuǎn)語(yǔ)音(TTS)的每日使用量急速攀升,百度語(yǔ)音在百度產(chǎn)品中使用率快速增長(zhǎng)。


  3、語(yǔ)音吸引更多第三方開(kāi)發(fā)者。開(kāi)發(fā)者擁抱語(yǔ)音大幅增加了支持語(yǔ)音交互的軟件和硬件,女皇重點(diǎn)闡述了Amazon眼下炙手可熱的硬件:Echo。其內(nèi)置了Amazon Alexa語(yǔ)音助手,目標(biāo)是占領(lǐng)家居、汽車(chē)、手機(jī)的麥克風(fēng),還能智能購(gòu)物。這款產(chǎn)品銷(xiāo)量已突破400萬(wàn)臺(tái)。女皇更是大膽指出:語(yǔ)音拐點(diǎn)已經(jīng)到來(lái),在2015年智能手機(jī)銷(xiāo)量下滑之后,Echo銷(xiāo)量或?qū)Ⅱv飛?!?/p>


  英雄所見(jiàn)略同。在瑪麗·米克爾預(yù)測(cè)語(yǔ)音會(huì)成為核心交互方式的同時(shí),科技巨頭早已在這一領(lǐng)域大力投入。2014年百度世界大會(huì)上李彥宏預(yù)測(cè):五年內(nèi)語(yǔ)音和圖像搜索比例有可能突破50%。百度在人工智能上一項(xiàng)顯著的進(jìn)展便是基于深度學(xué)習(xí)的Deep Speech在噪音環(huán)境下的語(yǔ)音識(shí)別效果超越了谷歌,這一研究成果在瑪麗·米克爾的報(bào)告中被提及,該項(xiàng)技術(shù)已成功應(yīng)用到百度語(yǔ)音搜索上。目前,百度語(yǔ)音搜索已通過(guò)人工智能做到了“聽(tīng)”和“說(shuō)”,而且還嘗試完成人類(lèi)復(fù)雜的行為——溝通。集成語(yǔ)音識(shí)別、語(yǔ)義理解、深度問(wèn)答、知識(shí)推理、多輪對(duì)話、智能摘要、情感分析、語(yǔ)言生成、語(yǔ)音合成等能力于一身后,相較于鍵盤(pán)輸入,百度語(yǔ)音搜索已經(jīng)能夠滿足用戶(hù)的多種復(fù)雜需求,引領(lǐng)人機(jī)交互邁入聽(tīng)說(shuō)時(shí)代。

  此外,不久之前的谷歌I/O大會(huì)上,最亮點(diǎn)產(chǎn)品是類(lèi)似于Echo的Google Home,其內(nèi)置了Google Assitant語(yǔ)音助手。而在即將召開(kāi)的蘋(píng)果開(kāi)發(fā)者大會(huì)WWDC上,iOS 10最大亮點(diǎn)很可能會(huì)是Siri。語(yǔ)音是下一站,已成全球共識(shí),“麥克風(fēng)+觸摸屏”取代“鍵盤(pán)+鼠標(biāo)”,已是大勢(shì)所趨。

  語(yǔ)音正在多個(gè)領(lǐng)域全面開(kāi)花

  “女皇報(bào)告”重點(diǎn)提到了語(yǔ)音的三大典型應(yīng)用:搜索、助理和Echo,一個(gè)重要事實(shí)是,語(yǔ)音不只是在這些領(lǐng)域發(fā)揮作用,在許多領(lǐng)域,它都比鍵盤(pán)越來(lái)越有存在感。

  1、語(yǔ)音搜索:移動(dòng)搜索的重要分支

  谷歌、百度、Bing,全球主流搜索引擎的語(yǔ)音搜索比例都在逐步增加,麥克風(fēng)圖標(biāo)變得跟搜索框一樣重要。搜索引擎來(lái)自移動(dòng)端的搜索流量均已超過(guò)50%,人們?cè)谧詭溈孙L(fēng)的移動(dòng)設(shè)備上使用語(yǔ)音更方便,而在移動(dòng)場(chǎng)景下打字并不方便。有報(bào)告指出,百度語(yǔ)音搜索的整體用戶(hù)量在2015年增長(zhǎng)超過(guò)3倍,用戶(hù)中的90后和00后的人群占比接近50%,百度語(yǔ)音搜索已經(jīng)成為眾多年輕人移動(dòng)互聯(lián)網(wǎng)生活的標(biāo)配,優(yōu)勢(shì)在于省去了中英文輸入法切換的繁瑣、支持口語(yǔ)化多輪交互、能夠提供貼心的語(yǔ)音播報(bào)和有聲搜索。

  2、語(yǔ)音助手:不再是被調(diào)戲的玩具

  幾年前,Siri這是一個(gè)被調(diào)戲的玩具?,F(xiàn)在,它可以理解很多命令,比如設(shè)置鬧鐘、添加日歷,打開(kāi)App等,語(yǔ)音助理已完成從玩具到工具的蛻變。除了Siri之外,Windows內(nèi)置的Cortana、Google Now升級(jí)而來(lái)的Google Assitant,以及百度、搜狗、科大訊飛等公司均推出了自己的語(yǔ)音助理軟件。以百度推出的度秘為例,已經(jīng)接入到手機(jī)百度APP,用戶(hù)可在手百端直接調(diào)用,使用語(yǔ)音對(duì)話的形式享受點(diǎn)餐、購(gòu)物、路線、訂票等多項(xiàng)生活類(lèi)服務(wù)??梢?jiàn)要做好語(yǔ)音助理并不容易,除了語(yǔ)音識(shí)別和語(yǔ)義理解之外,它必須要能“完成任務(wù)”,而這需要獲取其他設(shè)備和應(yīng)用的控制權(quán),而這一點(diǎn)只有巨頭才能做到,創(chuàng)業(yè)型玩家基本已經(jīng)消失。

  3、語(yǔ)音通訊:不再是昂貴的溝通

  微信能夠成為超級(jí)App,一大重要原因在于它支持語(yǔ)音通信,類(lèi)似于對(duì)講機(jī)的語(yǔ)音交互,給了人們?cè)趥鹘y(tǒng)手機(jī)通訊下前所未有的體驗(yàn)。需要流量,但相對(duì)于傳統(tǒng)電話而言已很廉價(jià)。事實(shí)上,傳統(tǒng)電話也已被互聯(lián)網(wǎng)化,有信等網(wǎng)絡(luò)電話App的崛起表明,人們未來(lái)只需要為語(yǔ)音通訊花很少的錢(qián)。女皇說(shuō),語(yǔ)音是最有效率的交互方式。除此之外,語(yǔ)音還是最自然、最簡(jiǎn)單和最有效的溝通方式,免費(fèi)的語(yǔ)音通訊將會(huì)成為大勢(shì)所趨,運(yùn)營(yíng)商正在被逼著依靠販賣(mài)流量謀生。

  4、語(yǔ)音內(nèi)容:不再是冷門(mén)的形式

  微博剛剛興起時(shí),許朝軍做了一個(gè)啪啪,要做語(yǔ)音版的微博,后來(lái)發(fā)生的事情大家都知道了。不過(guò),語(yǔ)音內(nèi)容正在卷土重來(lái)。最近在行做的“分答”十分火爆,這款A(yù)pp集合了語(yǔ)音、打賞、共享經(jīng)濟(jì)諸多新興模式,讓知識(shí)分享前所未有的有趣。而在去年,喜馬拉雅等網(wǎng)絡(luò)電臺(tái)崛起了。這些現(xiàn)象均表明,“聲音”依然會(huì)是十分重要的一類(lèi)內(nèi)容形態(tài),人們不會(huì)浪費(fèi)耳朵這個(gè)重要器官,在許多場(chǎng)景下,“語(yǔ)音消費(fèi)”都更適合,比如開(kāi)車(chē)時(shí),高德地圖與林志玲等明星合作的語(yǔ)音導(dǎo)航就取得很好的市場(chǎng)反饋。在許多垂直領(lǐng)域,例如教育,語(yǔ)音技術(shù)同樣在體現(xiàn)其重要性,比如通過(guò)語(yǔ)音技術(shù)做口語(yǔ)訓(xùn)練。就是說(shuō),不只是“麥克風(fēng)”變得重要了,“喇叭”也在變得重要。


  5、語(yǔ)音硬件:隨時(shí)待命的助理

  “女皇報(bào)告”說(shuō),Amazon Echo將要起飛。除了Echo之外,Google 已推出Google Home硬件,擁有Siri的Apple很可能會(huì)發(fā)布類(lèi)似產(chǎn)品。為何“語(yǔ)音助理硬件”會(huì)普及?為什么不直接用手機(jī)上的Siri等助理呢?因?yàn)槭謾C(jī)是個(gè)人設(shè)備,并不適合家庭成員共享;而當(dāng)前的語(yǔ)音技術(shù),讓手機(jī)支持“隨時(shí)待命可被喚醒”會(huì)很耗電,基于Echo等家用設(shè)備不需擔(dān)憂這個(gè)問(wèn)題。正是因?yàn)榇耍?lèi)似于Echo的產(chǎn)品將成為接下來(lái)的爆點(diǎn),國(guó)內(nèi)巨頭同樣在布局,京東已推出叮咚智能音箱,阿里巴巴聯(lián)合科大訊飛推出了“飛兒”,語(yǔ)音技術(shù)成熟的百度近日推出的度秘實(shí)體機(jī)器人也成功入駐肯德基,通過(guò)多輪交互和語(yǔ)音語(yǔ)義理解等技術(shù)為用戶(hù)完成智能點(diǎn)餐的過(guò)程。除了專(zhuān)用的語(yǔ)音助理硬件,語(yǔ)音與電視、與汽車(chē)等硬件的整合也會(huì)加速,國(guó)內(nèi)的“Echo”大戰(zhàn)即將爆發(fā)。


  正如女皇報(bào)告所指出的那樣,語(yǔ)音即將成為最重要的交互方式之一,語(yǔ)音技術(shù)從量變到質(zhì)變的引爆點(diǎn)已經(jīng)到來(lái)。除了交互之外,語(yǔ)音還將在搜索、內(nèi)容、通訊和硬件等領(lǐng)域全面開(kāi)花,“麥克風(fēng)”變得重要,“喇叭”亦將變得重要,關(guān)于聲音的戰(zhàn)爭(zhēng)已經(jīng)拉開(kāi)序幕。