手機(jī)
手機(jī) 手機(jī)資訊 手機(jī)新聞 淺析語音助手現(xiàn)狀及未來發(fā)展趨勢
手機(jī)大全
08月 08

淺析語音助手現(xiàn)狀及未來發(fā)展趨勢

編輯:3533 來源:手機(jī)世界
放大 縮小 打印 郵件 收藏本頁 游吧論壇

自2011年蘋果將Siri帶進(jìn)手機(jī)市場之后,語音助手類應(yīng)用可謂火的一塌糊涂。還記得當(dāng)年上至生活大爆炸里的謝耳朵,下至無數(shù)的果粉,紛紛以調(diào)戲 Siri為樂。先不說Siri到底是否為消費(fèi)者帶來極致的便利,但就影響力來說,Siri一定是蘋果的一個(gè)代表作品。蘋果幾乎以一己之力打開了一個(gè)全新的市場,再大的廠家也無法淡定,谷歌微軟紛紛入局,使出渾身解數(shù),誓要為消費(fèi)者在手機(jī)上打造一名“私人管家”。那么今天,我們就來聊聊各家的語音助手。

如今手機(jī)界有三大操作系統(tǒng),IOS,安卓和WP8。相應(yīng)的來說,自然也有三大語音助手,Siri,GoogleNow和Cortana(微軟小娜)。三大語音助手之中,Siri來的最早,也是名頭最大的一個(gè),不然怎么有人說iPhone 4S的S就是Siri呢。

事實(shí)上,Siri直接發(fā)源于史上最大的人工智能項(xiàng)目:五角大樓的CALO項(xiàng)目。CALO是 “CognitiveAssistantthatLearnsandOrganizes”的縮寫(會(huì)學(xué)習(xí)和組織的認(rèn)知助理),這個(gè)項(xiàng)目匯聚了全球人工智能 方面的頂尖科研人員。整個(gè)CALO計(jì)劃的帶頭人名叫AdamCheyer,現(xiàn)任蘋果iPhone團(tuán)隊(duì)的工程總監(jiān)。Cheyer說CALO早已開始探索如何 把“對話、自然語言理解、視覺、演說、機(jī)器學(xué)習(xí)、制定計(jì)劃、理性思考、服務(wù)代表全部融合到一個(gè)模仿人類的助理中,幫助人們完成不同的事情。”他形容說 Siri計(jì)劃就是尋求在一件消費(fèi)產(chǎn)品中做同樣的事情。其實(shí),在Siri正式發(fā)布的前四年里,Cheyer和他的團(tuán)隊(duì)一直在鉆研如何優(yōu)化CALO,使其能夠 在一臺強(qiáng)大的移動(dòng)電話中發(fā)揮效用,每天都能被成千上萬的用戶使用。對Cheyer來說,Siri并不是早期安卓手機(jī)上簡單的語音識別,Siri是人工智能,是這個(gè)十年里移動(dòng)平臺最大的事情之一。Siri最終的目的就是為消費(fèi)者打造一個(gè)貼身的數(shù)字管家,讓消費(fèi)者感受到科技的便捷。

iPhone 4S上的Siri

有了先行者,自然就有追趕的人?;蛟S,谷歌早就預(yù)料到蘋果會(huì)漸漸在IOS中去掉谷歌服務(wù)。為了鞏固自己在移動(dòng)搜索領(lǐng)域的優(yōu)勢,同安卓4.1一起推出了全 新的搜索應(yīng)用,Google now。用谷歌官方的話來說,Googlenow會(huì)全面了解消費(fèi)者的各種習(xí)慣和正在進(jìn)行的動(dòng)作,并利用它所了解的來為消費(fèi)者提供相關(guān)信息?,F(xiàn)如今,谷歌已經(jīng)為Googlenow添加了諸如步行和行車?yán)锍逃涗洠囎赓U,演唱會(huì)門票和通勤共享等方面的內(nèi)容,并且如今,Googlenow已經(jīng)被直接整合進(jìn)原生的安卓系統(tǒng)之中,使用更為便利。

Googlenow

看著蘋果谷歌在移動(dòng)語音領(lǐng)域大展身手,同樣身為科技巨頭的微軟自然是坐不住了。為了對抗蘋果谷歌,微軟也推出了自家的語音助手 ---Cortana,而且針對中國市場,微軟還發(fā)布了本土版的Cortana---微軟小娜。雖說想達(dá)到Holo里Cortana的技術(shù)再有500年都 未必能夠?qū)崿F(xiàn),但這并不妨礙微軟現(xiàn)在將“非完全體”的它移植進(jìn)手機(jī)之中。在WP8.1之中,Cortana被定位為個(gè)人數(shù)字助理,能通過不斷學(xué)習(xí)用戶的使 用習(xí)慣和興趣來幫助用戶組織日?;顒?dòng),常規(guī)的Web搜索。

基于這種設(shè)計(jì)理念,微軟為Cortana特意打造了一個(gè)虛擬的記事本。當(dāng)然, 這個(gè)記事本并非是隱私收集器,而是代表了Cortana記錄用戶的一切待辦事項(xiàng)。并且這些待辦事項(xiàng)全部存于云端,如果愿意,用戶完全可以同好友分享信息, 甚至是位置,興趣點(diǎn)等等。另外,Cortana最有用的部分在于自主性的學(xué)習(xí)能力和基于時(shí)間的觸發(fā)行動(dòng),有些像是一些基于“IFTTT”(網(wǎng)絡(luò)行為連鎖反 應(yīng))的Web服務(wù)。隨著使用時(shí)間的推移,Cortana能夠?qū)W習(xí)你的發(fā)聲習(xí)慣,從而更準(zhǔn)確地理解你的意思,另外在了解你的喜好之后,理論上可以實(shí)現(xiàn)更智能 化的主動(dòng)式服務(wù)。微軟也將向第三方軟件廠商開發(fā)API,實(shí)現(xiàn)更多操作可能。

微軟Cortana

說了這么多,各位讀者可能感覺語音助手是一項(xiàng)非常“高大上”的技術(shù),事實(shí)上并非如此。以Siri為例,Siri所用到的技術(shù)無過乎只有兩樣,人工智能以及云計(jì)算。但如果更細(xì)分來說,則可分為前端技術(shù)和后臺技術(shù)來看。在前端技術(shù)方面,即面向用戶,和用戶交互(UserInterface,UI)的技術(shù),主要是語音識別以及語音合成技術(shù)。

語音識別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,其中需要強(qiáng)大的語音知識庫,因此需要用到所謂的“云計(jì)算”技 術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出,這個(gè)技術(shù)理論上本地就能完成,當(dāng)然也可以是在云端完成的。后臺技術(shù),其實(shí)才是真正的大角色。這些技術(shù) 的目的就是處理用戶的請求,并返回最匹配的結(jié)果,這些請求類型很多,千奇百怪,要處理好并不簡單。基本的結(jié)構(gòu)可能是分析用戶的輸入(已經(jīng)通過語音轉(zhuǎn)化), 根據(jù)輸入類型,分別采用合適的技術(shù)(合適的技術(shù)后臺)進(jìn)行處理。這些合適的后臺技術(shù)包括,①以Google,Bing,百度等為代表的網(wǎng)頁搜索技術(shù);②以 WolframAlpha為代表的知識搜索技術(shù)(或者知識計(jì)算技術(shù));③以維基百科為代表的知識庫(和WolframAlpha不同的是,這些知識來自人 類的手工編輯)技術(shù)(包括其他百科,如電影百科等);④以Yelp為代表的問答以及推薦技術(shù)。將處理后得到的結(jié)果再返還給用戶,也就完成了一次與用戶的問 答或是聊天。

Siri聊天

Siri和Cortana的技術(shù)基本就是如此,但一定要強(qiáng)調(diào)的是,嚴(yán)格的說Googlenow應(yīng)當(dāng)只是一款語音搜索軟件,并不具備與用戶聊天的的交互式功能。Googlenow只是利用了谷歌強(qiáng)大的搜索引擎,并且加入了上下文聯(lián)想功能,根據(jù)用戶的搜索記錄,習(xí)慣來提供智能化的服務(wù)。當(dāng)然,這意味著它會(huì)收 集用戶數(shù)據(jù)加以分析,但是其呈現(xiàn)出的信息還是極為有效地。

語音助手的最終目的是為消費(fèi)者帶來便利,因此,往往理論說的極其完美,但消費(fèi) 者更關(guān)心其在現(xiàn)實(shí)生活之中的表現(xiàn)。僅以在大陸的情況來看,Googlenow可謂毫無用處。我們都知道Googlenow是基于Google搜索來提供反 饋的,但是在大陸,因?yàn)橐恍澳愣谩钡脑颍珿oogle基本是無法使用的。唯一能使用的一些本機(jī)上的服務(wù),還必需在英文界面下使用。當(dāng)然,如今谷歌已 經(jīng)推出了Googlenow的桌面版和可穿戴設(shè)備版,要是各位一定想嘗鮮的話,掛個(gè)VPN就是最好的選擇了。

與Googlenow不同的是,Siri和Cortana目前都是基于Bing平臺,因此兩者在大陸還是完全可以使用的。Siri在經(jīng)過了兩年的發(fā)展之 后,成功摘掉了Beta版的帽子,迎來了正式版。相對于早期只能打電話,設(shè)置鬧鐘等簡單的操作,如今的Siri正不斷地加強(qiáng)其功能,如多國語音,男女聲, 打開一些程序等,并且在識別率上也有了很大的進(jìn)步。但從聊天的角度來看,Siri和有人情味還有一段的距離。并且,因?yàn)楸O(jiān)管的原因,早期還爆出了涉黃等問 題。這些都是Siri在未來要加以改正的和進(jìn)步的。

Cortana在大陸的本土版叫做微軟小娜,相比于以上兩者,可謂接地氣的多。各位 讀者應(yīng)當(dāng)還記得不久前被騰訊封殺的微軟小冰吧。事實(shí)上,小娜和小冰都是微軟中國團(tuán)隊(duì)的作品,微軟中國曾說過,小冰小娜就像一對姐妹花,雖然都是偏向人工智 能的產(chǎn)品,但定位不同,小娜更注重對用戶制定任務(wù)的完成,小冰則更傾向于娛樂俏皮的交流,兩者都是極為接地氣的產(chǎn)品。

這一點(diǎn),在一些小 細(xì)節(jié)中有較大的體現(xiàn),比如在天氣預(yù)報(bào)之中加入了空氣質(zhì)量提醒,限行信息等,另外從第三方應(yīng)用上來看,針對大陸市場,微軟小娜選擇了微信,新浪微博,愛奇藝 等七家應(yīng)用進(jìn)行深度合作,例如使用微軟小娜可以直接打開微信的朋友圈,這在Siri上是無法做到的。從目前大多數(shù)使用者的反應(yīng)來看,微軟小娜還是具有很大的優(yōu)勢的。而且隨著后天的學(xué)習(xí)功能的加強(qiáng),微軟小娜必將成為WP手機(jī)的一大亮點(diǎn)。

接地氣的微軟小娜

先布局者得市場,在任何一個(gè)行業(yè),這個(gè)道理也僅限于前期,誰能真正地笑到最后還不得而知。在競爭日益激烈的移動(dòng)互聯(lián)網(wǎng)時(shí)代,語音助手最終拼的還是是否真 正為用戶著想,提供更加便利的語音智能生活。這場競爭還只是剛剛開始,未來大家還有很長的路要走,誰將最終獲得用戶認(rèn)可,就讓時(shí)間給我們一個(gè)答案吧。

打印 郵件 收藏本頁 幫肋
推薦閱讀
相關(guān)閱讀