昨天愚人節(jié),各大互聯(lián)網(wǎng)公司跟瘋了似的推出了各種“愚人節(jié)產(chǎn)品”,各種天馬行空那個、腦洞炸開。手機百度推出的是一個叫做“神燈搜索”的功能,需要使用手機百度搭配“百度神燈”智能擴展配件來使用。用戶可以通過“摩擦摩擦”百度神燈的邊框啟動該功能,然后利用語音進行方便的搜索,搜索結(jié)果會以全息投影的形式呈現(xiàn)出來,并支持用戶進行多輪語音交互、支持用戶通過手指觸摸對影像進行放大、縮小等操作。
這個功能是真是假,我覺得不用現(xiàn)在花時間去討論,作為一個科技宅,我想花時間把這個功能里面可能涉及到的技術(shù)稍微盤點一下,盤點完了你就知道它到底能不能實現(xiàn)、離我們還有多遠了。
“神燈搜索”都涉及了哪些技術(shù)?
啟動“神燈搜索”,需要用手摩擦“百度神燈”的邊框,這個沒什么技術(shù)障礙,很多智能手機現(xiàn)在都支持熄屏狀態(tài)下的手勢喚醒等操作,加個感應(yīng)器的事兒而已;然后是語音搜索,這個雖然現(xiàn)在已經(jīng)實現(xiàn)了,但是要實現(xiàn)后續(xù)的多輪對話,一方面需要更加出色的語音智能交互技術(shù),另一方面也需要背后人工智能技術(shù)的強力支持;最后,還需要全息投影技術(shù)的支持以及在全息投影上進行操作的虛擬觸控技術(shù)。
既然摩擦喚醒不是個難事兒,我們就來看看語音智能交互、人工智能、全息投影以及虛擬觸控技術(shù)的進展。探討一下如果真要做“神燈搜索”的話,還有哪些技術(shù)需要提升。
識別率不斷提升,語音智能交互初具規(guī)模
不同于大家熟悉的siri等語音產(chǎn)品,視頻中“神燈搜索”和用戶的語音智能交互過程讓人印象深刻,而這些部分功能的實現(xiàn)需要依托于語音識別和人工智能這兩個領(lǐng)域的進步。目前,谷歌、蘋果、百度、科大訊飛等國內(nèi)外企業(yè)都在語音識別領(lǐng)域發(fā)力,并取得了突破性進展。
既然“神燈搜索”是百度可能推出的功能,我們就來看看百度目前在語音技術(shù)方面的進展。類似視頻中演示的語音交互,其實包含了語音識別、語義理解和語音合成幾個方面的技術(shù),依托百度自然語言處理(NLP)及機器學(xué)習(xí)領(lǐng)域的經(jīng)驗,百度在語義理解方面的技術(shù)實力毋庸置疑;而近期,百度在語音識別率方面也取得了較大的突破。根據(jù)媒體的報道,百度首席科學(xué)家吳恩達曾透露,通過使用神經(jīng)元系統(tǒng)以及數(shù)據(jù)燃料,百度人工智能幫語音識別提高了準(zhǔn)確性,百度語音識別可以很好地處理背景噪音,使手機離得比較遠也能很好地識別用戶講出的話。權(quán)威測試結(jié)果顯示,在噪音環(huán)境中,百度Deep Speech系統(tǒng)的出錯率要比谷歌語音識別引擎,微軟必應(yīng)以及蘋果的語音系統(tǒng)低10%以上。這對類似神燈搜索這樣的依托語音智能交互的功能來說意義非常重大。
人工智能離你我很近
百度神燈搜索還有一個亮點是“懂你”。當(dāng)人們想訂電影票時,通過“百度神燈”喚醒“神燈搜索”,語音搜索“最近什么電影好看啊”,手機百度就會立即投出近期熱映的“帕丁頓熊”全息影像,并可以播放預(yù)告片,基于用戶數(shù)據(jù)進行影院、場次、座位的智能推薦,簡捷地完成在線選座。要像“神燈搜索”一樣做到“有求必應(yīng)“,背后的人工智能技術(shù)是關(guān)鍵。
人工智能技術(shù)從去年開始再次得到了前所未有的關(guān)注,Eron Musk和霍金的“人工智能惡魔論”在學(xué)術(shù)界和產(chǎn)業(yè)界引發(fā)了激烈爭論;資本對這個方向也是趨之若鶩。公開數(shù)據(jù)顯示,截止到2004年,有超過20億美元的風(fēng)險投資流入到基于認(rèn)知技術(shù)研究的產(chǎn)品和服務(wù)里,超過100家的相關(guān)公司被互聯(lián)網(wǎng)巨頭收購。谷歌、百度、Facebook和IBM四家科技公司在人工智能領(lǐng)域強勢布局,并將這些技術(shù)應(yīng)用到具體的產(chǎn)品和服務(wù)中,讓人們真正感受到了人工智能帶來的優(yōu)勢。
例如谷歌去年初收購DeepMind公司后推出了新的模擬神經(jīng)網(wǎng)絡(luò),能夠模仿人類大腦的工作記憶原理,擁有更加強大的歸納整理和聯(lián)想演繹等邏輯處理能力,從而帶來更快的任務(wù)處理速度,還可以通過訓(xùn)練去自行處理任務(wù)。Facebook則利用人工智能算法分析用戶在Facebook的全部行為,從而為用戶挑選出其感興趣的內(nèi)容。IBM推出了新版“沃森”,并開放了Watson平臺,開始與紐約基因中心開展合作,將人工智能用于醫(yī)療領(lǐng)域。
國內(nèi)企業(yè)中,百度在該領(lǐng)域深挖已久,去年剛剛正式對外公布了“百度大腦”。百度大腦通過深度學(xué)習(xí)來模擬人類大腦的神經(jīng)元,參數(shù)規(guī)模達到百億級別,這是世界上最大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),目前已具備2-3歲兒童智力水平。今年初,百度對外公布了其基于人工智能深度學(xué)習(xí)等技術(shù)打造的“對象識別方法和裝置”專利技術(shù),這項專利技術(shù)可以保證“神燈搜索”里所提及的多輪語音交互的實現(xiàn)。
全息投影其實屢見不鮮,虛擬觸控才是真正難點
在“神燈搜索”功能里,“百度神燈”智能硬件可以投射出各類的全息投影。事實上,盡管全息投影看上去才剛剛為我們所了解,比如今年春晚上李宇春所表演的節(jié)目《蜀繡》就里用了該技術(shù),但其實全息投影技術(shù)早在1947年就由英國物理學(xué)家蓋伯發(fā)明出來了,而在我們的鄰國日本,虛擬歌星初音未來早就考全息投影技術(shù)成了全民偶像。所以說,要實現(xiàn)全息投影其實并不難,可能存在的難點在于如何在不使用多余附件的情況下,既保證投影的效果,又讓投射裝置可以小型化到一個手機套的大小。
“神燈搜索”在視頻中還可以讓用戶實現(xiàn)對全息投影進行虛擬觸控,之前曾經(jīng)在極客圈子里小范圍風(fēng)靡過的Magic Cube激光鍵盤跟這個有些類似,用戶只需要對著投射出來的影像就可以完成相應(yīng)的交互。但像“神燈搜索”視頻里演示的那種交互,基本上只在鋼鐵俠托尼·史塔克的辦公室里見過,離真正走進我們?nèi)粘5纳钸€有些遠。
眼下最實際的問題可能是電池
說完了上面那幾個高科技、高大上的技術(shù),最后我們還是得提一句電池技術(shù),全息投影要想達到一定的亮度和體積,需要的投射功率會很大,這就對電池有很高的要求,基于現(xiàn)階段手機上常用的鋰聚合物電池技術(shù),要想支撐那種程度的交互,看起來并不樂觀。所以,眼下最棘手的問題或許并不是那些技術(shù)到底發(fā)展到什么程度了,而是那些技術(shù)真正到了成熟可用的那一天的時候,電池技術(shù)是否也能隨之跟上。
所以,總體來看,手機百度的這個“神燈搜索”并不是遙不可及的目標(biāo),但要想達到視頻里所演示的那種程度,路其實還是挺長的。
|
二維碼掃描下載 |
|||
分類:網(wǎng)絡(luò)工具 評分: | ||||
支持平臺:Android、Apple、Windows Phone |