為何蘋果、三星、谷歌、微軟都投入大量精力去做語音交互?
智能語音助手領(lǐng)域,又迎來了一位新玩家。11月21日,三星正式宣布其Bixby智能語音助手中文版,將于11月30日面向S8、Note8和W2018用戶正式推送。
在中文版Bixby人工智能助手發(fā)布會(huì)上,三星對(duì)外演示了Bixby所具備的語音交互、主頁聚合、視覺識(shí)別和提醒服務(wù)在內(nèi)的多項(xiàng)功能,宣稱這是一款能夠?qū)崿F(xiàn)功能全覆蓋,能夠帶給用戶與眾不同的體驗(yàn)。
而說到語音助手,事實(shí)上,從產(chǎn)品推出的時(shí)間順序來說,三星Bixby還只能算作是智能語音交互領(lǐng)域的一位新玩家,在Bixby之前,就已經(jīng)有了諸如蘋果Siri、微軟Cortana、谷歌Google Assistant、亞馬遜Alexa等在內(nèi)的多款智能語音助手被業(yè)界熟知。
可以說,幾乎所有科技巨頭,都在為智能語音交互投入大量精力。
這其實(shí)是一件非常有趣的事情。
那么為何蘋果、三星、谷歌、微軟、亞馬遜等科技巨頭,都不約而同的將大量精力投入到了智能語音交互領(lǐng)域,其魔力何在?
其實(shí)說到底,個(gè)人認(rèn)為巨頭們?cè)谥悄苷Z音交互領(lǐng)域紛紛投入大量精力,其核心還是在于,智能語音交互作為人工智能發(fā)展的核心方向之一,在即將到來的萬物互聯(lián)時(shí)代,其極有可能會(huì)成為下一代核心交互模式,掀起行業(yè)格局的新一輪洗牌。
事實(shí)上,自蘋果在iPhone4S上推出Siri語音助手以來,智能語音交互就被業(yè)界視為是推翻觸摸文字交互模式的下一代交互模式。
而業(yè)界之所以作出這種預(yù)判,其理由更多的是從交互進(jìn)化角度來看的。
這體現(xiàn)在三個(gè)方面:
一是語音交互是比文字交互更為自然和普適的一種交互模式。從人的能力習(xí)得來看,語音可以說是人類與生俱來的一種能力,而文字則是后天習(xí)得的一種能力。所以從學(xué)習(xí)成本的角度來看,可以說語音交互天然適合人類。并且從當(dāng)前現(xiàn)實(shí)來看,也能發(fā)現(xiàn)在全球范圍內(nèi)依舊有許多不會(huì)書寫文字的人。那么假設(shè)語音交互能夠普及,在理想狀態(tài)下,將會(huì)出現(xiàn)的場(chǎng)景是:人人都可以用語音命令操控智能設(shè)備,實(shí)現(xiàn)智能體驗(yàn),而這將會(huì)帶動(dòng)智能設(shè)備新一輪的爆發(fā)潮。
二是語音交互相對(duì)于文字交互模式而言,能夠做到更少的感官占用,將人的多項(xiàng)感官(諸如視覺、雙手)從文字交互中解放出來,使得我們能夠?qū)崿F(xiàn)一心多用和在特定情況下精力集中,諸如在處于駕駛狀態(tài)時(shí),我們就可以通過語音助手來查看智能手機(jī)上的信息,從而避免視覺查看而導(dǎo)致的注意力不集中。
三是基于智能語音交互不需要對(duì)APP、瀏覽器進(jìn)行點(diǎn)擊操作,而是直接通過語音操作的特質(zhì),使其能夠凌駕于瀏覽器、APP等其他應(yīng)用入口之上,成為一個(gè)新的超級(jí)入口,而這個(gè)入口,將會(huì)變革許多產(chǎn)業(yè),諸如信息搜索、分發(fā)。
而歷史上每一次交互模式的革新,都將會(huì)給行業(yè)帶來一次新的洗牌,在此之前已經(jīng)發(fā)生的是,蘋果以多點(diǎn)觸控將此前實(shí)體按鍵交互基本送進(jìn)了歷史塵埃。
所以從這幾個(gè)層面來說,業(yè)界巨頭紛紛布局、占位語音交互市場(chǎng)的動(dòng)作也就不難理解。
但從諸多事實(shí)來看,目前智能語音交互模式距離取代文字交互,成為新一輪交互模式卻依舊還有很長的路要走,至少在智能手機(jī)上是如此,原因何在?
個(gè)人認(rèn)為,其制約因素主要在兩個(gè)方面:
一是當(dāng)下智能語音助手的智能性還不足,縱觀當(dāng)下出現(xiàn)在智能手機(jī)上的各家智能語音助手,雖然都各有特色,能力也有強(qiáng)弱,但總體而言,給人的感覺依舊是智能度不足,不能夠執(zhí)行復(fù)雜任務(wù),不能成為不可替代的存在,其導(dǎo)致的結(jié)果是,智能語音助手最終淪為了一個(gè)低頻應(yīng)用,成為了用戶偶爾調(diào)戲一下的存在。
其二,個(gè)人認(rèn)為也是核心的原因則是,在當(dāng)下使用語音交互面臨著場(chǎng)景限制,從現(xiàn)實(shí)來說,語音交互的理想場(chǎng)景應(yīng)該具備相對(duì)的私密性。
雖然在上面說到,從技能進(jìn)化角度來說,語音交互是最為自然低成本的交互模式,但需要注意的是,人是社會(huì)性動(dòng)物,在進(jìn)行一件事時(shí),在多數(shù)時(shí)候其行為需要考慮、符合周圍環(huán)境和保持本身的私密性。在語音交互這件事情上,更是如此。
想象一下,假設(shè)在辦公室場(chǎng)景下,大家都使用語音交互來執(zhí)行各項(xiàng)工作命令,那畫風(fēng)簡直不要太新奇;再如你與你女朋友在公共環(huán)境下,如果通過智能手機(jī)語音交互發(fā)些你儂我儂的肉麻情話,也難免會(huì)有些隱私暴露的畫風(fēng)不符。
而這種與當(dāng)下社會(huì)默認(rèn)模式不符的現(xiàn)狀,正是語音助手在智能手機(jī)上不被用戶高頻使用的核心原因所在。而這種現(xiàn)狀,在可預(yù)見的相當(dāng)長的一段時(shí)間里,個(gè)人認(rèn)為也難以得到改觀。
所以從這個(gè)層面來說,個(gè)人認(rèn)為智能手機(jī)的語音交互,在更多的時(shí)候充當(dāng)?shù)氖桥嘤脩魧?duì)語音助手初步認(rèn)知和使用習(xí)慣的角色,而語音交互真正能夠大展拳腳的地方,更可能的是在智能家居物聯(lián)網(wǎng)領(lǐng)域,這里有著語音識(shí)別更為理想的使用環(huán)境。
事實(shí)上,這扇能使語音交互通向未來的窗子,已經(jīng)被亞馬遜通過Echo智能音箱給打開了,它為智能語音交互找到了客廳這個(gè)合適的使用場(chǎng)景。也正因?yàn)閬嗰R遜在智能語音交互落地上的引領(lǐng),事實(shí)上我們已經(jīng)看到,當(dāng)下業(yè)界正在跟隨亞馬遜的腳步,而這也使得智能語音助手的發(fā)展重心正在朝著智能家居和物聯(lián)網(wǎng)的方向轉(zhuǎn)移。
我們看到谷歌推出了搭載Google Assistant的Google Home智能音箱,微軟聯(lián)合微哈曼卡頓推出了搭載Cortana的Invoke智能音箱,并還要將Cortana擴(kuò)展到汽車場(chǎng)景;蘋果在HomePod、Apple TV、Mac等產(chǎn)品上亦是搭載了Siri語音控制系統(tǒng),而此次的三星Bibxy,在三星的規(guī)劃中其也不僅限于智能手機(jī),而是將會(huì)應(yīng)用到物聯(lián)網(wǎng)領(lǐng)域,擴(kuò)展到三星的所有產(chǎn)品品類之中,諸如冰箱、洗衣機(jī)、電視機(jī)等產(chǎn)品之中,并且將會(huì)對(duì)外開放,打造基于Bixby的人工智能生態(tài)。