當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么?
當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么?去年10月2日,西甲賽場(chǎng),皇家馬德里在主場(chǎng)被實(shí)力一般的埃瓦爾逼平,比賽結(jié)束后,主場(chǎng)球迷噓聲四起,夾雜謾罵,這惹惱了步入球員通道的當(dāng)家球星C羅,他被媒體拍到小聲嘟囔著什么,就當(dāng)C羅默認(rèn)只有他自己知道在抱怨什么的時(shí)候,《阿斯報(bào)》請(qǐng)來(lái)的唇語(yǔ)專家告訴大家,C羅在說(shuō):“Qué poca calma!”,大致可以解釋為:“能不能安靜點(diǎn)!”
這并非“讀唇術(shù)”首次揭穿名人的唇語(yǔ)。另一個(gè)更著名的案例是,早在當(dāng)年英國(guó)查爾斯王子迎娶卡米拉時(shí),唇讀者就成功破解了伊麗莎白二世與兒子的低語(yǔ),也讓女王糟糕的婆媳關(guān)系浮現(xiàn)在大眾眼前。所以公眾人物大概并不喜歡那些唇語(yǔ)專家(何況他們?cè)S多時(shí)候充斥著臆測(cè)成分)——但令C羅們遺憾的是,當(dāng)人工智能在各領(lǐng)域漸次開(kāi)放,在唇語(yǔ)識(shí)別上,機(jī)器也已經(jīng)做的比人類好了。
從技術(shù)路徑上,唇語(yǔ)識(shí)別是一項(xiàng)集機(jī)器視覺(jué)與自然語(yǔ)言處理于一體的復(fù)合型技術(shù):系統(tǒng)通過(guò)機(jī)器視覺(jué)從圖像中連續(xù)識(shí)別出人臉,提取口型的連續(xù)變化特征,隨即將連續(xù)變化的特征輸入到識(shí)別模型中,識(shí)別出講話人口型對(duì)應(yīng)的發(fā)音,從而計(jì)算出可能性最大的表達(dá)語(yǔ)句。
人類費(fèi)盡心力開(kāi)發(fā)AI,當(dāng)然不是為了滿足自身的窺私欲。事實(shí)上,讓機(jī)器習(xí)得“讀唇術(shù)”,在公共安全,軍事情報(bào),身份識(shí)別和社會(huì)公益等領(lǐng)域,都藏匿著頗為重要的應(yīng)用場(chǎng)景。
嗯,在人工智能即將大范圍落地的前夜,國(guó)內(nèi)從業(yè)者扎堆涌入的,大多為語(yǔ)音識(shí)別,圖像識(shí)別,人臉識(shí)別,機(jī)器翻譯,無(wú)人駕駛,虛擬助手和個(gè)性化內(nèi)容推薦等領(lǐng)域,相較這些聚光燈之下的落地場(chǎng)景,唇語(yǔ)識(shí)別相對(duì)冷僻。但常識(shí)是:人工智能未來(lái)將會(huì)出現(xiàn)一個(gè)數(shù)萬(wàn)億美元的巨大市場(chǎng),在面對(duì)具體乃至細(xì)碎的應(yīng)用場(chǎng)景時(shí),人工智能的細(xì)分程度,勢(shì)必如百年前的電力那般觸角龐雜。而廣袤的嫁接空間也意味著,從真實(shí)應(yīng)用場(chǎng)景出發(fā),人工智能領(lǐng)域會(huì)出現(xiàn)不少藍(lán)海市場(chǎng),被國(guó)內(nèi)巨頭忽視的唇語(yǔ)識(shí)別就是其中之一。
唇語(yǔ)識(shí)別在國(guó)外早有先例(譬如谷歌,后面會(huì)談到),但成熟的唇語(yǔ)識(shí)別系統(tǒng)需要建立在大量人臉特征樣本的基礎(chǔ)上,鑒于人種的生物特征以及語(yǔ)言特征區(qū)別,不能完全照搬國(guó)外系統(tǒng)。據(jù)悉目前這一技術(shù)在國(guó)內(nèi)的領(lǐng)跑者是長(zhǎng)期深耕于公安,交通,航空和軍工等領(lǐng)域的海云數(shù)據(jù)——他們訓(xùn)練了超過(guò)1萬(wàn)小時(shí)新聞?lì)惞?jié)目,用來(lái)判斷嘴型的準(zhǔn)確度和語(yǔ)言的準(zhǔn)確性。
那么問(wèn)題是:相較于大眾更熟悉的其他生物特征識(shí)別,教會(huì)人工智能“讀唇術(shù)”,究竟意味著什么?
機(jī)器“讀唇術(shù)”
事實(shí)上,與人類天生擁有超強(qiáng)的面部識(shí)別能力不同(“臉盲”甚至被當(dāng)做一種?。?,人類體內(nèi)并無(wú)任何“唇讀”基因,任何人都需要枯燥的后天訓(xùn)練,且很大程度上取決于對(duì)語(yǔ)境和語(yǔ)言本身的了若指掌。而如今,機(jī)器可以比唇語(yǔ)專家更精確地識(shí)別這個(gè)無(wú)聲的世界。
如你所知,更便宜的計(jì)算,更好的算法,以及更大的數(shù)據(jù)量,讓六十年來(lái)不斷幻滅又重燃希望的人工智能時(shí)代近在咫尺。其中最關(guān)鍵的變量就是數(shù)據(jù)量的井噴(許多深度學(xué)習(xí)基本模型在上世紀(jì)八九十年代就已出現(xiàn),但數(shù)據(jù)的稀缺令這種偉大的基礎(chǔ)框架偃旗息鼓),海量數(shù)據(jù)是“喂養(yǎng)”多層神經(jīng)網(wǎng)絡(luò)的飼料,也得以讓深度學(xué)習(xí)以一種非常精煉的算法模型解決了過(guò)去復(fù)雜的輸出模式。
唇語(yǔ)“語(yǔ)料”也一樣,為識(shí)別系統(tǒng)輸入海量?jī)?yōu)質(zhì)數(shù)據(jù)顯得尤為重要。這里必須提及谷歌的人工智能公司DeepMind——要知道,去年在AlphaGo擊敗人類之后,DeepMind就把與人類的下一個(gè)競(jìng)賽場(chǎng)切換至讀唇術(shù)上:他們與牛津大學(xué)的研究者使用總長(zhǎng)超過(guò)5000小時(shí)(2010 年 1 月至 2015 年 12 月間的電視節(jié)目素材,如BBC 各類節(jié)目,總語(yǔ)句超過(guò)118000的新聞視頻)完成了對(duì)人工智能的訓(xùn)練,然后使用 2016 年 3 月 至9 月間播出的節(jié)目進(jìn)行測(cè)試——結(jié)果發(fā)現(xiàn),給予相同的視頻素材,專業(yè)唇語(yǔ)識(shí)別專家能達(dá)到12.4%的正確率,而AI系統(tǒng)識(shí)別正確率則是46.8%,高出了大概3倍。
再看國(guó)內(nèi)這邊,截至目前海云數(shù)據(jù)訓(xùn)練新聞?lì)惞?jié)目時(shí)長(zhǎng)是1萬(wàn)小時(shí)(為什么是新聞?lì)惞?jié)目?當(dāng)然是因?yàn)椴ヒ魡T的唇語(yǔ)最標(biāo)準(zhǔn)……)。據(jù)媒體報(bào)道,目前他們?cè)谟⑽姆矫婵梢赃_(dá)到80%的準(zhǔn)確度,中文方面則是71%。當(dāng)然,考慮到語(yǔ)音識(shí)別和人臉識(shí)別的準(zhǔn)確率幾乎都達(dá)到95%以上,唇語(yǔ)識(shí)別真正投入實(shí)戰(zhàn)還尚需時(shí)日。
值得一提的是,中文自身的發(fā)音特性或許可以縮短唇語(yǔ)識(shí)別投入實(shí)戰(zhàn)的時(shí)間。拿普通話來(lái)說(shuō),一共有1270個(gè)發(fā)音,不考慮聲調(diào)差別,有近400個(gè)不同的發(fā)音,每個(gè)發(fā)音都有對(duì)應(yīng)口型,中文發(fā)音較英文為少,一字一音,規(guī)律清晰,只要使用正確方法,中文唇語(yǔ)識(shí)別其實(shí)更易獲得高準(zhǔn)確率。
事實(shí)上,唇語(yǔ)識(shí)別并非這家曾被比爾蓋茨造訪,行事卻頗為低調(diào)的數(shù)據(jù)運(yùn)營(yíng)商首次觸及AI領(lǐng)域,作為中國(guó)大數(shù)據(jù)可視化的領(lǐng)跑者,海云數(shù)據(jù)去年就已經(jīng)通過(guò)“圖易大腦”觸及到了AI領(lǐng)域——要知道,大數(shù)據(jù)與AI本就是“魚(yú)水之歡”,可視分析底層就是計(jì)算機(jī)視覺(jué),而計(jì)算機(jī)視覺(jué)在AI領(lǐng)域應(yīng)用之一就是唇語(yǔ)識(shí)別。將AI與可視分析進(jìn)行強(qiáng)捆綁,未來(lái)通過(guò)成熟的產(chǎn)品為客戶提供服務(wù),勢(shì)必成為這家公司變現(xiàn)的催化器。另一方面,海云在可視分析領(lǐng)域長(zhǎng)期的積淀,以及在公安等領(lǐng)域的數(shù)據(jù)積累和服務(wù)體驗(yàn),對(duì)于其研發(fā)唇語(yǔ)識(shí)別也提供了重要的助力。
唇語(yǔ)識(shí)別可以用來(lái)干什么
相比于唇語(yǔ)識(shí)別的技術(shù)路徑,人們更關(guān)心,它將用于何處。
不妨先說(shuō)回那位讓女王糟糕的婆媳關(guān)系浮出水面的讀唇人,她叫杰西卡·里斯,是英國(guó)知名的“讀唇女王”,自幼失聰?shù)乃齾s對(duì)唇語(yǔ)頗為敏感,就像偵探電影經(jīng)常上演的那樣,杰西卡的“奇異功能”被官方所看重,英國(guó)皇家檢察院曾雇傭她成為英國(guó)唯一的“官方讀唇證人”,試圖通過(guò)她去解讀警方用監(jiān)控?cái)z像機(jī)拍下來(lái)的嫌犯錄像,從而提供關(guān)鍵證據(jù)。只可惜,杰西卡卻在后來(lái)遭遇了信譽(yù)危機(jī),英國(guó)專家對(duì)其讀唇能力測(cè)試之后,證明她的讀唇其實(shí)經(jīng)常出錯(cuò)。
而如前所述,在唇語(yǔ)識(shí)別上,機(jī)器已遠(yuǎn)超人類——并向95%以上的精準(zhǔn)度狂奔而去,這意味著,杰西卡沒(méi)能做到的事,人們完全可以更加放心地交給機(jī)器。這也正是海云數(shù)據(jù)正在布局的。要知道,公安系統(tǒng)中視頻信息量頗為龐大,且在安全態(tài)勢(shì)和案情分析中發(fā)揮巨大作用,但它們很多都以“默片”方式存在(畢竟人物活動(dòng)地點(diǎn)離攝像頭都有一定距離),只看得清嘴型,卻不知說(shuō)些什么。針對(duì)于此,海云數(shù)據(jù)通過(guò)在人的嘴巴上部署諸多識(shí)別位點(diǎn),通過(guò)位點(diǎn)判斷嘴型,判斷視頻中人所講出來(lái)的關(guān)鍵性內(nèi)容,這無(wú)疑能巨大釋放視頻圖像里面的信息——換句話說(shuō),在人工智能的加持之下,海云的可視分析系統(tǒng)能夠從聲音,圖象,視頻,空間和地理信息等多重緯度,進(jìn)行綜合態(tài)勢(shì)的判斷,可以大幅度豐富其現(xiàn)有的公共安全大數(shù)據(jù)一站式解決方案。
除了公共安全,在“私人”安全上,唇語(yǔ)識(shí)別技術(shù)也大有可為。你知道,當(dāng)萬(wàn)物互聯(lián)時(shí)代即將來(lái)臨,身份識(shí)別的下一篇章勢(shì)必由指紋,人臉,虹膜等生物識(shí)別技術(shù)替代,從而將人們與機(jī)器的信任關(guān)系提升一個(gè)安全系數(shù)。最直接的例子當(dāng)然是安防。如今在上述常見(jiàn)的生物認(rèn)證之外,“唇語(yǔ)密碼”也可作為重要方式:識(shí)別系統(tǒng)從嘴唇圖像列序中提取形狀,質(zhì)地和動(dòng)作等特征,通過(guò)訓(xùn)練建立模型并確定臨界值,最終決定接受或拒絕密碼。畢竟,唇語(yǔ)擁有非常高的不可復(fù)制性(兩個(gè)人說(shuō)同一句話,嘴唇動(dòng)作特征完全不一樣),且不同于指紋和人臉這些靜態(tài)生物特征被盜取后無(wú)法重置,人們可以隨意改變唇語(yǔ)密碼。
除此之外,唇語(yǔ)識(shí)別在很多領(lǐng)域都可以帶來(lái)巨大福祉,誠(chéng)如牛津大學(xué)研究員Yannis Assael所言:“我們相信AI唇讀是一種非常實(shí)用的輔助性技術(shù),比如更智能的助聽(tīng)器,不便出聲的公共場(chǎng)合,以及在嘈雜環(huán)境下精準(zhǔn)的語(yǔ)音識(shí)別等?!?/p>
嗯,就拿海云數(shù)據(jù)來(lái)說(shuō),當(dāng)其可視分析能力配之以人工智能,無(wú)疑會(huì)大幅提高在公共安全,軍事情報(bào)和殘障教育等領(lǐng)域的競(jìng)爭(zhēng)力。舉例而言:通過(guò)唇語(yǔ)識(shí)別,讓無(wú)法開(kāi)口說(shuō)話的殘障人士“開(kāi)口說(shuō)話”;讓聽(tīng)力障礙者和不少老年人更清晰地聽(tīng)懂他人;而在軍事情報(bào)領(lǐng)域,唇語(yǔ)識(shí)別讓遠(yuǎn)距離獲取情報(bào)成為可能。
可以預(yù)見(jiàn),在未來(lái),當(dāng)古老的讀唇術(shù)被人工智能發(fā)揮到極致,希望世界會(huì)變得更好。