當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么？

2017-05-09 11:57　來(lái)源: 站長(zhǎng)資源平臺(tái)　瀏覽（974）人

分享按鈕

當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么？去年10月2日，西甲賽場(chǎng)，皇家馬德里在主場(chǎng)被實(shí)力一般的埃瓦爾逼平，比賽結(jié)束后，主場(chǎng)球迷噓聲四起，夾雜謾罵，這惹惱了步入球員通道的當(dāng)家球星C羅，他被媒體拍到小聲嘟囔著什么，就當(dāng)C羅默認(rèn)只有他自己知道在抱怨什么的時(shí)候，《阿斯報(bào)》請(qǐng)來(lái)的唇語(yǔ)專家告訴大家，C羅在說(shuō)：“Qué poca calma!”，大致可以解釋為：“能不能安靜點(diǎn)！”

這并非“讀唇術(shù)”首次揭穿名人的唇語(yǔ)。另一個(gè)更著名的案例是，早在當(dāng)年英國(guó)查爾斯王子迎娶卡米拉時(shí)，唇讀者就成功破解了伊麗莎白二世與兒子的低語(yǔ)，也讓女王糟糕的婆媳關(guān)系浮現(xiàn)在大眾眼前。所以公眾人物大概并不喜歡那些唇語(yǔ)專家（何況他們?cè)S多時(shí)候充斥著臆測(cè)成分）——但令C羅們遺憾的是，當(dāng)人工智能在各領(lǐng)域漸次開(kāi)放，在唇語(yǔ)識(shí)別上，機(jī)器也已經(jīng)做的比人類好了。

從技術(shù)路徑上，唇語(yǔ)識(shí)別是一項(xiàng)集機(jī)器視覺(jué)與自然語(yǔ)言處理于一體的復(fù)合型技術(shù)：系統(tǒng)通過(guò)機(jī)器視覺(jué)從圖像中連續(xù)識(shí)別出人臉，提取口型的連續(xù)變化特征，隨即將連續(xù)變化的特征輸入到識(shí)別模型中，識(shí)別出講話人口型對(duì)應(yīng)的發(fā)音，從而計(jì)算出可能性最大的表達(dá)語(yǔ)句。

人類費(fèi)盡心力開(kāi)發(fā)AI，當(dāng)然不是為了滿足自身的窺私欲。事實(shí)上，讓機(jī)器習(xí)得“讀唇術(shù)”，在公共安全，軍事情報(bào)，身份識(shí)別和社會(huì)公益等領(lǐng)域，都藏匿著頗為重要的應(yīng)用場(chǎng)景。

嗯，在人工智能即將大范圍落地的前夜，國(guó)內(nèi)從業(yè)者扎堆涌入的，大多為語(yǔ)音識(shí)別，圖像識(shí)別，人臉識(shí)別，機(jī)器翻譯，無(wú)人駕駛，虛擬助手和個(gè)性化內(nèi)容推薦等領(lǐng)域，相較這些聚光燈之下的落地場(chǎng)景，唇語(yǔ)識(shí)別相對(duì)冷僻。但常識(shí)是：人工智能未來(lái)將會(huì)出現(xiàn)一個(gè)數(shù)萬(wàn)億美元的巨大市場(chǎng)，在面對(duì)具體乃至細(xì)碎的應(yīng)用場(chǎng)景時(shí)，人工智能的細(xì)分程度，勢(shì)必如百年前的電力那般觸角龐雜。而廣袤的嫁接空間也意味著，從真實(shí)應(yīng)用場(chǎng)景出發(fā)，人工智能領(lǐng)域會(huì)出現(xiàn)不少藍(lán)海市場(chǎng)，被國(guó)內(nèi)巨頭忽視的唇語(yǔ)識(shí)別就是其中之一。

唇語(yǔ)識(shí)別在國(guó)外早有先例（譬如谷歌，后面會(huì)談到），但成熟的唇語(yǔ)識(shí)別系統(tǒng)需要建立在大量人臉特征樣本的基礎(chǔ)上，鑒于人種的生物特征以及語(yǔ)言特征區(qū)別，不能完全照搬國(guó)外系統(tǒng)。據(jù)悉目前這一技術(shù)在國(guó)內(nèi)的領(lǐng)跑者是長(zhǎng)期深耕于公安，交通，航空和軍工等領(lǐng)域的海云數(shù)據(jù)——他們訓(xùn)練了超過(guò)1萬(wàn)小時(shí)新聞?lì)惞?jié)目，用來(lái)判斷嘴型的準(zhǔn)確度和語(yǔ)言的準(zhǔn)確性。

那么問(wèn)題是：相較于大眾更熟悉的其他生物特征識(shí)別，教會(huì)人工智能“讀唇術(shù)”，究竟意味著什么？

機(jī)器“讀唇術(shù)”

事實(shí)上，與人類天生擁有超強(qiáng)的面部識(shí)別能力不同（“臉盲”甚至被當(dāng)做一種?。?，人類體內(nèi)并無(wú)任何“唇讀”基因，任何人都需要枯燥的后天訓(xùn)練，且很大程度上取決于對(duì)語(yǔ)境和語(yǔ)言本身的了若指掌。而如今，機(jī)器可以比唇語(yǔ)專家更精確地識(shí)別這個(gè)無(wú)聲的世界。

如你所知，更便宜的計(jì)算，更好的算法，以及更大的數(shù)據(jù)量，讓六十年來(lái)不斷幻滅又重燃希望的人工智能時(shí)代近在咫尺。其中最關(guān)鍵的變量就是數(shù)據(jù)量的井噴（許多深度學(xué)習(xí)基本模型在上世紀(jì)八九十年代就已出現(xiàn)，但數(shù)據(jù)的稀缺令這種偉大的基礎(chǔ)框架偃旗息鼓），海量數(shù)據(jù)是“喂養(yǎng)”多層神經(jīng)網(wǎng)絡(luò)的飼料，也得以讓深度學(xué)習(xí)以一種非常精煉的算法模型解決了過(guò)去復(fù)雜的輸出模式。

唇語(yǔ)“語(yǔ)料”也一樣，為識(shí)別系統(tǒng)輸入海量?jī)?yōu)質(zhì)數(shù)據(jù)顯得尤為重要。這里必須提及谷歌的人工智能公司DeepMind——要知道，去年在AlphaGo擊敗人類之后，DeepMind就把與人類的下一個(gè)競(jìng)賽場(chǎng)切換至讀唇術(shù)上：他們與牛津大學(xué)的研究者使用總長(zhǎng)超過(guò)5000小時(shí)（2010 年 1 月至 2015 年 12 月間的電視節(jié)目素材，如BBC 各類節(jié)目，總語(yǔ)句超過(guò)118000的新聞視頻）完成了對(duì)人工智能的訓(xùn)練，然后使用 2016 年 3 月至9 月間播出的節(jié)目進(jìn)行測(cè)試——結(jié)果發(fā)現(xiàn)，給予相同的視頻素材，專業(yè)唇語(yǔ)識(shí)別專家能達(dá)到12.4%的正確率，而AI系統(tǒng)識(shí)別正確率則是46.8%，高出了大概3倍。

再看國(guó)內(nèi)這邊，截至目前海云數(shù)據(jù)訓(xùn)練新聞?lì)惞?jié)目時(shí)長(zhǎng)是1萬(wàn)小時(shí)（為什么是新聞?lì)惞?jié)目？當(dāng)然是因?yàn)椴ヒ魡T的唇語(yǔ)最標(biāo)準(zhǔn)……）。據(jù)媒體報(bào)道，目前他們?cè)谟⑽姆矫婵梢赃_(dá)到80%的準(zhǔn)確度，中文方面則是71%。當(dāng)然，考慮到語(yǔ)音識(shí)別和人臉識(shí)別的準(zhǔn)確率幾乎都達(dá)到95%以上，唇語(yǔ)識(shí)別真正投入實(shí)戰(zhàn)還尚需時(shí)日。

值得一提的是，中文自身的發(fā)音特性或許可以縮短唇語(yǔ)識(shí)別投入實(shí)戰(zhàn)的時(shí)間。拿普通話來(lái)說(shuō)，一共有1270個(gè)發(fā)音，不考慮聲調(diào)差別，有近400個(gè)不同的發(fā)音，每個(gè)發(fā)音都有對(duì)應(yīng)口型，中文發(fā)音較英文為少，一字一音，規(guī)律清晰，只要使用正確方法，中文唇語(yǔ)識(shí)別其實(shí)更易獲得高準(zhǔn)確率。

事實(shí)上，唇語(yǔ)識(shí)別并非這家曾被比爾蓋茨造訪，行事卻頗為低調(diào)的數(shù)據(jù)運(yùn)營(yíng)商首次觸及AI領(lǐng)域，作為中國(guó)大數(shù)據(jù)可視化的領(lǐng)跑者，海云數(shù)據(jù)去年就已經(jīng)通過(guò)“圖易大腦”觸及到了AI領(lǐng)域——要知道，大數(shù)據(jù)與AI本就是“魚(yú)水之歡”，可視分析底層就是計(jì)算機(jī)視覺(jué)，而計(jì)算機(jī)視覺(jué)在AI領(lǐng)域應(yīng)用之一就是唇語(yǔ)識(shí)別。將AI與可視分析進(jìn)行強(qiáng)捆綁，未來(lái)通過(guò)成熟的產(chǎn)品為客戶提供服務(wù)，勢(shì)必成為這家公司變現(xiàn)的催化器。另一方面，海云在可視分析領(lǐng)域長(zhǎng)期的積淀，以及在公安等領(lǐng)域的數(shù)據(jù)積累和服務(wù)體驗(yàn)，對(duì)于其研發(fā)唇語(yǔ)識(shí)別也提供了重要的助力。

唇語(yǔ)識(shí)別可以用來(lái)干什么

相比于唇語(yǔ)識(shí)別的技術(shù)路徑，人們更關(guān)心，它將用于何處。

不妨先說(shuō)回那位讓女王糟糕的婆媳關(guān)系浮出水面的讀唇人，她叫杰西卡·里斯，是英國(guó)知名的“讀唇女王”，自幼失聰?shù)乃齾s對(duì)唇語(yǔ)頗為敏感，就像偵探電影經(jīng)常上演的那樣，杰西卡的“奇異功能”被官方所看重，英國(guó)皇家檢察院曾雇傭她成為英國(guó)唯一的“官方讀唇證人”，試圖通過(guò)她去解讀警方用監(jiān)控?cái)z像機(jī)拍下來(lái)的嫌犯錄像，從而提供關(guān)鍵證據(jù)。只可惜，杰西卡卻在后來(lái)遭遇了信譽(yù)危機(jī)，英國(guó)專家對(duì)其讀唇能力測(cè)試之后，證明她的讀唇其實(shí)經(jīng)常出錯(cuò)。

而如前所述，在唇語(yǔ)識(shí)別上，機(jī)器已遠(yuǎn)超人類——并向95%以上的精準(zhǔn)度狂奔而去，這意味著，杰西卡沒(méi)能做到的事，人們完全可以更加放心地交給機(jī)器。這也正是海云數(shù)據(jù)正在布局的。要知道，公安系統(tǒng)中視頻信息量頗為龐大，且在安全態(tài)勢(shì)和案情分析中發(fā)揮巨大作用，但它們很多都以“默片”方式存在（畢竟人物活動(dòng)地點(diǎn)離攝像頭都有一定距離），只看得清嘴型，卻不知說(shuō)些什么。針對(duì)于此，海云數(shù)據(jù)通過(guò)在人的嘴巴上部署諸多識(shí)別位點(diǎn)，通過(guò)位點(diǎn)判斷嘴型，判斷視頻中人所講出來(lái)的關(guān)鍵性內(nèi)容，這無(wú)疑能巨大釋放視頻圖像里面的信息——換句話說(shuō)，在人工智能的加持之下，海云的可視分析系統(tǒng)能夠從聲音，圖象，視頻，空間和地理信息等多重緯度，進(jìn)行綜合態(tài)勢(shì)的判斷，可以大幅度豐富其現(xiàn)有的公共安全大數(shù)據(jù)一站式解決方案。

除了公共安全，在“私人”安全上，唇語(yǔ)識(shí)別技術(shù)也大有可為。你知道，當(dāng)萬(wàn)物互聯(lián)時(shí)代即將來(lái)臨，身份識(shí)別的下一篇章勢(shì)必由指紋，人臉，虹膜等生物識(shí)別技術(shù)替代，從而將人們與機(jī)器的信任關(guān)系提升一個(gè)安全系數(shù)。最直接的例子當(dāng)然是安防。如今在上述常見(jiàn)的生物認(rèn)證之外，“唇語(yǔ)密碼”也可作為重要方式：識(shí)別系統(tǒng)從嘴唇圖像列序中提取形狀，質(zhì)地和動(dòng)作等特征，通過(guò)訓(xùn)練建立模型并確定臨界值，最終決定接受或拒絕密碼。畢竟，唇語(yǔ)擁有非常高的不可復(fù)制性（兩個(gè)人說(shuō)同一句話，嘴唇動(dòng)作特征完全不一樣），且不同于指紋和人臉這些靜態(tài)生物特征被盜取后無(wú)法重置，人們可以隨意改變唇語(yǔ)密碼。

除此之外，唇語(yǔ)識(shí)別在很多領(lǐng)域都可以帶來(lái)巨大福祉，誠(chéng)如牛津大學(xué)研究員Yannis Assael所言：“我們相信AI唇讀是一種非常實(shí)用的輔助性技術(shù)，比如更智能的助聽(tīng)器，不便出聲的公共場(chǎng)合，以及在嘈雜環(huán)境下精準(zhǔn)的語(yǔ)音識(shí)別等?！?/p>

嗯，就拿海云數(shù)據(jù)來(lái)說(shuō)，當(dāng)其可視分析能力配之以人工智能，無(wú)疑會(huì)大幅提高在公共安全，軍事情報(bào)和殘障教育等領(lǐng)域的競(jìng)爭(zhēng)力。舉例而言：通過(guò)唇語(yǔ)識(shí)別，讓無(wú)法開(kāi)口說(shuō)話的殘障人士“開(kāi)口說(shuō)話”；讓聽(tīng)力障礙者和不少老年人更清晰地聽(tīng)懂他人；而在軍事情報(bào)領(lǐng)域，唇語(yǔ)識(shí)別讓遠(yuǎn)距離獲取情報(bào)成為可能。

可以預(yù)見(jiàn)，在未來(lái)，當(dāng)古老的讀唇術(shù)被人工智能發(fā)揮到極致，希望世界會(huì)變得更好。

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ，我們將及時(shí)溝通與處理。本站內(nèi)容除了2898站長(zhǎng)資源平臺(tái)（ www.afrimangol.com ）原創(chuàng)外，其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容，涉及言論、版權(quán)與本站無(wú)關(guān)。

網(wǎng)站	權(quán)重	銷(xiāo)量
日歷大全	6	133
新華字典-福建新聞網(wǎng)	6	2
迅蛙網(wǎng)	6	20
瑞鴻網(wǎng)	5	4
心安資源網(wǎng)	6	47
中華網(wǎng)	5	8
電影網(wǎng)	5	0
國(guó)外網(wǎng)站	5	0
知之字典	6	219
選調(diào)生網(wǎng)	6	0

當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么？

上一篇：區(qū)塊鏈技術(shù)背后數(shù)字貨幣比特幣暴漲的秘密？

下一篇：云計(jì)算：AI或是決定格局的“野蠻人”

解鎖社群密碼：從0到1搭建你的專屬部落

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

支付寶提示“當(dāng)前操作可能存在風(fēng)險(xiǎn)，為保護(hù)資金安全，我們中斷了此次操作”怎么辦？

如果公司要求只能認(rèn)證一個(gè)，是認(rèn)證服務(wù)號(hào)好還是小程序？

AIGC 平衡 SEO 與用戶體驗(yàn)的深度解決方案

解鎖社群密碼：從0到1搭建你的專屬部落

支付寶提示“當(dāng)前操作可能存在風(fēng)險(xiǎn)，為保護(hù)資金安全，我們中斷了此次操作”怎么辦？

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

Foundry3D打印系統(tǒng)打印界的PS

沈希潔：我在小米電視這樣做設(shè)計(jì)

Redmi Note 9 Pro配置曝光 LCD打孔屏+驍龍720G

BIKI發(fā)布水中攝影“機(jī)器魚(yú)”

蘋(píng)果放棄s機(jī)型就能提高銷(xiāo)量？

消息盒

當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么？

當(dāng)人工智能學(xué)會(huì)“讀唇術(shù)”會(huì)帶來(lái)什么？