為什么說數(shù)據(jù)是新時代的“煤炭”?
為什么說數(shù)據(jù)是新時代的“煤炭”?“數(shù)據(jù)是新的石油嗎?”在2012年的時候,《福布斯》雜志在一篇文章中引述了這句一位大數(shù)據(jù)支持者的提問。時間轉(zhuǎn)瞬飛逝到了2016年,大數(shù)據(jù)潮流涌去,又掀起了名為“深度學(xué)習(xí)”(deep learning)的巨浪,我們從《福布斯》那兒再次聽到了更為明確的答案:“數(shù)據(jù)是新的石油!”
對這一觀點(diǎn),目前就職于亞馬遜的機(jī)器學(xué)習(xí)和計算生物學(xué)教授尼爾?勞倫斯(Neil Lawrence)在這一比喻的喻體對象上,有著些許不同的看法,他認(rèn)為:數(shù)據(jù)是新的煤炭。
勞倫斯教授日前在倫敦舉辦的Re-Work大會的深度學(xué)習(xí)研討會上,向我們分享了這個故事:在18世紀(jì)的時候,英國工程師托馬斯·紐科門(Thomas Newcomen)發(fā)明了最初的蒸汽機(jī)(這是瓦特所發(fā)明的常壓蒸汽機(jī)的前身)。紐科門最初的設(shè)想是將蒸汽機(jī)用于英國西南部錫富礦的開采上。在那時,紐科門所遇到的情況是,要讓紐科門蒸汽機(jī)實現(xiàn)抽水的功能,就必須讓它要靠近煤炭產(chǎn)地,因為這臺蒸汽機(jī)的效率雖然很高,但它所創(chuàng)造的價值還是不足以支撐買煤炭來讓它作業(yè)的花費(fèi)。
或許正是基于這樣的原因,第一臺紐科門蒸汽機(jī)是在英國達(dá)德利市的煤礦邊兒上運(yùn)轉(zhuǎn)起來的,而不在錫礦。
所以,為什么勞倫斯教授會說數(shù)據(jù)就是煤炭?因為它倆的情況很相似:目前,在全世界的深度學(xué)習(xí)領(lǐng)域里都有出現(xiàn)了許多“紐科門”。像Magic Pony和SwiftKey這樣位于倫敦的初創(chuàng)公司提出了很多革命性的新方法,這些方法能訓(xùn)練計算機(jī)去實現(xiàn)一些能令人目瞪口呆的認(rèn)知能力,比如從一堆模糊的照片中重新構(gòu)建出人物的面部數(shù)據(jù),通過學(xué)習(xí)用戶的筆跡來更好地預(yù)測他接下來要寫什么東西。
就目前來說,就像紐科門那樣,這些公司的創(chuàng)新出的AI技術(shù)的需求量非常的大,它們有充足的“燃料”來一展身手。也正是基于目前AI技術(shù)火爆的局面,各家AI初創(chuàng)公司都已成了科技巨頭們爭相搶奪的香餑餑。
目前,Magic Pony已被Twitter收購了,而SwiftKey也已被微軟所收購。就連勞倫斯教授自己,也已在三周前,被亞馬遜公司以高薪從謝菲爾德大學(xué)(University of Sheffield)挖走了。
然而,勞倫斯教授教授的故事其實還沒有講完:69年后,詹姆斯·瓦特(James Watt)改良了紐科門蒸汽機(jī),在原先的設(shè)計中加入了一個冷凝器。而這一小小的改變,按照勞倫斯教授的說法:“讓蒸汽機(jī)的效率更上了一層樓,并由此引發(fā)了工業(yè)革命?!?/p>
無論你認(rèn)為數(shù)據(jù)是石油還是煤炭,我們對于它其實還有另外一種理解:許多AI科學(xué)家所做出的努力,就是確保我們能事半功倍。
單純地教一臺計算機(jī)在圍棋或是玩游戲上打敗人類,其實還不是什么大不了的事情,但如果深度學(xué)習(xí)技術(shù)正從原先的“胡吃海喝”數(shù)據(jù),轉(zhuǎn)變至具備能反饋出最佳匹配可能的能力的話,那么深度學(xué)習(xí)技術(shù)在“數(shù)據(jù)利用率”上,就將獲得質(zhì)的飛躍。
“如果你能仔細(xì)回想一下那些深度學(xué)習(xí)技術(shù)已大放異彩的領(lǐng)域,那么你很容易就能發(fā)現(xiàn)這些領(lǐng)域的共同點(diǎn),那就是這些領(lǐng)域都能產(chǎn)生出大量的數(shù)據(jù),”勞倫斯教授這樣說道。
深度學(xué)習(xí)技術(shù)能幫你輕松辨認(rèn)出貓的照片,但如果你想讓它幫你診斷什么疑難雜癥的話,目前還是比較難能實現(xiàn)的。
“從科學(xué)倫理學(xué)的角度上去看,我們不可能強(qiáng)迫志愿者去生病,來幫助我們搜集改良深度學(xué)習(xí)算法所需要的數(shù)據(jù)?!?/p>
計算機(jī)還是很傻的
對于像谷歌旗下的AI研究組織Deep Mind這樣的AI成功實踐者來說,他們現(xiàn)在所面臨的問題是:我們目前的計算機(jī)的真正學(xué)習(xí)水平,仍處于相當(dāng)癡呆的狀態(tài)。
對于人類,我可以給你看一張你從未見過的動物照片——比如一只短尾矮袋鼠——在這張照片的認(rèn)知教導(dǎo)下,你足以在一堆照片中正確地辨認(rèn)出一只完全不同的短尾矮袋鼠。但如果我們首次將一張短尾矮袋鼠的照片,發(fā)給一個已被預(yù)先訓(xùn)練過的優(yōu)秀神經(jīng)網(wǎng)絡(luò)系統(tǒng),它能調(diào)一調(diào)自己的認(rèn)知模型,都已經(jīng)算是謝天謝地的了。
當(dāng)然,反過來說,如果你給一個深度學(xué)習(xí)系統(tǒng)展示數(shù)百萬張短尾矮袋鼠的照片,然后再輸入數(shù)百萬張其它哺乳動物的照片,你或許就能得到一個無敵的哺乳動物辨認(rèn)系統(tǒng),僅憑一點(diǎn)細(xì)枝末節(jié)的東西,它就能打敗所有的頂級人類選手。
“一個好的深度學(xué)習(xí)系統(tǒng)需要海量數(shù)據(jù)的支持,來幫助它構(gòu)建自己的分析模型,” 英國倫敦帝國理工學(xué)院認(rèn)知機(jī)器人學(xué)教授默里·沙納漢(Murray Shanahan)這樣說道。
“這實際上是一個非常非常緩慢的學(xué)習(xí)過程,但即便是一個非常年幼的人類兒童,他都能迅速地學(xué)會新的知識?!?/p>
專注于深度學(xué)習(xí)領(lǐng)域的專家們,目前都已經(jīng)提出了許多能提高“數(shù)據(jù)利用率”問題的方法,他們中的大多數(shù)人都覺得,能模仿人類大腦的運(yùn)作方式的人工智能系統(tǒng)是最強(qiáng)的。
其中一個方法提到了一項名為“progressive neural networks”(漸進(jìn)式神經(jīng)網(wǎng)絡(luò))的新技術(shù),它的目標(biāo)是攻克許多深度學(xué)習(xí)模型在進(jìn)入到一個全新領(lǐng)域時,都會遇到的難題:究竟是應(yīng)該忽略掉它們此前已掌握的信息來重頭開始呢?還是應(yīng)該冒著“遺忘”所學(xué)知識的風(fēng)險,用新信息來改寫自己的認(rèn)知模型。
為了更好地幫助讀者理解這一點(diǎn),我們可以一起嘗試想象這樣的場景:當(dāng)你要學(xué)習(xí)辨認(rèn)短尾矮袋鼠的時候,你是打算獨(dú)立地從頭、身體、四肢、皮毛等等來重新學(xué)習(xí)它的整個特征呢?還是試圖結(jié)合你已有的認(rèn)知,冒著可能會忘記“貓長什么樣”的風(fēng)險來學(xué)習(xí)它呢?
谷歌Deep Mind工程師Raia Hadsell主要負(fù)責(zé)將更好的系統(tǒng)嵌入到團(tuán)隊的深度學(xué)習(xí)模型當(dāng)中,這對于公司想要搭建一個“通用型人工智能系統(tǒng)”的這一長期目標(biāo),是非常至關(guān)重要的。通用型人工智能系統(tǒng)指的是能像你我那樣做各種各樣復(fù)雜的事情的AI系統(tǒng)。
“它是沒有模型的,也沒有所謂的神經(jīng)網(wǎng)絡(luò),在通用型人工智能的世界里,它既可以被訓(xùn)練成辨認(rèn)物品的大師,又能玩電子游戲,還懂得聽音樂,”Hadsell在Re-work大會上這樣說道。
“我們希望它能做到的是學(xué)習(xí)一個任務(wù),然后在這個工作上達(dá)到專家級的水平,然后轉(zhuǎn)而投向第二個任務(wù),緊接著做第三、第四、第五個任務(wù)?!?/p>
“我們希望這個通用型AI系統(tǒng)在學(xué)習(xí)新東西的時候,不會拋棄已有的認(rèn)知,并具備從一個任務(wù)跳轉(zhuǎn)到另一個任務(wù)的能力:如果我掌握了處理一項任務(wù)的技能,我希望它能幫助我來學(xué)習(xí)下一個任務(wù)。”而這也正是Hadsell在Deep Mind帶領(lǐng)團(tuán)隊成員正在探索的事兒。
他們的方法能讓深度學(xué)習(xí)系統(tǒng)“凍結(jié)”對一個任務(wù)的理解——比如打乒乓球——然后轉(zhuǎn)到處理下一個任務(wù)上,而它在處理第二個任務(wù)的時候,能回過頭去,再參考它在處理第一個任務(wù)時所學(xué)習(xí)到的那些知識。
“這將演變成為一個有趣的初級視覺功能”——舉個例子,學(xué)會如何從一堆抽象的數(shù)據(jù)中,分析出這個物體的屬性——“或是一個高級的政策理解功能,”比如理解“小白點(diǎn)必須待在船槳正確一邊”的這一指令。
很顯然,現(xiàn)在的Deep Mind離真正開發(fā)出一個通用型人工智能系統(tǒng)還有幾步之遙,但反過來說,Deep Mind離“意外”釋放出一個超級AI系統(tǒng)就剩幾步的距離了。好消息是,據(jù)Hadsell本人透露,現(xiàn)在的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)可以被用于改進(jìn)“數(shù)據(jù)利用率”了。
我們可以拿機(jī)器人舉個例子。“數(shù)據(jù)問題是機(jī)器人的一大難題,因為它們很脆弱、它們需要看護(hù)者,還很貴?!盚adsell這樣說道。
一個解決方式是用“蠻力”來搞定:比如,Alphabet的無人駕駛汽車是通過“野蠻”地行駛了很長一段距離,才學(xué)會了駕駛。
在開始的時候,Alphabet無人汽車就算是在無人的公路上開,駕駛員的手也要時刻準(zhǔn)備著要落到方向盤上。但如今的Alphabet無人汽車雖然受法律限制,還無法駛上馬路,但它已經(jīng)可以完全不裝方向盤了。
而另外一個方法就是通過模擬仿真來教導(dǎo)機(jī)器人,通過給機(jī)器人裝上各種傳感器來無限逼近真實的世界,這種方法的學(xué)習(xí)正確率也很高。這樣調(diào)教一番后,你就可以用實戰(zhàn)訓(xùn)練來提高教育的層次。
“要實現(xiàn)這點(diǎn)最好的方法就是采用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)?!盚adsell這樣說道。
我們可以舉個簡單的任務(wù)例子:比如用一只機(jī)械臂來實現(xiàn)空中接球。
“某天,我們就是在仿真中這么簡單粗暴地來訓(xùn)練它去學(xué)習(xí)這個項目…如果我們拿真正的機(jī)械臂去訓(xùn)練它的話,大概要耗去我們55天的訓(xùn)練時間?!钡@個AI系統(tǒng)在經(jīng)歷仿真訓(xùn)練后,再將它接入到真正的機(jī)械臂上,只用再訓(xùn)練上兩個小時,就能達(dá)到55天真實訓(xùn)練的效果。
除了深度學(xué)習(xí),其實還有另外一種方法。
英國帝國理工學(xué)院的沙納漢教授(Shanahan)從事AI研究領(lǐng)域多年,在他的印象里,剛開始的時候,AI領(lǐng)域里最流行的手段還不是深度學(xué)習(xí)。事實上,深度學(xué)習(xí)這個技術(shù)需要高計算機(jī)處理性能、大儲存空間和海量數(shù)據(jù)支持才能實現(xiàn),而在當(dāng)時這些條件都并不成熟,所以起初最流行的方法是“符號學(xué)習(xí)”技術(shù)。
AI符號學(xué)習(xí)流派專注于構(gòu)建通用的邏輯范例,然后“喂以”它們真實世界的信息來傳授它們更多知識。
沙納漢教授表示,符號流派里的“符號”有點(diǎn)像英語里的句子,它們陳述了世界或某些東西的樣貌。
然而不幸的是,這一流派的技術(shù)并未被推廣開來,以致于AI的發(fā)展在隨后低迷了好幾年。
但沙納漢教授仍堅信,將現(xiàn)在的深度學(xué)習(xí)和傳統(tǒng)的符號學(xué)習(xí)技術(shù)結(jié)合到一起,將產(chǎn)生1+1>2的效果,這能有助于提高“數(shù)據(jù)利用率”,還能幫助我們解決機(jī)器思維不透明的難題:“當(dāng)機(jī)器在做決策的時候,我們很難從中提取出可被人類閱讀的解釋,” 沙納漢教授這樣說道。
我們無法問計算機(jī)為什么它認(rèn)為短尾矮袋鼠是一只“短尾矮袋鼠”,它只是就這么判斷罷了。
沙納漢教授的想法是建立一個通過另一種名為“深度強(qiáng)化學(xué)習(xí)”(deep reinforcement learning)的方法,而不是傳統(tǒng)手動碼代碼的方法,來建立一個符號類型數(shù)據(jù)庫。這樣的話,AI就可以通過反復(fù)試錯來而不是檢索海量數(shù)據(jù)來學(xué)習(xí)了。舉個例子,DeepMind所開發(fā)出的AlphaGo的核心學(xué)習(xí)技術(shù)就是基于深度強(qiáng)化學(xué)習(xí)的。
為了向我們更好地展示這一概念,沙納漢教授的團(tuán)隊開發(fā)出了一個能玩簡單版圍棋游戲的AI系統(tǒng)。從大體來講,這個訓(xùn)練這個AI系統(tǒng)的過程不是讓它直接玩圍棋游戲,而是通過讓它教第二個系統(tǒng)有關(guān)圍棋規(guī)則的知識和玩法,這樣的話,這個AI系統(tǒng)就能以更為抽象的方式,理解圍棋究竟是怎么玩兒的了。
就像Hadsell的那套方法一樣,沙納漢教授的這套方法雖然為麻煩一些,但從效果上來看,對它所有的付出都還是值得的。當(dāng)傳統(tǒng)的深度學(xué)習(xí)系統(tǒng)遇到瓶頸的時候,沙納漢教授的這套更為抽象的系統(tǒng)能更為一般化地思考它所面對的難題,它在某些方面同上一種方法的類似,但卻是它的延續(xù)。
更為機(jī)智地思考
在某種程度上,“數(shù)據(jù)利用率”的問題其實也被夸大了。比如,相比那些基于深度學(xué)習(xí)技術(shù)的AI系統(tǒng),你確實在學(xué)一些東西的時候要比它快得多。但你也必須承認(rèn),作為人類一員的你已經(jīng)學(xué)習(xí)各種知識很多年了,這可不是什么小規(guī)模的數(shù)據(jù)量。
除此之外,你身上還有一個很明顯的缺點(diǎn),這是任何優(yōu)秀的深度學(xué)習(xí)系統(tǒng)都不會出現(xiàn)的情況,那就是:你很健忘。
而這或許也是人腦這個思考系統(tǒng)為高效率所付出的代價。你要么就是會忘了怎么做事兒,要么就是每次都會花越來越多的資源,來從大量物品中尋找到你想要找的那個東西。但如果能從那些大公司那兒孵化出最高級別的深受學(xué)習(xí)技術(shù)的話,那即便出現(xiàn)這點(diǎn)小問題,它也還是值得的。
2898站長資源平臺網(wǎng)站排行榜:http://afrimangol.com/webmain.htm