為什么說數(shù)據(jù)是新時代的“煤炭”？

2016-09-28 10:54　來源: 站長資源平臺　瀏覽（642）人

分享按鈕

　　為什么說數(shù)據(jù)是新時代的“煤炭”？“數(shù)據(jù)是新的石油嗎？”在2012年的時候，《福布斯》雜志在一篇文章中引述了這句一位大數(shù)據(jù)支持者的提問。時間轉(zhuǎn)瞬飛逝到了2016年，大數(shù)據(jù)潮流涌去，又掀起了名為“深度學(xué)習(xí)”（deep learning）的巨浪，我們從《福布斯》那兒再次聽到了更為明確的答案：“數(shù)據(jù)是新的石油！”

　　對這一觀點，目前就職于亞馬遜的機(jī)器學(xué)習(xí)和計算生物學(xué)教授尼爾?勞倫斯（Neil Lawrence）在這一比喻的喻體對象上，有著些許不同的看法，他認(rèn)為：數(shù)據(jù)是新的煤炭。

　　勞倫斯教授日前在倫敦舉辦的Re-Work大會的深度學(xué)習(xí)研討會上，向我們分享了這個故事：在18世紀(jì)的時候，英國工程師托馬斯·紐科門（Thomas Newcomen）發(fā)明了最初的蒸汽機(jī)（這是瓦特所發(fā)明的常壓蒸汽機(jī)的前身）。紐科門最初的設(shè)想是將蒸汽機(jī)用于英國西南部錫富礦的開采上。在那時，紐科門所遇到的情況是，要讓紐科門蒸汽機(jī)實現(xiàn)抽水的功能，就必須讓它要靠近煤炭產(chǎn)地，因為這臺蒸汽機(jī)的效率雖然很高，但它所創(chuàng)造的價值還是不足以支撐買煤炭來讓它作業(yè)的花費。

　　或許正是基于這樣的原因，第一臺紐科門蒸汽機(jī)是在英國達(dá)德利市的煤礦邊兒上運轉(zhuǎn)起來的，而不在錫礦。

　　所以，為什么勞倫斯教授會說數(shù)據(jù)就是煤炭？因為它倆的情況很相似：目前，在全世界的深度學(xué)習(xí)領(lǐng)域里都有出現(xiàn)了許多“紐科門”。像Magic Pony和SwiftKey這樣位于倫敦的初創(chuàng)公司提出了很多革命性的新方法，這些方法能訓(xùn)練計算機(jī)去實現(xiàn)一些能令人目瞪口呆的認(rèn)知能力，比如從一堆模糊的照片中重新構(gòu)建出人物的面部數(shù)據(jù)，通過學(xué)習(xí)用戶的筆跡來更好地預(yù)測他接下來要寫什么東西。

　　就目前來說，就像紐科門那樣，這些公司的創(chuàng)新出的AI技術(shù)的需求量非常的大，它們有充足的“燃料”來一展身手。也正是基于目前AI技術(shù)火爆的局面，各家AI初創(chuàng)公司都已成了科技巨頭們爭相搶奪的香餑餑。

　　目前，Magic Pony已被Twitter收購了，而SwiftKey也已被微軟所收購。就連勞倫斯教授自己，也已在三周前，被亞馬遜公司以高薪從謝菲爾德大學(xué)（University of Sheffield）挖走了。

　　然而，勞倫斯教授教授的故事其實還沒有講完：69年后，詹姆斯·瓦特（James Watt）改良了紐科門蒸汽機(jī)，在原先的設(shè)計中加入了一個冷凝器。而這一小小的改變，按照勞倫斯教授的說法：“讓蒸汽機(jī)的效率更上了一層樓，并由此引發(fā)了工業(yè)革命?！?/p>

　　無論你認(rèn)為數(shù)據(jù)是石油還是煤炭，我們對于它其實還有另外一種理解：許多AI科學(xué)家所做出的努力，就是確保我們能事半功倍。

　　單純地教一臺計算機(jī)在圍棋或是玩游戲上打敗人類，其實還不是什么大不了的事情，但如果深度學(xué)習(xí)技術(shù)正從原先的“胡吃海喝”數(shù)據(jù)，轉(zhuǎn)變至具備能反饋出最佳匹配可能的能力的話，那么深度學(xué)習(xí)技術(shù)在“數(shù)據(jù)利用率”上，就將獲得質(zhì)的飛躍。

　　“如果你能仔細(xì)回想一下那些深度學(xué)習(xí)技術(shù)已大放異彩的領(lǐng)域，那么你很容易就能發(fā)現(xiàn)這些領(lǐng)域的共同點，那就是這些領(lǐng)域都能產(chǎn)生出大量的數(shù)據(jù)，”勞倫斯教授這樣說道。

　　深度學(xué)習(xí)技術(shù)能幫你輕松辨認(rèn)出貓的照片，但如果你想讓它幫你診斷什么疑難雜癥的話，目前還是比較難能實現(xiàn)的。

　　“從科學(xué)倫理學(xué)的角度上去看，我們不可能強迫志愿者去生病，來幫助我們搜集改良深度學(xué)習(xí)算法所需要的數(shù)據(jù)?！?/p>

　　計算機(jī)還是很傻的

　　對于像谷歌旗下的AI研究組織Deep Mind這樣的AI成功實踐者來說，他們現(xiàn)在所面臨的問題是：我們目前的計算機(jī)的真正學(xué)習(xí)水平，仍處于相當(dāng)癡呆的狀態(tài)。

　　對于人類，我可以給你看一張你從未見過的動物照片——比如一只短尾矮袋鼠——在這張照片的認(rèn)知教導(dǎo)下，你足以在一堆照片中正確地辨認(rèn)出一只完全不同的短尾矮袋鼠。但如果我們首次將一張短尾矮袋鼠的照片，發(fā)給一個已被預(yù)先訓(xùn)練過的優(yōu)秀神經(jīng)網(wǎng)絡(luò)系統(tǒng)，它能調(diào)一調(diào)自己的認(rèn)知模型，都已經(jīng)算是謝天謝地的了。

　　當(dāng)然，反過來說，如果你給一個深度學(xué)習(xí)系統(tǒng)展示數(shù)百萬張短尾矮袋鼠的照片，然后再輸入數(shù)百萬張其它哺乳動物的照片，你或許就能得到一個無敵的哺乳動物辨認(rèn)系統(tǒng)，僅憑一點細(xì)枝末節(jié)的東西，它就能打敗所有的頂級人類選手。

　　“一個好的深度學(xué)習(xí)系統(tǒng)需要海量數(shù)據(jù)的支持，來幫助它構(gòu)建自己的分析模型，” 英國倫敦帝國理工學(xué)院認(rèn)知機(jī)器人學(xué)教授默里·沙納漢(Murray Shanahan)這樣說道。

　　“這實際上是一個非常非常緩慢的學(xué)習(xí)過程，但即便是一個非常年幼的人類兒童，他都能迅速地學(xué)會新的知識?！?/p>

　　專注于深度學(xué)習(xí)領(lǐng)域的專家們，目前都已經(jīng)提出了許多能提高“數(shù)據(jù)利用率”問題的方法，他們中的大多數(shù)人都覺得，能模仿人類大腦的運作方式的人工智能系統(tǒng)是最強的。

　　其中一個方法提到了一項名為“progressive neural networks”（漸進(jìn)式神經(jīng)網(wǎng)絡(luò)）的新技術(shù)，它的目標(biāo)是攻克許多深度學(xué)習(xí)模型在進(jìn)入到一個全新領(lǐng)域時，都會遇到的難題：究竟是應(yīng)該忽略掉它們此前已掌握的信息來重頭開始呢？還是應(yīng)該冒著“遺忘”所學(xué)知識的風(fēng)險，用新信息來改寫自己的認(rèn)知模型。

　　為了更好地幫助讀者理解這一點，我們可以一起嘗試想象這樣的場景：當(dāng)你要學(xué)習(xí)辨認(rèn)短尾矮袋鼠的時候，你是打算獨立地從頭、身體、四肢、皮毛等等來重新學(xué)習(xí)它的整個特征呢？還是試圖結(jié)合你已有的認(rèn)知，冒著可能會忘記“貓長什么樣”的風(fēng)險來學(xué)習(xí)它呢？

　　谷歌Deep Mind工程師Raia Hadsell主要負(fù)責(zé)將更好的系統(tǒng)嵌入到團(tuán)隊的深度學(xué)習(xí)模型當(dāng)中，這對于公司想要搭建一個“通用型人工智能系統(tǒng)”的這一長期目標(biāo)，是非常至關(guān)重要的。通用型人工智能系統(tǒng)指的是能像你我那樣做各種各樣復(fù)雜的事情的AI系統(tǒng)。

　　“它是沒有模型的，也沒有所謂的神經(jīng)網(wǎng)絡(luò)，在通用型人工智能的世界里，它既可以被訓(xùn)練成辨認(rèn)物品的大師，又能玩電子游戲，還懂得聽音樂，”Hadsell在Re-work大會上這樣說道。

　　“我們希望它能做到的是學(xué)習(xí)一個任務(wù)，然后在這個工作上達(dá)到專家級的水平，然后轉(zhuǎn)而投向第二個任務(wù)，緊接著做第三、第四、第五個任務(wù)?！?/p>

　　“我們希望這個通用型AI系統(tǒng)在學(xué)習(xí)新東西的時候，不會拋棄已有的認(rèn)知，并具備從一個任務(wù)跳轉(zhuǎn)到另一個任務(wù)的能力：如果我掌握了處理一項任務(wù)的技能，我希望它能幫助我來學(xué)習(xí)下一個任務(wù)?！倍@也正是Hadsell在Deep Mind帶領(lǐng)團(tuán)隊成員正在探索的事兒。

　　他們的方法能讓深度學(xué)習(xí)系統(tǒng)“凍結(jié)”對一個任務(wù)的理解——比如打乒乓球——然后轉(zhuǎn)到處理下一個任務(wù)上，而它在處理第二個任務(wù)的時候，能回過頭去，再參考它在處理第一個任務(wù)時所學(xué)習(xí)到的那些知識。

　　“這將演變成為一個有趣的初級視覺功能”——舉個例子，學(xué)會如何從一堆抽象的數(shù)據(jù)中，分析出這個物體的屬性——“或是一個高級的政策理解功能，”比如理解“小白點必須待在船槳正確一邊”的這一指令。

　　很顯然，現(xiàn)在的Deep Mind離真正開發(fā)出一個通用型人工智能系統(tǒng)還有幾步之遙，但反過來說，Deep Mind離“意外”釋放出一個超級AI系統(tǒng)就剩幾步的距離了。好消息是，據(jù)Hadsell本人透露，現(xiàn)在的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)可以被用于改進(jìn)“數(shù)據(jù)利用率”了。

　　我們可以拿機(jī)器人舉個例子?！皵?shù)據(jù)問題是機(jī)器人的一大難題，因為它們很脆弱、它們需要看護(hù)者，還很貴?！盚adsell這樣說道。

　　一個解決方式是用“蠻力”來搞定：比如，Alphabet的無人駕駛汽車是通過“野蠻”地行駛了很長一段距離，才學(xué)會了駕駛。

　　在開始的時候，Alphabet無人汽車就算是在無人的公路上開，駕駛員的手也要時刻準(zhǔn)備著要落到方向盤上。但如今的Alphabet無人汽車雖然受法律限制，還無法駛上馬路，但它已經(jīng)可以完全不裝方向盤了。

　　而另外一個方法就是通過模擬仿真來教導(dǎo)機(jī)器人，通過給機(jī)器人裝上各種傳感器來無限逼近真實的世界，這種方法的學(xué)習(xí)正確率也很高。這樣調(diào)教一番后，你就可以用實戰(zhàn)訓(xùn)練來提高教育的層次。

　　“要實現(xiàn)這點最好的方法就是采用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)。”Hadsell這樣說道。

　　我們可以舉個簡單的任務(wù)例子：比如用一只機(jī)械臂來實現(xiàn)空中接球。

　　“某天，我們就是在仿真中這么簡單粗暴地來訓(xùn)練它去學(xué)習(xí)這個項目…如果我們拿真正的機(jī)械臂去訓(xùn)練它的話，大概要耗去我們55天的訓(xùn)練時間?！钡@個AI系統(tǒng)在經(jīng)歷仿真訓(xùn)練后，再將它接入到真正的機(jī)械臂上，只用再訓(xùn)練上兩個小時，就能達(dá)到55天真實訓(xùn)練的效果。

　　除了深度學(xué)習(xí)，其實還有另外一種方法。

　　英國帝國理工學(xué)院的沙納漢教授（Shanahan）從事AI研究領(lǐng)域多年，在他的印象里，剛開始的時候，AI領(lǐng)域里最流行的手段還不是深度學(xué)習(xí)。事實上，深度學(xué)習(xí)這個技術(shù)需要高計算機(jī)處理性能、大儲存空間和海量數(shù)據(jù)支持才能實現(xiàn)，而在當(dāng)時這些條件都并不成熟，所以起初最流行的方法是“符號學(xué)習(xí)”技術(shù)。

　　AI符號學(xué)習(xí)流派專注于構(gòu)建通用的邏輯范例，然后“喂以”它們真實世界的信息來傳授它們更多知識。

　　沙納漢教授表示，符號流派里的“符號”有點像英語里的句子，它們陳述了世界或某些東西的樣貌。

　　然而不幸的是，這一流派的技術(shù)并未被推廣開來，以致于AI的發(fā)展在隨后低迷了好幾年。

　　但沙納漢教授仍堅信，將現(xiàn)在的深度學(xué)習(xí)和傳統(tǒng)的符號學(xué)習(xí)技術(shù)結(jié)合到一起，將產(chǎn)生1+1>2的效果，這能有助于提高“數(shù)據(jù)利用率”，還能幫助我們解決機(jī)器思維不透明的難題：“當(dāng)機(jī)器在做決策的時候，我們很難從中提取出可被人類閱讀的解釋，” 沙納漢教授這樣說道。

　　我們無法問計算機(jī)為什么它認(rèn)為短尾矮袋鼠是一只“短尾矮袋鼠”，它只是就這么判斷罷了。

　　沙納漢教授的想法是建立一個通過另一種名為“深度強化學(xué)習(xí)”（deep reinforcement learning）的方法，而不是傳統(tǒng)手動碼代碼的方法，來建立一個符號類型數(shù)據(jù)庫。這樣的話，AI就可以通過反復(fù)試錯來而不是檢索海量數(shù)據(jù)來學(xué)習(xí)了。舉個例子，DeepMind所開發(fā)出的AlphaGo的核心學(xué)習(xí)技術(shù)就是基于深度強化學(xué)習(xí)的。

　　為了向我們更好地展示這一概念，沙納漢教授的團(tuán)隊開發(fā)出了一個能玩簡單版圍棋游戲的AI系統(tǒng)。從大體來講，這個訓(xùn)練這個AI系統(tǒng)的過程不是讓它直接玩圍棋游戲，而是通過讓它教第二個系統(tǒng)有關(guān)圍棋規(guī)則的知識和玩法，這樣的話，這個AI系統(tǒng)就能以更為抽象的方式，理解圍棋究竟是怎么玩兒的了。

　　就像Hadsell的那套方法一樣，沙納漢教授的這套方法雖然為麻煩一些，但從效果上來看，對它所有的付出都還是值得的。當(dāng)傳統(tǒng)的深度學(xué)習(xí)系統(tǒng)遇到瓶頸的時候，沙納漢教授的這套更為抽象的系統(tǒng)能更為一般化地思考它所面對的難題，它在某些方面同上一種方法的類似，但卻是它的延續(xù)。

　　更為機(jī)智地思考

　　在某種程度上，“數(shù)據(jù)利用率”的問題其實也被夸大了。比如，相比那些基于深度學(xué)習(xí)技術(shù)的AI系統(tǒng)，你確實在學(xué)一些東西的時候要比它快得多。但你也必須承認(rèn)，作為人類一員的你已經(jīng)學(xué)習(xí)各種知識很多年了，這可不是什么小規(guī)模的數(shù)據(jù)量。

　　除此之外，你身上還有一個很明顯的缺點，這是任何優(yōu)秀的深度學(xué)習(xí)系統(tǒng)都不會出現(xiàn)的情況，那就是：你很健忘。

　　而這或許也是人腦這個思考系統(tǒng)為高效率所付出的代價。你要么就是會忘了怎么做事兒，要么就是每次都會花越來越多的資源，來從大量物品中尋找到你想要找的那個東西。但如果能從那些大公司那兒孵化出最高級別的深受學(xué)習(xí)技術(shù)的話，那即便出現(xiàn)這點小問題，它也還是值得的。

2898站長資源平臺網(wǎng)站排行榜：http://www.afrimangol.com/webmain.htm

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ，我們將及時溝通與處理。本站內(nèi)容除了2898站長資源平臺（ www.afrimangol.com ）原創(chuàng)外，其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容，涉及言論、版權(quán)與本站無關(guān)。

網(wǎng)站	權(quán)重	銷量
中華網(wǎng)	5	8
造字閣	5	0
龍騰網(wǎng)	6	156
中國資訊網(wǎng)-chin	5	264
XDA智能手機(jī)網(wǎng)	6	29
考試信息網(wǎng)	5	40
快樂日歷	5	136
中國建筑網(wǎng)	6	39
81396網(wǎng)址大全	5	17
新航道教育	6	0

為什么說數(shù)據(jù)是新時代的“煤炭”？

上一篇：百度老司機(jī)：PaddlePaddle

下一篇：谷歌神經(jīng)機(jī)器翻譯質(zhì)量接近筆譯人員

解鎖社群密碼：從0到1搭建你的專屬部落

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

支付寶提示“當(dāng)前操作可能存在風(fēng)險，為保護(hù)資金安全，我們中斷了此次操作”怎么辦？

如果公司要求只能認(rèn)證一個，是認(rèn)證服務(wù)號好還是小程序？

AIGC 平衡 SEO 與用戶體驗的深度解決方案

解鎖社群密碼：從0到1搭建你的專屬部落

支付寶提示“當(dāng)前操作可能存在風(fēng)險，為保護(hù)資金安全，我們中斷了此次操作”怎么辦？

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

國藥新冠疫苗保護(hù)效力79.34% 這6類人群明確不宜接種

佳能鏡頭連起來真能繞地球一圈官方宣布累計產(chǎn)量達(dá)1.5億支

用驍龍888芯片做小米11發(fā)布會邀請函，真首發(fā)，真有貨

老板也有職場焦慮？俞敏洪馮侖談任正非

男子BT下載145部盜版影片被法院判賠償70萬元

消息盒

為什么說數(shù)據(jù)是新時代的“煤炭”？

為什么說數(shù)據(jù)是新時代的“煤炭”？