剛剛,那個(gè)打敗柯潔、李世石的阿爾法狗背后的男人,獲得2019 ACM 計(jì)算獎(jiǎng)
編者按:本文來(lái)自微信公眾號(hào)“學(xué)術(shù)頭條”(ID:SciTouTiao),作者:學(xué)術(shù)君,36氪經(jīng)授權(quán)發(fā)布。
美國(guó)計(jì)算機(jī)學(xué)會(huì)(ACM)今天宣布,將 2019 年 ACM 計(jì)算獎(jiǎng)授予 AlphaGo 研發(fā)團(tuán)隊(duì)領(lǐng)導(dǎo)者 David Silver,以表彰他為計(jì)算機(jī)游戲表現(xiàn)帶來(lái)的突破性進(jìn)展。
與“計(jì)算機(jī)界的諾貝爾獎(jiǎng)”圖靈獎(jiǎng)不同,ACM 計(jì)算獎(jiǎng)(ACM Prize in Computing)每年授予在計(jì)算機(jī)領(lǐng)域里有突出貢獻(xiàn)的年輕學(xué)者。
Silver 目前任倫敦大學(xué)學(xué)院(UCL)教授、谷歌旗下人工智能公司 DeepMind 首席科學(xué)家。作為深度強(qiáng)化學(xué)習(xí)領(lǐng)域的領(lǐng)軍人物,Silver 最主要的成就就是領(lǐng)導(dǎo)了 AlphaGo 研發(fā)團(tuán)隊(duì),在圍棋比賽中擊敗了世界冠軍柯潔和李世石。
Silver 巧妙地將深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、傳統(tǒng)樹搜索算法和大規(guī)模計(jì)算的思想結(jié)合起來(lái),開發(fā)出了 AlphaGo 算法。AlphaGo 被認(rèn)為是人工智能研究的里程碑,并被《新科學(xué)家》雜志列為過(guò)去十年的十大發(fā)現(xiàn)之一。AlphaGo 也是第一個(gè)擊敗人類職業(yè)圍棋選手、第一個(gè)戰(zhàn)勝圍棋世界冠軍的人工智能機(jī)器人。
2016 年 3 月,阿爾法圍棋與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以 4 比 1 的總比分獲勝;2016 年末 2017年初,該程序在中國(guó)棋類網(wǎng)站上以“大師”(Master)為注冊(cè)賬號(hào)與中日韓數(shù)十位圍棋高手進(jìn)行快棋對(duì)決,連續(xù) 60 局無(wú)一敗績(jī);2017 年 5 月,在中國(guó)烏鎮(zhèn)圍棋峰會(huì)上,它與排名世界第一的世界圍棋冠軍柯潔對(duì)戰(zhàn),以 3 比 0 的總比分獲勝。
2017 年 10 月 19 日,在國(guó)際學(xué)術(shù)期刊《自然》(Nature)上發(fā)表的一篇研究論文中,Silver 團(tuán)隊(duì)報(bào)告新版程序 AlphaGo Zero:從空白狀態(tài)學(xué)起,在無(wú)任何人類輸入的條件下,它能夠迅速自學(xué)圍棋,并以 100:0 的戰(zhàn)績(jī)擊敗“前輩”。AlphaZero 在國(guó)際象棋、圍棋、圍棋等游戲中都取得了超人的表現(xiàn),展現(xiàn)了前所未有的游戲方法的普遍性。
ACM 主席 Cherri M. Pancake 表示:“在人工智能領(lǐng)域,很少有其他研究人員能像 David Silver 一樣讓人如此興奮。”Infosys 首席運(yùn)營(yíng)官 Pravin Rao 表示:“ David Silver 為深度強(qiáng)化學(xué)習(xí)做出了基礎(chǔ)性貢獻(xiàn),從而迅速促進(jìn)了人工智能的發(fā)展。當(dāng)電腦能夠在復(fù)雜的棋盤游戲中擊敗世界冠軍時(shí),它已經(jīng)激發(fā)了公眾的想象力,并將年輕的研究人員吸引到機(jī)器學(xué)習(xí)等領(lǐng)域。
重要的是,Silver 和他的同事開發(fā)的框架將在未來(lái)的許多年里,為人工智能的商業(yè)和工業(yè)實(shí)際應(yīng)用提供貢獻(xiàn)?!盇CM 計(jì)算獎(jiǎng)旨在表彰研究成果產(chǎn)生了深遠(yuǎn)影響和廣泛意義的中青年計(jì)算機(jī)科學(xué)家,獎(jiǎng)金為 25 萬(wàn)美元,由印度科技公司印孚瑟斯(Infosys Ltd)捐贈(zèng)。頒獎(jiǎng)儀式將于 2020 年 6 月 20 日在美國(guó)舊金山舉行,屆時(shí) Silver 將正式接受獎(jiǎng)項(xiàng)。
人工智能玩游戲
自上世紀(jì) 50 年代以來(lái),教計(jì)算機(jī)程序與人類或其他計(jì)算機(jī)進(jìn)行游戲比賽,一直是人工智能研究的核心實(shí)踐項(xiàng)目。人類與機(jī)器之間的比賽,也一直是衡量人工智能的標(biāo)尺。計(jì)算機(jī)程序通過(guò)做出一系列決定,來(lái)達(dá)到獲勝的目標(biāo),這個(gè)過(guò)程被看作是對(duì)人類思維的模擬和挑戰(zhàn)。游戲比賽也給研究人員提供了很容易量化的結(jié)果,比如“電腦遵守規(guī)則了嗎?得分了嗎?或者贏了游戲嗎?”
在這一領(lǐng)域的早期,研究人員開發(fā)了一些程序來(lái)與人類在跳棋上競(jìng)爭(zhēng),而在過(guò)去的幾十年里,又出現(xiàn)了越來(lái)越復(fù)雜的國(guó)際象棋程序。1997 年,ACM 贊助了一場(chǎng)比賽,IBM 的“深藍(lán)”(DeepBlue)成為第一臺(tái)擊敗國(guó)際象棋世界冠軍加里·卡斯帕羅夫(Gary Kasparov)的電腦程序,這也是一個(gè)具有分水嶺意義的時(shí)刻。
但對(duì)于研究人員來(lái)說(shuō),目標(biāo)不僅僅是開發(fā)贏得游戲的程序,而是將游戲作為開發(fā)具有模擬人類智能能力的機(jī)器的試金石。2016 年 3 月,全世界數(shù)百萬(wàn)人在電視上觀看了 AlphaGo 擊敗圍棋世界冠軍李世石(Lee Sedol)的比賽。但這僅僅是 David Silver 團(tuán)隊(duì)驚人成就影響的開始。他對(duì)深度強(qiáng)化學(xué)習(xí)的見解已經(jīng)被應(yīng)用于很多領(lǐng)域,比如提高英國(guó)電網(wǎng)的效率,降低谷歌數(shù)據(jù)中心的能耗,以及為歐洲航天局設(shè)計(jì)太空探測(cè)器的軌道。”Cherri M. Pancake說(shuō)道。
Silver 是深度強(qiáng)化學(xué)習(xí)的最重要的貢獻(xiàn)者之一,在深度強(qiáng)化學(xué)習(xí)這種工具中,算法通過(guò)在交互式環(huán)境中反復(fù)試驗(yàn)來(lái)學(xué)習(xí),根據(jù)運(yùn)行過(guò)程中積累的信息不斷調(diào)整,并利用不同數(shù)學(xué)處理層次的計(jì)算模型——人工神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)策略有效地結(jié)合起來(lái),對(duì)試錯(cuò)結(jié)果進(jìn)行評(píng)估。該算法不需要對(duì)每一個(gè)可能的結(jié)果進(jìn)行計(jì)算,而是進(jìn)行預(yù)測(cè),從而更有效地執(zhí)行給定的任務(wù)。
阿爾法狗
2500 年前,中國(guó)發(fā)明了圍棋游戲,至今仍然流行,尤其是在亞洲。圍棋被認(rèn)為比象棋要復(fù)雜得多,因?yàn)槠迨挚梢宰龀龈酀撛诘膭?dòng)作,而且游戲可以有更多的方式進(jìn)行。Silver 在艾伯塔大學(xué)(University of Alberta)攻讀博士學(xué)位時(shí),就開始探索開發(fā)一種可以掌握圍棋的計(jì)算機(jī)程序的可能性。Silver 開發(fā) AlphaGo 的關(guān)鍵見解,是將深層神經(jīng)網(wǎng)絡(luò)與計(jì)算機(jī)游戲中使用的算法 Monte Carlo 樹搜索相結(jié)合。
Monte Carlo 樹搜索的一個(gè)優(yōu)點(diǎn)是,在追求游戲中最佳感知策略的同時(shí),該算法還在不斷研究其他替代方案。2016 年 3 月,AlphaGo 擊敗世界圍棋冠軍李世石被譽(yù)為AI里程碑式的時(shí)刻。Silver 和他的同事在 2016 年發(fā)表在《自然》雜志上的論文《用深層神經(jīng)網(wǎng)絡(luò)和樹搜索掌握圍棋游戲》中發(fā)表了支撐 AlphaGo 的基礎(chǔ)技術(shù)。
AlphaGo Zero、AlphaZero和AlphaStar
Silver 和他在 DeepMind 的團(tuán)隊(duì)一直在開發(fā)新的算法,這些算法極大地提高了計(jì)算機(jī)游戲的發(fā)展水平,并取得了許多被認(rèn)為人工智能系統(tǒng)無(wú)法實(shí)現(xiàn)的結(jié)果。在開發(fā) AlphaGo Zero 算法時(shí),Silver 和他的合作者證明了程序可以在不接觸人類專家游戲的情況下掌握圍棋。該算法完全通過(guò)在沒有任何人類數(shù)據(jù)或先驗(yàn)知識(shí)的情況下自己來(lái)學(xué)習(xí),而在進(jìn)一步的迭代版本中,算法甚至不需要知道規(guī)則。
后來(lái),DeepMind 團(tuán)隊(duì)的 AlphaZero 在國(guó)際象棋、將棋和圍棋中也獲得了超人的表現(xiàn)。在國(guó)際象棋中,AlphaZero 輕松擊敗了世界計(jì)算機(jī)國(guó)際象棋冠軍 Stockfish ,這是一個(gè)由大師和國(guó)際象棋編程專家設(shè)計(jì)的高性能程序。就在去年,由 Silver 領(lǐng)導(dǎo)的 DeepMind 團(tuán)隊(duì)開發(fā)的AlphaStar ,掌握了多人電子競(jìng)技游戲《星際爭(zhēng)霸 II》,該游戲被視為 AI 學(xué)習(xí)系統(tǒng)面臨的一項(xiàng)艱巨挑戰(zhàn)。
關(guān)于 David Silver
David Silver 是 DeepMind 強(qiáng)化學(xué)習(xí)研究小組的負(fù)責(zé)人,也是倫敦大學(xué)學(xué)院的計(jì)算機(jī)科學(xué)教授。他所在的 Google 子公司 DeepMind 試圖將機(jī)器學(xué)習(xí)和系統(tǒng)神經(jīng)科學(xué)方面的最佳技術(shù)結(jié)合起來(lái),以構(gòu)建功強(qiáng)大的通用學(xué)習(xí)算法。
Silver 分別于 1997 年和 2000 年獲得劍橋大學(xué)的學(xué)士和碩士學(xué)位。1998 年,他和別人共同創(chuàng)立了視頻游戲公司 Elixir Studios,并在那里擔(dān)任首席技術(shù)官兼首席程序員。后來(lái) Silver 返回學(xué)術(shù)界,并于 2009 年獲得了艾伯塔大學(xué)的計(jì)算機(jī)科學(xué)博士學(xué)位。
2015 年,Silver 和他的同事發(fā)表的一篇題為《通過(guò)深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)人類水平控制》(Human Level Control Through Deep reinforcement learning)的開創(chuàng)性論文中,描述了他們將強(qiáng)化學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。該論文發(fā)表在《自然》(Nature)雜志上,被引用了近1萬(wàn)次,對(duì)該領(lǐng)域產(chǎn)生了巨大的影響。
隨后,Silver 和他的同事繼續(xù)用新的技術(shù)完善這些深度強(qiáng)化學(xué)習(xí)算法,這些算法仍然是機(jī)器學(xué)習(xí)中最廣泛使用的工具之一。Silver 的眾多榮譽(yù)包括:馬文·明克西人工智能杰出成就獎(jiǎng)(2018年)、皇家工程院對(duì)英國(guó)工程杰出貢獻(xiàn)銀獎(jiǎng)(2017年)、門薩基金會(huì)人工智能領(lǐng)域最佳科學(xué)發(fā)現(xiàn)獎(jiǎng)(2017年)。
關(guān)于 ACM 計(jì)算獎(jiǎng)
ACM 計(jì)算獎(jiǎng)旨在表彰研究成果產(chǎn)生了深遠(yuǎn)影響和廣泛意義的中青年計(jì)算機(jī)科學(xué)家。該獎(jiǎng)項(xiàng)的獎(jiǎng)金為 25 萬(wàn)美元,資金支持由 Infosys Ltd.提供。ACM 計(jì)算獎(jiǎng)以前被稱為 ACM Infosys 基金會(huì)計(jì)算科學(xué)獎(jiǎng)。ACM 獎(jiǎng)獲得者將被邀請(qǐng)參加海德堡桂冠論壇,這是一個(gè)年度網(wǎng)絡(luò)活動(dòng),匯集了來(lái)自世界各地的年輕研究人員和 ACM 圖靈獎(jiǎng)、阿貝爾獎(jiǎng)、菲爾茲獎(jiǎng)和奈凡林納獎(jiǎng)的獲得者。
關(guān)于 ACM
計(jì)算機(jī)科學(xué)協(xié)會(huì)(ACM)是世界上最大的教育和科學(xué)計(jì)算機(jī)學(xué)會(huì),它將計(jì)算機(jī)教育工作者、研究人員和專業(yè)人士聯(lián)合起來(lái),以激發(fā)對(duì)話、共享資源并應(yīng)對(duì)該領(lǐng)域的挑戰(zhàn)。ACM 通過(guò)強(qiáng)大的領(lǐng)導(dǎo)力、最高標(biāo)準(zhǔn)的推廣以及對(duì)技術(shù)卓越的認(rèn)可,增強(qiáng)了計(jì)算機(jī)行業(yè)的集體聲音。ACM 通過(guò)提供終身學(xué)習(xí)、職業(yè)發(fā)展和專業(yè)網(wǎng)絡(luò)的機(jī)會(huì)來(lái)支持其成員的專業(yè)成長(zhǎng)。
參考資料:https://www.acm.org/media-center/2020/april/acm-prize-2019