剛剛,那個打敗柯潔、李世石的阿爾法狗背后的男人,獲得2019 ACM 計算獎
編者按:本文來自微信公眾號“學術頭條”(ID:SciTouTiao),作者:學術君,36氪經授權發(fā)布。
美國計算機學會(ACM)今天宣布,將 2019 年 ACM 計算獎授予 AlphaGo 研發(fā)團隊領導者 David Silver,以表彰他為計算機游戲表現(xiàn)帶來的突破性進展。
與“計算機界的諾貝爾獎”圖靈獎不同,ACM 計算獎(ACM Prize in Computing)每年授予在計算機領域里有突出貢獻的年輕學者。
Silver 目前任倫敦大學學院(UCL)教授、谷歌旗下人工智能公司 DeepMind 首席科學家。作為深度強化學習領域的領軍人物,Silver 最主要的成就就是領導了 AlphaGo 研發(fā)團隊,在圍棋比賽中擊敗了世界冠軍柯潔和李世石。
Silver 巧妙地將深度學習、強化學習、傳統(tǒng)樹搜索算法和大規(guī)模計算的思想結合起來,開發(fā)出了 AlphaGo 算法。AlphaGo 被認為是人工智能研究的里程碑,并被《新科學家》雜志列為過去十年的十大發(fā)現(xiàn)之一。AlphaGo 也是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能機器人。
2016 年 3 月,阿爾法圍棋與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以 4 比 1 的總比分獲勝;2016 年末 2017年初,該程序在中國棋類網站上以“大師”(Master)為注冊賬號與中日韓數(shù)十位圍棋高手進行快棋對決,連續(xù) 60 局無一敗績;2017 年 5 月,在中國烏鎮(zhèn)圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰(zhàn),以 3 比 0 的總比分獲勝。
2017 年 10 月 19 日,在國際學術期刊《自然》(Nature)上發(fā)表的一篇研究論文中,Silver 團隊報告新版程序 AlphaGo Zero:從空白狀態(tài)學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,并以 100:0 的戰(zhàn)績擊敗“前輩”。AlphaZero 在國際象棋、圍棋、圍棋等游戲中都取得了超人的表現(xiàn),展現(xiàn)了前所未有的游戲方法的普遍性。
ACM 主席 Cherri M. Pancake 表示:“在人工智能領域,很少有其他研究人員能像 David Silver 一樣讓人如此興奮。”Infosys 首席運營官 Pravin Rao 表示:“ David Silver 為深度強化學習做出了基礎性貢獻,從而迅速促進了人工智能的發(fā)展。當電腦能夠在復雜的棋盤游戲中擊敗世界冠軍時,它已經激發(fā)了公眾的想象力,并將年輕的研究人員吸引到機器學習等領域。
重要的是,Silver 和他的同事開發(fā)的框架將在未來的許多年里,為人工智能的商業(yè)和工業(yè)實際應用提供貢獻?!盇CM 計算獎旨在表彰研究成果產生了深遠影響和廣泛意義的中青年計算機科學家,獎金為 25 萬美元,由印度科技公司印孚瑟斯(Infosys Ltd)捐贈。頒獎儀式將于 2020 年 6 月 20 日在美國舊金山舉行,屆時 Silver 將正式接受獎項。
人工智能玩游戲
自上世紀 50 年代以來,教計算機程序與人類或其他計算機進行游戲比賽,一直是人工智能研究的核心實踐項目。人類與機器之間的比賽,也一直是衡量人工智能的標尺。計算機程序通過做出一系列決定,來達到獲勝的目標,這個過程被看作是對人類思維的模擬和挑戰(zhàn)。游戲比賽也給研究人員提供了很容易量化的結果,比如“電腦遵守規(guī)則了嗎?得分了嗎?或者贏了游戲嗎?”
在這一領域的早期,研究人員開發(fā)了一些程序來與人類在跳棋上競爭,而在過去的幾十年里,又出現(xiàn)了越來越復雜的國際象棋程序。1997 年,ACM 贊助了一場比賽,IBM 的“深藍”(DeepBlue)成為第一臺擊敗國際象棋世界冠軍加里·卡斯帕羅夫(Gary Kasparov)的電腦程序,這也是一個具有分水嶺意義的時刻。
但對于研究人員來說,目標不僅僅是開發(fā)贏得游戲的程序,而是將游戲作為開發(fā)具有模擬人類智能能力的機器的試金石。2016 年 3 月,全世界數(shù)百萬人在電視上觀看了 AlphaGo 擊敗圍棋世界冠軍李世石(Lee Sedol)的比賽。但這僅僅是 David Silver 團隊驚人成就影響的開始。他對深度強化學習的見解已經被應用于很多領域,比如提高英國電網的效率,降低谷歌數(shù)據(jù)中心的能耗,以及為歐洲航天局設計太空探測器的軌道?!盋herri M. Pancake說道。
Silver 是深度強化學習的最重要的貢獻者之一,在深度強化學習這種工具中,算法通過在交互式環(huán)境中反復試驗來學習,根據(jù)運行過程中積累的信息不斷調整,并利用不同數(shù)學處理層次的計算模型——人工神經網絡與強化學習策略有效地結合起來,對試錯結果進行評估。該算法不需要對每一個可能的結果進行計算,而是進行預測,從而更有效地執(zhí)行給定的任務。
阿爾法狗
2500 年前,中國發(fā)明了圍棋游戲,至今仍然流行,尤其是在亞洲。圍棋被認為比象棋要復雜得多,因為棋手可以做出更多潛在的動作,而且游戲可以有更多的方式進行。Silver 在艾伯塔大學(University of Alberta)攻讀博士學位時,就開始探索開發(fā)一種可以掌握圍棋的計算機程序的可能性。Silver 開發(fā) AlphaGo 的關鍵見解,是將深層神經網絡與計算機游戲中使用的算法 Monte Carlo 樹搜索相結合。
Monte Carlo 樹搜索的一個優(yōu)點是,在追求游戲中最佳感知策略的同時,該算法還在不斷研究其他替代方案。2016 年 3 月,AlphaGo 擊敗世界圍棋冠軍李世石被譽為AI里程碑式的時刻。Silver 和他的同事在 2016 年發(fā)表在《自然》雜志上的論文《用深層神經網絡和樹搜索掌握圍棋游戲》中發(fā)表了支撐 AlphaGo 的基礎技術。
AlphaGo Zero、AlphaZero和AlphaStar
Silver 和他在 DeepMind 的團隊一直在開發(fā)新的算法,這些算法極大地提高了計算機游戲的發(fā)展水平,并取得了許多被認為人工智能系統(tǒng)無法實現(xiàn)的結果。在開發(fā) AlphaGo Zero 算法時,Silver 和他的合作者證明了程序可以在不接觸人類專家游戲的情況下掌握圍棋。該算法完全通過在沒有任何人類數(shù)據(jù)或先驗知識的情況下自己來學習,而在進一步的迭代版本中,算法甚至不需要知道規(guī)則。
后來,DeepMind 團隊的 AlphaZero 在國際象棋、將棋和圍棋中也獲得了超人的表現(xiàn)。在國際象棋中,AlphaZero 輕松擊敗了世界計算機國際象棋冠軍 Stockfish ,這是一個由大師和國際象棋編程專家設計的高性能程序。就在去年,由 Silver 領導的 DeepMind 團隊開發(fā)的AlphaStar ,掌握了多人電子競技游戲《星際爭霸 II》,該游戲被視為 AI 學習系統(tǒng)面臨的一項艱巨挑戰(zhàn)。
關于 David Silver
David Silver 是 DeepMind 強化學習研究小組的負責人,也是倫敦大學學院的計算機科學教授。他所在的 Google 子公司 DeepMind 試圖將機器學習和系統(tǒng)神經科學方面的最佳技術結合起來,以構建功強大的通用學習算法。
Silver 分別于 1997 年和 2000 年獲得劍橋大學的學士和碩士學位。1998 年,他和別人共同創(chuàng)立了視頻游戲公司 Elixir Studios,并在那里擔任首席技術官兼首席程序員。后來 Silver 返回學術界,并于 2009 年獲得了艾伯塔大學的計算機科學博士學位。
2015 年,Silver 和他的同事發(fā)表的一篇題為《通過深度強化學習實現(xiàn)人類水平控制》(Human Level Control Through Deep reinforcement learning)的開創(chuàng)性論文中,描述了他們將強化學習與人工神經網絡相結合的方法。該論文發(fā)表在《自然》(Nature)雜志上,被引用了近1萬次,對該領域產生了巨大的影響。
隨后,Silver 和他的同事繼續(xù)用新的技術完善這些深度強化學習算法,這些算法仍然是機器學習中最廣泛使用的工具之一。Silver 的眾多榮譽包括:馬文·明克西人工智能杰出成就獎(2018年)、皇家工程院對英國工程杰出貢獻銀獎(2017年)、門薩基金會人工智能領域最佳科學發(fā)現(xiàn)獎(2017年)。
關于 ACM 計算獎
ACM 計算獎旨在表彰研究成果產生了深遠影響和廣泛意義的中青年計算機科學家。該獎項的獎金為 25 萬美元,資金支持由 Infosys Ltd.提供。ACM 計算獎以前被稱為 ACM Infosys 基金會計算科學獎。ACM 獎獲得者將被邀請參加海德堡桂冠論壇,這是一個年度網絡活動,匯集了來自世界各地的年輕研究人員和 ACM 圖靈獎、阿貝爾獎、菲爾茲獎和奈凡林納獎的獲得者。
關于 ACM
計算機科學協(xié)會(ACM)是世界上最大的教育和科學計算機學會,它將計算機教育工作者、研究人員和專業(yè)人士聯(lián)合起來,以激發(fā)對話、共享資源并應對該領域的挑戰(zhàn)。ACM 通過強大的領導力、最高標準的推廣以及對技術卓越的認可,增強了計算機行業(yè)的集體聲音。ACM 通過提供終身學習、職業(yè)發(fā)展和專業(yè)網絡的機會來支持其成員的專業(yè)成長。
參考資料:https://www.acm.org/media-center/2020/april/acm-prize-2019