AI的進步:模仿人類行為轉變?yōu)樽晕覍W習
大約20年前,深藍系統(tǒng)打敗世界國際象棋冠軍,但是當時的系統(tǒng)并沒有做出多少真正的創(chuàng)造性貢獻,現(xiàn)在不一樣了。本文編譯自medium原題為“How Computers Are Reinventing Chess”的文章。
這是一款標準的休閑游戲,供玩家在臥室玩,從開局到將死,大約只需要9分鐘。一邊是國際象棋世界冠軍馬格努斯?卡爾森 (Magnus Carlsen),他是當之無愧的神童,13歲就成為了國際象棋特級大師。另一邊是iPhone程序Play Magnus App,程序能模仿卡爾森的下棋習慣??柹瓕C器的年齡下調到18歲,然后與程序對決,但卡爾森還是遭遇了挑戰(zhàn)。最開始幾分鐘,卡爾森被出乎意料的攻擊打得十分狼狽,然后他繼續(xù)奮戰(zhàn),想與App打平,但最終還是投降。我們似乎看到App居高臨下說:“你需要好好磨練一下棋藝,讓我們再試一次吧!”卡爾森只能用微笑回應。
事件沒有什么特殊的。事實上,卡爾森已經(jīng)發(fā)布多段視頻,講述自己與不同年齡虛擬棋手對決的故事。這些視頻清楚告訴我們:不論是輸是贏,電腦都是卡爾森最不喜歡的對手。
國際象棋可能是一項很優(yōu)雅的游戲,但是深藍的游戲策略瞄準的卻是丑陋的蠻力。當時深藍還沒有用上神經(jīng)網(wǎng)絡、機器學習策略。相反,深藍用強大的原始力量推測潛在舉動,速度達到每秒2億步。
深藍系統(tǒng)根據(jù)各種不同的參數(shù)評估每一步,然后為每一項參數(shù)賦值。研究人員對將近100萬局大師下的棋局進行分析,站長資源平臺然后給參數(shù)確定權重,接下來再讓國際象棋大師優(yōu)化。深藍系統(tǒng)的下棋方法等于是將無數(shù)大師棋局拼湊在一起的,因為系統(tǒng)擁有足夠大的原始計算力,所以它可以預測未來,避免發(fā)生大錯誤。
到了今天,全球已經(jīng)有十多個計算機國際象棋引擎,所有引擎都在標準硬件之上運行,它們還高度依賴過去200年積累的國際象棋歷史。在競賽中,國際象棋引擎可以搜索海量數(shù)據(jù)庫,在比賽開始之前找到開局。到了盤中時,系統(tǒng)可以確保自己站在有利位置。在棋局結束之前,系統(tǒng)可以使用各種策略,它不斷搜索數(shù)據(jù)庫,讓每一步接近完美。
至于國際象棋引擎評估權重的規(guī)則,它們是由一大群國際象棋精通者協(xié)助制定的。貢獻者提出算法修改建議,然后再制作測試版本,接下來新老版本對決,直到研究人員確定哪個版本更優(yōu)秀。
國際象棋使用的是Elo評級系統(tǒng),就是說系統(tǒng)會根據(jù)打敗對手的可能性判斷權重。不過要將計算機與人的表現(xiàn)對比是一件難事,因為能與計算機抗衡的人很少,有興趣這樣做的人也很少。
機器可以輕輕松松連續(xù)比賽1000局,所以將計算機與人做比較只能估計。盡管如此,只要你看一眼當今頂尖人類與頂尖國際象棋引擎的數(shù)據(jù),就能看到一幅“人類絕望圖”。
從數(shù)據(jù)看,計算機是統(tǒng)治者,但它并不完美。它們無法預測棋局的結尾,因為結果的可能性比宇宙中的原子還要多。想打敗人類世界冠軍,引擎沒有必要完美。計算機只要保持一致、不知疲倦、不犯明顯錯誤就行了。
國際象棋實際上很重視積累,這點可能是外行人忽視的。有許多國際象棋冠軍說,新一代最終會擊敗老一代,之所以這樣并不是因為他們更年輕、更有精力,而是因為他們可以獲得更多知識。如果用創(chuàng)造棋步的標準來衡量,計算機本來比不上人類,但最近出現(xiàn)了變化。
2017年,谷歌資助的公司DeepMind展示第一代深度學習系統(tǒng)AlphaZero。最開始時AlphaZero并沒有內置國際象棋知識,里面沒有開局步法目錄,也沒有幾百萬局大師下的棋,它只知道下棋的規(guī)則,除此再無其它。
不過AlphaZero會學習,而且學習的速度很快。它自己與自己下棋,下幾個小時就能達到大師水平。一天結束時,AlphaZero已經(jīng)擁有精湛的技藝,可以打敗有限版Stockfish國際象棋引擎。去年,Stockfish又打敗了完整版Stockfish。
當AlphaZero學習時,人類可以觀察到它的進步,看著它從初步者進化為大師,然后繼續(xù)時化。
AlphaZero和Stockfish使用的硬件基本一樣,但是AlphaZero每秒分析的步數(shù)只有Stockfish的千分之一,AlphaZero的優(yōu)勢不在分析速度,而是學習??ㄋ古亮_夫分析棋步之后感嘆說,AlphaZero就像他自己一樣擁有動態(tài)風格。馬修?薩德勒(Matthew Sadler)則說:“AlphaZero找到了過往最佳棋手的秘密筆記本?!彼缤粋€會下國際象棋的外星人降臨在人類的頭頂。
AlphaZero和之前的計算機國際象棋程序有一個很大的不同:AlphaZero不需要模擬人類,它裝備神經(jīng)網(wǎng)絡,可以自己理解棋局。AlphaZero不只打敗了人類,它也許還能幫助人類理解國際象棋,之前沒有計算機系統(tǒng)能做到,AlphaZero算是第一個。相比當年深藍系統(tǒng)擊敗卡斯帕羅夫,AlphaZero的意義似乎更重大。