AlphaZero問世:8小時完爆圍棋、國際象棋、日本將棋
通用AI問世!AlphaZero強化學(xué)習(xí)算法8小時完爆人類圍棋、國際象棋、日本將棋。日前,DeepMind團隊發(fā)表了最新論文,提出了全新的強化學(xué)習(xí)算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學(xué)習(xí)在多種任務(wù)上達到超越人類水平的新算法,堪稱“通用棋類AI”。
據(jù)了解,AlphaZero算法可以再8個小時訓(xùn)練擊敗李世石版本AlphaGo;12小時訓(xùn)練擊敗世界頂級的國際象棋程序Stockfish;14小時訓(xùn)練擊敗世界頂級將棋程序Elmo。這是DeepMind團隊繼AlphaGo Zero的研究問世之后,帶給我們的又一全新算法,它是“更通用的版本”。
此外,我們看到這次的AlphaZero與AlphaGo Zero有幾點不同,首先AlphaGo Zero是在假設(shè)結(jié)果為贏/輸二元的情況下,對獲勝概率進行估計和優(yōu)化。而AlphaZero會將平局或其他潛在結(jié)果納入考慮,對結(jié)果進行估計和優(yōu)化。其次,AlphaGo和AlphaGo Zero會轉(zhuǎn)變棋盤位置進行數(shù)據(jù)增強,而AlphaZero不會。第三,AlphaZero只維護單一的一個神經(jīng)網(wǎng)絡(luò),這個神經(jīng)網(wǎng)絡(luò)不斷更新,而不是等待迭代,四,AlphaZero中,所有對弈都重復(fù)使用相同的超參數(shù),因此無需進行針對特定某種游戲的調(diào)整。
2898站長資源平臺站長工具:http://afrimangol.com/webtool.htm