QQ在線客服

當(dāng)前位置:首頁> 資訊> 科技評論

AlphaZero問世:8小時完爆圍棋、國際象棋、日本將棋

2017-12-07 11:08 來源: 站長資源平臺 編輯: 等等 瀏覽(1035)人   

  通用AI問世!AlphaZero強化學(xué)習(xí)算法8小時完爆人類圍棋、國際象棋、日本將棋。日前,DeepMind團隊發(fā)表了最新論文,提出了全新的強化學(xué)習(xí)算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學(xué)習(xí)在多種任務(wù)上達到超越人類水平的新算法,堪稱“通用棋類AI”。


AlphaZero問世:8小時完爆圍棋、國際象棋、日本將棋


  據(jù)了解,AlphaZero算法可以再8個小時訓(xùn)練擊敗李世石版本AlphaGo;12小時訓(xùn)練擊敗世界頂級的國際象棋程序Stockfish;14小時訓(xùn)練擊敗世界頂級將棋程序Elmo。這是DeepMind團隊繼AlphaGo Zero的研究問世之后,帶給我們的又一全新算法,它是“更通用的版本”。


  此外,我們看到這次的AlphaZero與AlphaGo Zero有幾點不同,首先AlphaGo Zero是在假設(shè)結(jié)果為贏/輸二元的情況下,對獲勝概率進行估計和優(yōu)化。而AlphaZero會將平局或其他潛在結(jié)果納入考慮,對結(jié)果進行估計和優(yōu)化。其次,AlphaGo和AlphaGo Zero會轉(zhuǎn)變棋盤位置進行數(shù)據(jù)增強,而AlphaZero不會。第三,AlphaZero只維護單一的一個神經(jīng)網(wǎng)絡(luò),這個神經(jīng)網(wǎng)絡(luò)不斷更新,而不是等待迭代,四,AlphaZero中,所有對弈都重復(fù)使用相同的超參數(shù),因此無需進行針對特定某種游戲的調(diào)整。


     2898站長資源平臺站長工具:http://afrimangol.com/webtool.htm 


【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時溝通與處理。 本站內(nèi)容除了2898站長資源平臺( afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關(guān)。