微軟麻將 AI 論文發(fā)布,首次公開技術細節(jié)
編者按:本文來自微信公眾號“HyperAI超神經”(ID:HyperAI),作者:神經小兮,36氪經授權發(fā)布。
場景描述:還記得去年 8 月微軟發(fā)布的「雀神AI」Suphx 嗎?今天,該研究團隊在 arXiv 上發(fā)布了更新版的論文,進一步介紹了 Suphx 背后的技術。
關鍵詞:麻將 AI,Suphx,卷積神經網絡
2019 年 8 月 29 日,微軟發(fā)布了一個名為 Suphx(超級鳳凰)的「麻將 AI」,在專業(yè)的麻將競技平臺上,Suphx 的實力勝過了頂級人類選手的平均水平。
當時一經發(fā)布,Suphx便引起了廣泛的關注,不僅是人工智能領域,不少麻將愛好者也都趕來圍觀討論。(可點擊此文回顧《一家胡三家的人工智能來了》)
麻將的信息集數目和信息集平均大小
超過了橋牌、德撲和圍棋
人們評價該系統(tǒng)比戰(zhàn)勝了職業(yè)圍棋手的AlphaGo 更復雜,被譽為「最強日麻人工智能」。
今天,該系統(tǒng)的研發(fā)團隊在 arXiv 上發(fā)表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻將與深度強化學習》),更深一步地講解了 Suphx 背后的技術。
《Suphx:掌握麻將與深度強化學習》
論文地址:https://arxiv.org/pdf/2003.13590.pdf
Suphx 愈戰(zhàn)愈勇:已超越 99.99% 玩家
此前我們已經介紹過,Suphx 系統(tǒng)利用深度強化學習,從 5000 場比賽中學習、吸取經驗之后,在日本專業(yè)的麻將競技平臺「天鳳」上擊敗了眾多麻將玩家,取得平臺「特上房」的最高段位十段。
Suphx在天鳳平臺的段位,遠高于其它麻將 AI
這樣一個強悍的麻將 AI,究竟是如何打造的?來自微軟亞洲研究院、京都大學、中國科學技術大學、清華大學以及南開大學的研究團隊,在最新版的論文中,進行了深入的介紹。
從論文中,我們也得知,Suphx 在進一步的學習下,水平也更進一步。在擁有超過 35 萬位玩家的「天鳳」平臺上,被官方評為水平超越 99.99% 以上玩家,這是計算機程序首次超過麻將中大多數頂級人類玩家。
五大模型與強化學習,造就雀神 AI
Suphx 包含一系列卷積神經網絡,它學習了五種模型來處理不同的場景,包括 discard(丟棄模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。
discard 模型(上)與其它四個模型的架構(下)
在此基礎上,Suphx 采用另一種基于規(guī)則的模型,來決定是否宣布贏家并進行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排墻上抽出來的牌來判斷。
據介紹,Suphx 的訓練過程一共分為三步。
首先,它的 5 個模型都使用從「天鳳」平臺收集的頂級人類玩家的日志進行訓練。
然后,使用包含一套基于CPU 的麻將模擬器和基于 GPU 的軌跡生成推理引擎,通過自我博弈強化學習對系統(tǒng)進行微調。
最后,在在線游戲期間,使用運行時策略調整被用來觀察當前輪的結果,從而使系統(tǒng)執(zhí)行得更好。
Suphx 中的分布式強化學習系統(tǒng)
由于麻將牌局中,對手的信息都是未知的,因此,Suphx 嘗試了先知教練技術來提升強化學習的效果。在自我博弈的訓練階段,利用隱藏信息引導模型訓練方向 ,從而增強 AI 模型對可見信息的理解,并找到有效的決策依據。
評估 :5760 場角逐,創(chuàng)造十段紀錄
在實驗之前,團隊在 44 個 GPU (包括4個 Nvidia Titan XPs 用于參數服務器,40 個 K80s 用于自我博弈玩家)上,使用 150 萬次牌局,對每個模型進行了為期兩天的訓練。
該團隊對 20 個 Nvidia Tesla K80 GPU 上的 Suphx 進行了評估。為了減小穩(wěn)定排名的方差,他們從 100 多萬場的麻將牌局數據集中,隨機抽取了 80 萬牌局的數據,并從中進行了 1000 次取樣。
評估結果為,在「天鳳」平臺與人類玩家進行了超過 5760 場比賽后,Suphx 創(chuàng)造了十段的紀錄——大約只有 180 個玩家曾經達到過這個水平。而 Suphx 穩(wěn)定的排名是 8.74 段(人類玩家最高水平是 7.4 段)。
強化學習 agent最終穩(wěn)定排名統(tǒng)計
在不斷優(yōu)化中,RL-2 最終取得更好的表現
有趣的是,研究人員寫道,Suphx 的防守「非常強」,放胡的概率很低,只有 10.06%,而且它開發(fā)了自己的游戲風格,可以保證牌的安全,并以半平手取勝。
AI 玩家(南方)會選擇保守打法
放棄籃筐內的六筒,因為牌桌上已有該牌
此外,論文的合著者寫道,大多數現實世界的問題,如金融市場預測和物流優(yōu)化與麻將有相同的特點。比如復雜的操作/獎勵規(guī)則、非完美信息問題等等。
作者相信,在 Suphx 中設計的麻將技術,包括全局獎勵預測、先知引導以及政策調整等,都有巨大的潛力,將來可廣泛應用于現實世界,幫助解決真實而復雜的實際問題。
看到這里,你也躍躍欲試了嗎?天鳳麻將對戰(zhàn)平臺:https://tenhou.net/,一起來一局呀!