<li id="7j2og"></li>

QQ在線客服

在線客服
在線客服
在線客服
在線客服
在線客服
在線客服

當前位置：首頁> 資訊> 互聯網絡

微軟麻將 AI 論文發(fā)布，首次公開技術細節(jié)

2020-04-03 11:55　來源: 站長資源平臺　編輯: 佚名瀏覽（374）人

分享按鈕

編者按：本文來自微信公眾號“HyperAI超神經”（ID:HyperAI），作者：神經小兮，36氪經授權發(fā)布。

場景描述：還記得去年 8 月微軟發(fā)布的「雀神AI」Suphx 嗎？今天，該研究團隊在 arXiv 上發(fā)布了更新版的論文，進一步介紹了 Suphx 背后的技術。
關鍵詞：麻將 AI，Suphx，卷積神經網絡

2019 年 8 月 29 日，微軟發(fā)布了一個名為 Suphx（超級鳳凰）的「麻將 AI」，在專業(yè)的麻將競技平臺上，Suphx 的實力勝過了頂級人類選手的平均水平。

當時一經發(fā)布，Suphx便引起了廣泛的關注，不僅是人工智能領域，不少麻將愛好者也都趕來圍觀討論。（可點擊此文回顧《一家胡三家的人工智能來了》）

微軟麻將 AI 論文發(fā)布，首次公開技術細節(jié)

麻將的信息集數目和信息集平均大小

超過了橋牌、德撲和圍棋

人們評價該系統(tǒng)比戰(zhàn)勝了職業(yè)圍棋手的AlphaGo 更復雜，被譽為「最強日麻人工智能」。

今天，該系統(tǒng)的研發(fā)團隊在 arXiv 上發(fā)表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》（《Suphx：掌握麻將與深度強化學習》），更深一步地講解了 Suphx 背后的技術。

微軟麻將 AI 論文發(fā)布，首次公開技術細節(jié)

《Suphx：掌握麻將與深度強化學習》

論文地址：https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈戰(zhàn)愈勇：已超越 99.99% 玩家
此前我們已經介紹過，Suphx 系統(tǒng)利用深度強化學習，從 5000 場比賽中學習、吸取經驗之后，在日本專業(yè)的麻將競技平臺「天鳳」上擊敗了眾多麻將玩家，取得平臺「特上房」的最高段位十段。
Suphx在天鳳平臺的段位，遠高于其它麻將 AI
這樣一個強悍的麻將 AI，究竟是如何打造的？來自微軟亞洲研究院、京都大學、中國科學技術大學、清華大學以及南開大學的研究團隊，在最新版的論文中，進行了深入的介紹。
從論文中，我們也得知，Suphx 在進一步的學習下，水平也更進一步。在擁有超過 35 萬位玩家的「天鳳」平臺上，被官方評為水平超越 99.99% 以上玩家，這是計算機程序首次超過麻將中大多數頂級人類玩家。

五大模型與強化學習，造就雀神 AI
Suphx 包含一系列卷積神經網絡，它學習了五種模型來處理不同的場景，包括 discard（丟棄模型）、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。
discard 模型（上）與其它四個模型的架構（下）
在此基礎上，Suphx 采用另一種基于規(guī)則的模型，來決定是否宣布贏家并進行下一輪，檢查是否贏牌可以從其他玩家丟棄的牌中來判斷，或者從排墻上抽出來的牌來判斷。
據介紹，Suphx 的訓練過程一共分為三步。
首先，它的 5 個模型都使用從「天鳳」平臺收集的頂級人類玩家的日志進行訓練。
然后，使用包含一套基于CPU 的麻將模擬器和基于 GPU 的軌跡生成推理引擎，通過自我博弈強化學習對系統(tǒng)進行微調。
最后，在在線游戲期間，使用運行時策略調整被用來觀察當前輪的結果，從而使系統(tǒng)執(zhí)行得更好。
Suphx 中的分布式強化學習系統(tǒng)
由于麻將牌局中，對手的信息都是未知的，因此，Suphx 嘗試了先知教練技術來提升強化學習的效果。在自我博弈的訓練階段，利用隱藏信息引導模型訓練方向，從而增強 AI 模型對可見信息的理解，并找到有效的決策依據。

評估：5760 場角逐，創(chuàng)造十段紀錄
在實驗之前，團隊在 44 個 GPU (包括4個 Nvidia Titan XPs 用于參數服務器，40 個 K80s 用于自我博弈玩家)上，使用 150 萬次牌局，對每個模型進行了為期兩天的訓練。
該團隊對 20 個 Nvidia Tesla K80 GPU 上的 Suphx 進行了評估。為了減小穩(wěn)定排名的方差，他們從 100 多萬場的麻將牌局數據集中，隨機抽取了 80 萬牌局的數據，并從中進行了 1000 次取樣。
評估結果為，在「天鳳」平臺與人類玩家進行了超過 5760 場比賽后，Suphx 創(chuàng)造了十段的紀錄——大約只有 180 個玩家曾經達到過這個水平。而 Suphx 穩(wěn)定的排名是 8.74 段(人類玩家最高水平是 7.4 段)。
強化學習 agent最終穩(wěn)定排名統(tǒng)計
在不斷優(yōu)化中，RL-2 最終取得更好的表現
有趣的是，研究人員寫道，Suphx 的防守「非常強」，放胡的概率很低，只有 10.06%，而且它開發(fā)了自己的游戲風格，可以保證牌的安全，并以半平手取勝。
AI 玩家（南方）會選擇保守打法
放棄籃筐內的六筒，因為牌桌上已有該牌
此外，論文的合著者寫道，大多數現實世界的問題，如金融市場預測和物流優(yōu)化與麻將有相同的特點。比如復雜的操作/獎勵規(guī)則、非完美信息問題等等。
作者相信，在 Suphx 中設計的麻將技術，包括全局獎勵預測、先知引導以及政策調整等，都有巨大的潛力，將來可廣泛應用于現實世界，幫助解決真實而復雜的實際問題。
看到這里，你也躍躍欲試了嗎？天鳳麻將對戰(zhàn)平臺：https://tenhou.net/，一起來一局呀！

【版權與免責聲明】如發(fā)現內容存在版權問題，煩請?zhí)峁┫嚓P信息發(fā)郵件至 kefu@2898.com ，我們將及時溝通與處理。本站內容除了2898站長資源平臺（ afrimangol.com ）原創(chuàng)外，其它均為網友轉載內容，涉及言論、版權與本站無關。

最新文章

商機加盟

更多

友鏈買賣

更多

網站	權重	銷量
創(chuàng)優(yōu)信息發(fā)布網	5	36
聞雞起舞	6	98
快眼看書	6	287
漲姿勢	5	0
一糖導航	5	0
企凡達	7	66
生活查詢-高權秒收	7	238
農業(yè)百科網-優(yōu)質網站	6	145
花瓣句子	5	6
邢臺網	5	5

熱門文章

1
北單實體店，一家通宵的北單實體店威信547216

相關資訊

關注我們

站長資源平臺微信公眾號

微信二維碼

￥/月

<samp id="gkutu"><address id="gkutu"><p id="gkutu"></p></address></samp><menuitem id="gkutu"><rt id="gkutu"></rt></menuitem>

<strong id="gkutu"><ins id="gkutu"></ins></strong>