AI頂會(huì),正在使用AI來審閱AI論文
編者按:本文來自微信公眾號(hào)“機(jī)器之心”(ID:almosthuman2014),編輯:蛋醬、澤南,36氪經(jīng)授權(quán)發(fā)布。
近年來我們?cè)趫?bào)道 AI 頂會(huì)的文章里不斷聽到「史上最大」、「論文數(shù)量新高」等字眼,論文的審核儼然成了一項(xiàng)挑戰(zhàn)。但既然是在研究 AI,為什么不讓機(jī)器來自動(dòng)解決問題?
人工智能頂會(huì) NeurIPS 2019 的現(xiàn)場(chǎng),曾被人吐槽像跨年夜的百貨商場(chǎng)。
對(duì)于大多數(shù)科學(xué)領(lǐng)域來說,期刊是同行評(píng)審和論文發(fā)表的主陣地,編輯們會(huì)根據(jù)專業(yè)判斷將論文分配給合適的審稿人。但在計(jì)算機(jī)科學(xué)領(lǐng)域,尋找審稿人的過程通常是匆匆忙忙的:大多數(shù)論文是一次性提交給年度大會(huì),組織者需要在僅僅一周的時(shí)間內(nèi)將成千上萬(wàn)的論文分配給成千上萬(wàn)的審稿人。
這樣的節(jié)奏是非常緊張的,在過去的五年內(nèi),大型 AI 會(huì)議的投稿量增長(zhǎng)了三倍不止,也給大會(huì)主辦機(jī)構(gòu)帶來了不小的壓力。舉個(gè)例子,人工智能領(lǐng)域最大規(guī)模的定會(huì) NeurIPS 2020 收到了 9000 多份有效投稿,比上一年增長(zhǎng)了 40%。組織者不得不將 3 萬(wàn)多個(gè)審稿任務(wù)分派給約 7000 位審稿人。NeurIPS 2020 大會(huì)主席 Marc’Aurelio Ranzato 表示:「這非常累,壓力很大?!?/p>
大概也是「近水樓臺(tái)先得月」,AI 頂會(huì)的審稿工作得到了 AI 的協(xié)助。首先,主辦方使用了 Toronto Paper Matching System (TPMS),在此之前 TPMS 也被應(yīng)用于其他多個(gè)會(huì)議的投遞論文分配工作,它通過對(duì)比投稿論文和審稿人研究工作之間的文本,來計(jì)算投稿與審稿人專業(yè)知識(shí)之間的相關(guān)性。這個(gè)篩選過程是匹配系統(tǒng)中的一部分,期間審稿人也可以主動(dòng)爭(zhēng)取自己希望審閱的論文。
TPMS 架構(gòu),該系統(tǒng)可通過會(huì)議管理系統(tǒng)在線使用。
同時(shí)還有方法更加優(yōu)化的 AI 軟件:論文審閱平臺(tái) OpenReview 開發(fā)了一種「親和力評(píng)測(cè)」系統(tǒng),借助了神經(jīng)網(wǎng)絡(luò)「Spectre」來分析論文標(biāo)題和摘要。OpenReview 和麻省大學(xué)阿默斯特分校的計(jì)算機(jī)科學(xué)家 Melisa Bok 和 Haw-Shiuan Chang 表示,包括 NeurIPS 在內(nèi)的一些計(jì)算機(jī)科學(xué)大會(huì)將在今年把親和力評(píng)測(cè)系統(tǒng)與 TPMS 結(jié)合使用。
AI 會(huì)議的組織者希望通過提高匹配質(zhì)量來推動(dòng)同行評(píng)審和出版論文的質(zhì)量。2014 年的一項(xiàng)研究表明這仍有進(jìn)步空間,作為測(cè)試,當(dāng)年 NeurIPS 中 10% 的投稿論文分別有兩組審稿人審閱,在一組中被全部接收,另一組僅接收了 57%。影響到結(jié)果的因素可能有很多,但可以確定的是,對(duì)于具體某一篇論文來說,至少某一個(gè)小組是缺乏評(píng)估的專業(yè)知識(shí)的。
為了提升匹配質(zhì)量,CMU 的計(jì)算機(jī)科學(xué)家 Ivan Stelmakh 開發(fā)了一種名為「 PeerReview4All」的算法,通常匹配系統(tǒng)會(huì)最大程度地提升論文和審稿人之間的平均親和力,但有可能出現(xiàn)「厚此薄彼」的現(xiàn)象。PeerReview4All 旨在最大程度地提升最差匹配的質(zhì)量,注重增加該過程的公平性。
Ivan Stelmakh 在去年的 ICML 大會(huì)使用了 PeerReview4All 進(jìn)行試驗(yàn),并在今年的 AAAI 大會(huì)上介紹了這一結(jié)果。他表示,該方法在不損害平均匹配質(zhì)量的情況下顯著提高了公平性。
具體結(jié)論可以參考 Ivan Stelmakh 所寫的這篇 2 頁(yè)論文:https://www.aaai.org/AAAI21Papers/DC-169.StelmakhI.pdf
OpenReview 也已經(jīng)開始提供一種旨在提高公平性的系統(tǒng),稱為「FairFlow」。根據(jù) NeurIPS 2021 Call for Papers 頁(yè)面,今年的 NeurIPS 將使用 OpenReview 進(jìn)行審稿工作。雅虎計(jì)算機(jī)科學(xué)家、NeurIPS 2021 高級(jí)程序主席 Alina Beygelzimer 表示,NeurIPS 今年將至少嘗試上述中的一種匹配方法。
這些系統(tǒng)的作用都是將一組已知的論文與一組已知的審稿人進(jìn)行匹配,但還有另外一個(gè)問題:隨著 AI 領(lǐng)域的不斷發(fā)展,頂會(huì)還需要招募、評(píng)估、培訓(xùn)新的審稿人。針對(duì)此,Ivan Stelmakh 正在進(jìn)行一項(xiàng)最新實(shí)驗(yàn),探索一種不依賴 AI 來減輕這些任務(wù)負(fù)擔(dān)的方法。
他們?cè)谌ツ甑?ICML 上,邀請(qǐng)了一些學(xué)生和剛剛畢業(yè)的人去審閱從同事那里收集的未發(fā)表論文(134 篇)。隨后團(tuán)隊(duì)邀請(qǐng)了 52 位成員加入審稿人團(tuán)體,并為他們分配了一位資深研究人員擔(dān)任導(dǎo)師。最終這些新手審稿人的工作成果還不錯(cuò),與那些經(jīng)驗(yàn)豐富的審稿人相差無(wú)幾。借此 Ivan Stelmakh 證明了:主辦方可以在不增加負(fù)擔(dān)的情況下擴(kuò)招數(shù)百名審稿人,「且這些候選審稿人極具熱情」。
使用親和力來評(píng)估審稿人專業(yè)知識(shí)的匹配系統(tǒng)也可以讓身高人們對(duì)評(píng)審一篇論文進(jìn)行「招標(biāo)」,最近的一些工作試圖解決這種方法中的潛在偏見。我們有時(shí)會(huì)聽到選論文的審核者只選擇朋友的論文,這實(shí)際上是在破解算法。
今年 2 月,康奈爾大學(xué)、Facebook 一篇發(fā)在 arXiv 上的論文《Making Paper Reviewing Robust to Bid Manipulation Attacks 》描述了使用機(jī)器學(xué)習(xí)來過濾可疑論文審核競(jìng)標(biāo)的過濾方法。在模擬數(shù)據(jù)集上,即使?jié)撛谧鞅渍咧老到y(tǒng)的運(yùn)行方式,它也可以減少操縱,而不會(huì)降低評(píng)審質(zhì)量。去年在 NeurIPS 上的另一種算法《Mitigating Manipulation in Peer Review via Randomized Reviewer Assignments》實(shí)質(zhì)上是對(duì)在專業(yè)領(lǐng)域以外的論文進(jìn)行投標(biāo)的人進(jìn)行懲罰。
研究人員通過結(jié)合模擬競(jìng)價(jià)和上次會(huì)議的真實(shí)數(shù)據(jù)證明了其方法在減少操縱方面的有效性。
這些工具面臨的問題是——你很難評(píng)估它們?cè)趯?shí)際使用過程中是不是真的優(yōu)于其他方法。蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)家 Laurent Charlin 表示,要想掌握確鑿的證據(jù)需要進(jìn)行對(duì)照試驗(yàn),但現(xiàn)在沒有任何試驗(yàn)。其中一部分原因是因?yàn)槠渲性S多工具都是新的。
十年前開發(fā) TPMS 工具的親和性測(cè)量工具的 Charlin 表示,隨著這些技術(shù)的發(fā)展,類似的方法可能會(huì)在某一天開始幫助計(jì)算機(jī)科學(xué)領(lǐng)域以外的同行審閱者。但是到目前為止,這種方法的應(yīng)有范圍還很有限。
美國(guó)科學(xué)促進(jìn)會(huì) AAAS(《Science》等雜志的主辦方)發(fā)言人梅根 · 費(fèi)倫(Meagan Phelan)表示 AAAS 在分配同行審閱者時(shí)沒有使用 AI。
「但在人工智能領(lǐng)域里,」Charlin 說道,「作為一個(gè)具有一定自動(dòng)化程度水平的領(lǐng)域。我們沒有理由不使用自己的工具?!?/p> 參考內(nèi)容:
https://www.sciencemag.org/news/2021/04/ai-conferences-use-ai-assign-papers-reviewers

商機(jī)加盟
更多友鏈買賣
更多網(wǎng)站 | 權(quán)重 | 銷量 |
---|---|---|
詩(shī)詞古文網(wǎng) | 6 | 42 |
快樂日歷 | 6 | 99 |
名人錄 | 6 | 51 |
搜我小說網(wǎng) | 6 | 36 |
字典網(wǎng) | 6 | 107 |
詩(shī)詞古文網(wǎng) | 8 | 219 |
深圳物流 | 6 | 685 |
大專信息網(wǎng) | 6 | 9 |
漢字查詢網(wǎng) | 6 | 3 |
家電中華網(wǎng) | 5 | 1 |
熱門文章
-
1
Manus內(nèi)測(cè)邀請(qǐng)碼如何申請(qǐng)?需要什么條件才能申請(qǐng)?
-
2
DeepSeek在互聯(lián)網(wǎng)平臺(tái)上是如何運(yùn)用的?
-
3
在科技領(lǐng)域的運(yùn)用對(duì)DeepSeek是如何評(píng)價(jià)的?
-
4
AIGC 平衡 SEO 與用戶體驗(yàn)的深度解決方案
-
5
DeepSeek與SEO優(yōu)化結(jié)合有哪些策略?
-
6
利用 DeepSeek NLP 能力挖掘長(zhǎng)尾詞、語(yǔ)義關(guān)鍵詞與用戶意圖的實(shí)戰(zhàn)指南
-
7
如果公司要求只能認(rèn)證一個(gè),是認(rèn)證服務(wù)號(hào)好還是小程序?
相關(guān)資訊