用AI來(lái)改試卷狗屁不通的論文也能評(píng)高分？

2019-08-22 11:47　來(lái)源: 網(wǎng)絡(luò)　瀏覽（839）人

分享按鈕

　　用AI來(lái)改試卷狗屁不通的論文也能評(píng)高分？根據(jù)調(diào)查顯示，以自然語(yǔ)言處理為基礎(chǔ)的人工智能論文評(píng)分系統(tǒng)，至少已經(jīng)被美國(guó)的 21 個(gè)州正式引入到正式考試的評(píng)分工作當(dāng)中。

　　而且，月圓的不僅僅只有國(guó)外，我國(guó)的「機(jī)器評(píng)卷員」也早已經(jīng)投入到考場(chǎng)中。

　　早在 2016 年，我國(guó)教育考試中心就和科大訊飛成立了聯(lián)合實(shí)驗(yàn)室，共同開(kāi)展人工智能技術(shù)在閱卷、命題、考試評(píng)價(jià)分析等方面的研究。而且在 2017 年，湖北襄陽(yáng)就已經(jīng)正式在中考評(píng)卷工作中引入了該機(jī)器評(píng)分系統(tǒng)作為評(píng)分輔助手段。

　　這些機(jī)器評(píng)卷員的背后，有海量的資料作為參考，即使一天閱卷無(wú)數(shù)，也并不會(huì)因?yàn)槠谝约安挥鋹偟那榫w影響閱卷的效率和公正。

　　但事實(shí)真的是這樣嗎？最近，VICE 的一份報(bào)道顯示，這些 AI 評(píng)卷員實(shí)際上并沒(méi)有大家想象中的公正。

　　無(wú)可避免的算法偏見(jiàn)

　　AI 評(píng)卷，其實(shí)也沒(méi)有大家想象中的那么公正。而首先第一個(gè)問(wèn)題，就是算法偏見(jiàn)。

　　實(shí)際上，教育行業(yè)一直以來(lái)都在盡力消除對(duì)不同語(yǔ)言背景的學(xué)生所產(chǎn)生的潛意識(shí)偏見(jiàn)，但這個(gè)問(wèn)題則在人工智能評(píng)卷系統(tǒng)上相當(dāng)嚴(yán)重。

　　ETS（美國(guó)非營(yíng)利性考試服務(wù)中心）所提供的 E-rater 機(jī)器評(píng)分系統(tǒng)，目前正在為 GRE、TOEFL 等考試提供評(píng)分參考。而 ETS 也是眾多機(jī)器評(píng)分系統(tǒng)提供商中，極少數(shù)會(huì)提供偏差研究報(bào)告的。

　　ETS 新產(chǎn)品開(kāi)發(fā)副總裁 David Williamson 表示：

　　其實(shí)評(píng)分系統(tǒng)存在算法偏見(jiàn)是一個(gè)普遍存在的問(wèn)題，只不過(guò)大多數(shù)提供商都不會(huì)像我們這樣對(duì)外公開(kāi)。

　　在多年的研究里，ETS 發(fā)現(xiàn)機(jī)器評(píng)分系統(tǒng)會(huì)「偏愛(ài)」來(lái)自中國(guó)大陸的學(xué)生，所給的分?jǐn)?shù)整體會(huì)比人類(lèi)評(píng)卷員要更高。與此同時(shí)，像非裔美國(guó)人、阿拉伯語(yǔ)學(xué)生、西班牙留學(xué)生等群體則更容易受到來(lái)自機(jī)器的偏見(jiàn)，所能得到的分?jǐn)?shù)會(huì)更低一些。

　　為此，ETS 在 2018 年對(duì)算法進(jìn)行了深入的研究，最終發(fā)現(xiàn)了原因。

　　以 GRE（美國(guó)研究生入學(xué)考試）為例，來(lái)自中國(guó)大陸的學(xué)生由于篇幅更長(zhǎng)，且會(huì)在論文中使用大量復(fù)雜的詞匯，使得機(jī)器誤認(rèn)為論文的水平會(huì)高于平均水準(zhǔn)，從而給出更多的分?jǐn)?shù)。即使這些復(fù)雜的句型在人類(lèi)評(píng)卷員看來(lái)和論文的主旨并無(wú)太多關(guān)聯(lián)，甚至明顯能看出是套用了預(yù)先背好的范文。

　　相反，由于非裔美國(guó)人、阿拉伯語(yǔ)留學(xué)生的語(yǔ)言風(fēng)格會(huì)更偏向于簡(jiǎn)單和直接，導(dǎo)致在機(jī)器評(píng)分系統(tǒng)中很難獲得較高的分?jǐn)?shù)。

　　這些偏見(jiàn)實(shí)際上也直接反應(yīng)在分?jǐn)?shù)上，在測(cè)試時(shí)，一群水平相當(dāng)?shù)膶W(xué)生當(dāng)中，E-rater 機(jī)器評(píng)分系統(tǒng)為中國(guó)大陸的學(xué)生給出的平均分達(dá) 1.31 分，而非洲裔美國(guó)人則只有 0.81 分。

　　當(dāng)然，如果有參與 GRE 的讀者也不用擔(dān)心，因?yàn)樵撓到y(tǒng)目前也只是給人類(lèi)評(píng)分員「打一下輔助」而已，最終的論文成績(jī)依舊是由人類(lèi)來(lái)決定。

　　而除了 ETS 以外，新澤西理工學(xué)院也發(fā)現(xiàn)了自家所使用的一項(xiàng)機(jī)器評(píng)分系統(tǒng)存在著算法偏見(jiàn)。

　　新澤西理工學(xué)院此前通過(guò)一個(gè)名為 ACCUPLACER 的評(píng)分系統(tǒng)來(lái)判斷一年級(jí)學(xué)生是否需要額外的輔導(dǎo)，但是后來(lái)經(jīng)過(guò)技術(shù)委員會(huì)的研究發(fā)現(xiàn)，該系統(tǒng)對(duì)亞裔、西班牙裔學(xué)生所寫(xiě)的論文會(huì)存在偏見(jiàn)，并不能很公正地給出判斷。

　　甚至「狗屁不通」的論文也能獲得高分

　　如果說(shuō)算法偏見(jiàn)只是影響分?jǐn)?shù)高低，對(duì)考試公正影響還不算特別大的話，那么機(jī)器評(píng)分系統(tǒng)還有一個(gè)更嚴(yán)重的缺陷。

　　就是連胡編亂造也識(shí)別不出來(lái)。

　　在幾年前，麻省理工學(xué)院的預(yù)科主任 Les Perelman 和一群學(xué)生利用論文語(yǔ)言生成器 BABEL 生拼硬湊出了數(shù)篇論文。

　　這幾篇論文與正常的論文不太一樣，雖然運(yùn)用了很多高級(jí)詞匯，復(fù)雜句型，但當(dāng)中大部分內(nèi)容都是前言不搭后語(yǔ)的，甚至可以用「狗屁不通」來(lái)形容。

　　他們將這幾篇論文提交給了幾個(gè)不同的機(jī)器評(píng)分系統(tǒng)進(jìn)行評(píng)分，出乎意料的是，這幾篇論文都獲得了不錯(cuò)的成績(jī)。

　　更讓人想不到的是，幾年后 VICE 也復(fù)制了該實(shí)驗(yàn)，結(jié)果也和之前驚人地相似。新澤西理工大學(xué)教授 Elliot 對(duì)此表示：

　　目前的論文評(píng)分系統(tǒng)更加強(qiáng)調(diào)語(yǔ)法的準(zhǔn)確性、書(shū)面語(yǔ)言的標(biāo)準(zhǔn)性。但是對(duì)于學(xué)生敏銳的觀點(diǎn)和特別的洞察卻很難發(fā)現(xiàn)出來(lái)。然而這兩點(diǎn)在人類(lèi)評(píng)卷員看來(lái)，都是一篇論文最寶貴的地方。

　　目前，已經(jīng)有不少教育領(lǐng)域的相關(guān)人士對(duì)這些機(jī)器改卷員提出質(zhì)疑，而澳大利亞也已經(jīng)宣布暫時(shí)擱置在標(biāo)準(zhǔn)考試當(dāng)中引入機(jī)器評(píng)分系統(tǒng)。

　　來(lái)自 AI Now 研究所的 Sarah Myers West 表示，與在更廣泛的人工智能應(yīng)用領(lǐng)域中一樣，想把算法偏見(jiàn)在評(píng)分系統(tǒng)中消除同樣是一場(chǎng)持久戰(zhàn)。

　　不過(guò)盡管如此，無(wú)論是來(lái)自新澤西理工大學(xué)教授的 Elliot 還是來(lái)自 AI Now 研究所的 Sarah Myers West，他們都還是發(fā)展機(jī)器評(píng)分系統(tǒng)的支持者。因?yàn)檫@確實(shí)是未來(lái)的一個(gè)發(fā)展方向，正如猶他州的考試發(fā)展評(píng)估員 Cydnee Carter 所說(shuō)，通過(guò)機(jī)器對(duì)論文進(jìn)行評(píng)估，不僅能為國(guó)家的教育系統(tǒng)省下大量的人力和物力，這項(xiàng)技術(shù)未來(lái)還能給學(xué)生和教師提供及時(shí)的學(xué)術(shù)反饋，極大地提高教育效率。

　　只不過(guò)在完全能做到公平公正之前，這些機(jī)器評(píng)卷員，還是只充當(dāng)一個(gè)輔助的角色為妙。

2898站長(zhǎng)資源平臺(tái)網(wǎng)站資訊：http://www.afrimangol.com/news/

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ，我們將及時(shí)溝通與處理。本站內(nèi)容除了2898站長(zhǎng)資源平臺(tái)（ www.afrimangol.com ）原創(chuàng)外，其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容，涉及言論、版權(quán)與本站無(wú)關(guān)。

網(wǎng)站	權(quán)重	銷(xiāo)量
知之字典	6	219
大疆網(wǎng)	5	174
電影網(wǎng)	5	0
XDA智能手機(jī)網(wǎng)	6	29
英語(yǔ)詞典	5	46
千萬(wàn)庫(kù)	6	30
伍品網(wǎng)	4	8
網(wǎng)址目錄導(dǎo)航網(wǎng)	5	4
查成語(yǔ)	7	40
身份證查詢(xún)大全	6	144

用AI來(lái)改試卷狗屁不通的論文也能評(píng)高分？

上一篇：中國(guó)巨頭拿下全球70%市場(chǎng)逆襲成世界第一，美方無(wú)可奈何

下一篇：鋼鐵俠才是我們通往AI的必經(jīng)之路

解鎖社群密碼：從0到1搭建你的專(zhuān)屬部落

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

支付寶提示“當(dāng)前操作可能存在風(fēng)險(xiǎn)，為保護(hù)資金安全，我們中斷了此次操作”怎么辦？

如果公司要求只能認(rèn)證一個(gè)，是認(rèn)證服務(wù)號(hào)好還是小程序？

AIGC 平衡 SEO 與用戶(hù)體驗(yàn)的深度解決方案

解鎖社群密碼：從0到1搭建你的專(zhuān)屬部落

支付寶提示“當(dāng)前操作可能存在風(fēng)險(xiǎn)，為保護(hù)資金安全，我們中斷了此次操作”怎么辦？

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

早報(bào)：索尼PS5正式公布京東港股上市

2021春運(yùn)將從1月28日開(kāi)始這份搶票指南請(qǐng)收好

壁紙引發(fā)三星手機(jī)系統(tǒng)崩潰最新解決辦法公布

三星推出紫外線消毒器可對(duì)智能手機(jī)及配件消毒

Netflix流媒體支持谷歌的Nest Hub和Nest Hub Max

消息盒

用AI來(lái)改試卷狗屁不通的論文也能評(píng)高分？