用AI來改試卷狗屁不通的論文也能評(píng)高分?
用AI來改試卷狗屁不通的論文也能評(píng)高分?根據(jù)調(diào)查顯示,以自然語言處理為基礎(chǔ)的人工智能論文評(píng)分系統(tǒng),至少已經(jīng)被美國的 21 個(gè)州正式引入到正式考試的評(píng)分工作當(dāng)中。
而且,月圓的不僅僅只有國外,我國的「機(jī)器評(píng)卷員」也早已經(jīng)投入到考場(chǎng)中。
早在 2016 年,我國教育考試中心就和科大訊飛成立了聯(lián)合實(shí)驗(yàn)室,共同開展人工智能技術(shù)在閱卷、命題、考試評(píng)價(jià)分析等方面的研究。而且在 2017 年,湖北襄陽就已經(jīng)正式在中考評(píng)卷工作中引入了該機(jī)器評(píng)分系統(tǒng)作為評(píng)分輔助手段。
這些機(jī)器評(píng)卷員的背后,有海量的資料作為參考,即使一天閱卷無數(shù),也并不會(huì)因?yàn)槠谝约安挥鋹偟那榫w影響閱卷的效率和公正。
但事實(shí)真的是這樣嗎?最近,VICE 的一份報(bào)道顯示,這些 AI 評(píng)卷員實(shí)際上并沒有大家想象中的公正。
無可避免的算法偏見
AI 評(píng)卷,其實(shí)也沒有大家想象中的那么公正。而首先第一個(gè)問題,就是算法偏見。
實(shí)際上,教育行業(yè)一直以來都在盡力消除對(duì)不同語言背景的學(xué)生所產(chǎn)生的潛意識(shí)偏見,但這個(gè)問題則在人工智能評(píng)卷系統(tǒng)上相當(dāng)嚴(yán)重。
ETS(美國非營利性考試服務(wù)中心)所提供的 E-rater 機(jī)器評(píng)分系統(tǒng),目前正在為 GRE、TOEFL 等考試提供評(píng)分參考。而 ETS 也是眾多機(jī)器評(píng)分系統(tǒng)提供商中,極少數(shù)會(huì)提供偏差研究報(bào)告的。
ETS 新產(chǎn)品開發(fā)副總裁 David Williamson 表示:
其實(shí)評(píng)分系統(tǒng)存在算法偏見是一個(gè)普遍存在的問題,只不過大多數(shù)提供商都不會(huì)像我們這樣對(duì)外公開。
在多年的研究里,ETS 發(fā)現(xiàn)機(jī)器評(píng)分系統(tǒng)會(huì)「偏愛」來自中國大陸的學(xué)生,所給的分?jǐn)?shù)整體會(huì)比人類評(píng)卷員要更高。與此同時(shí),像非裔美國人、阿拉伯語學(xué)生、西班牙留學(xué)生等群體則更容易受到來自機(jī)器的偏見,所能得到的分?jǐn)?shù)會(huì)更低一些。
為此,ETS 在 2018 年對(duì)算法進(jìn)行了深入的研究,最終發(fā)現(xiàn)了原因。
以 GRE(美國研究生入學(xué)考試)為例,來自中國大陸的學(xué)生由于篇幅更長,且會(huì)在論文中使用大量復(fù)雜的詞匯,使得機(jī)器誤認(rèn)為論文的水平會(huì)高于平均水準(zhǔn),從而給出更多的分?jǐn)?shù)。即使這些復(fù)雜的句型在人類評(píng)卷員看來和論文的主旨并無太多關(guān)聯(lián),甚至明顯能看出是套用了預(yù)先背好的范文。
相反,由于非裔美國人、阿拉伯語留學(xué)生的語言風(fēng)格會(huì)更偏向于簡單和直接,導(dǎo)致在機(jī)器評(píng)分系統(tǒng)中很難獲得較高的分?jǐn)?shù)。
這些偏見實(shí)際上也直接反應(yīng)在分?jǐn)?shù)上,在測(cè)試時(shí),一群水平相當(dāng)?shù)膶W(xué)生當(dāng)中,E-rater 機(jī)器評(píng)分系統(tǒng)為中國大陸的學(xué)生給出的平均分達(dá) 1.31 分,而非洲裔美國人則只有 0.81 分。
當(dāng)然,如果有參與 GRE 的讀者也不用擔(dān)心,因?yàn)樵撓到y(tǒng)目前也只是給人類評(píng)分員「打一下輔助」而已,最終的論文成績依舊是由人類來決定。
而除了 ETS 以外,新澤西理工學(xué)院也發(fā)現(xiàn)了自家所使用的一項(xiàng)機(jī)器評(píng)分系統(tǒng)存在著算法偏見。
新澤西理工學(xué)院此前通過一個(gè)名為 ACCUPLACER 的評(píng)分系統(tǒng)來判斷一年級(jí)學(xué)生是否需要額外的輔導(dǎo),但是后來經(jīng)過技術(shù)委員會(huì)的研究發(fā)現(xiàn),該系統(tǒng)對(duì)亞裔、西班牙裔學(xué)生所寫的論文會(huì)存在偏見,并不能很公正地給出判斷。
甚至「狗屁不通」的論文也能獲得高分
如果說算法偏見只是影響分?jǐn)?shù)高低,對(duì)考試公正影響還不算特別大的話,那么機(jī)器評(píng)分系統(tǒng)還有一個(gè)更嚴(yán)重的缺陷。
就是連胡編亂造也識(shí)別不出來。
在幾年前,麻省理工學(xué)院的預(yù)科主任 Les Perelman 和一群學(xué)生利用論文語言生成器 BABEL 生拼硬湊出了數(shù)篇論文。
這幾篇論文與正常的論文不太一樣,雖然運(yùn)用了很多高級(jí)詞匯,復(fù)雜句型,但當(dāng)中大部分內(nèi)容都是前言不搭后語的,甚至可以用「狗屁不通」來形容。
他們將這幾篇論文提交給了幾個(gè)不同的機(jī)器評(píng)分系統(tǒng)進(jìn)行評(píng)分,出乎意料的是,這幾篇論文都獲得了不錯(cuò)的成績。
更讓人想不到的是,幾年后 VICE 也復(fù)制了該實(shí)驗(yàn),結(jié)果也和之前驚人地相似。新澤西理工大學(xué)教授 Elliot 對(duì)此表示:
目前的論文評(píng)分系統(tǒng)更加強(qiáng)調(diào)語法的準(zhǔn)確性、書面語言的標(biāo)準(zhǔn)性。但是對(duì)于學(xué)生敏銳的觀點(diǎn)和特別的洞察卻很難發(fā)現(xiàn)出來。然而這兩點(diǎn)在人類評(píng)卷員看來,都是一篇論文最寶貴的地方。
目前,已經(jīng)有不少教育領(lǐng)域的相關(guān)人士對(duì)這些機(jī)器改卷員提出質(zhì)疑,而澳大利亞也已經(jīng)宣布暫時(shí)擱置在標(biāo)準(zhǔn)考試當(dāng)中引入機(jī)器評(píng)分系統(tǒng)。
來自 AI Now 研究所的 Sarah Myers West 表示,與在更廣泛的人工智能應(yīng)用領(lǐng)域中一樣,想把算法偏見在評(píng)分系統(tǒng)中消除同樣是一場(chǎng)持久戰(zhàn)。
不過盡管如此,無論是來自新澤西理工大學(xué)教授的 Elliot 還是來自 AI Now 研究所的 Sarah Myers West,他們都還是發(fā)展機(jī)器評(píng)分系統(tǒng)的支持者。因?yàn)檫@確實(shí)是未來的一個(gè)發(fā)展方向,正如猶他州的考試發(fā)展評(píng)估員 Cydnee Carter 所說,通過機(jī)器對(duì)論文進(jìn)行評(píng)估,不僅能為國家的教育系統(tǒng)省下大量的人力和物力,這項(xiàng)技術(shù)未來還能給學(xué)生和教師提供及時(shí)的學(xué)術(shù)反饋,極大地提高教育效率。
只不過在完全能做到公平公正之前,這些機(jī)器評(píng)卷員,還是只充當(dāng)一個(gè)輔助的角色為妙。
2898站長資源平臺(tái)網(wǎng)站資訊:http://afrimangol.com/news/