QQ在線客服

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

2020-04-09 14:31 來源: 站長資源平臺 瀏覽(720)人   

編者按:本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者:思、Synced,36氪經(jīng)授權(quán)發(fā)布。

網(wǎng)易有道詞典新增 AI 作文批改,詞匯、語法、結(jié)構(gòu)面面俱到,我覺得我的英文論文有救了。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

在當前疫情下,我們已經(jīng)離不開居家學習了,各種備考也得提到日程上。機器之心的讀者大多數(shù)都是理科生,數(shù)學、計算機都還是有一些「天賦」。然而對于英語,貌似這些天賦幫不到我們什么,缺乏「語感」的我們在寫作文時經(jīng)常會犯一些拼寫、語法錯誤。

英語閱讀或聽力等其它部分還好,有比較標準的對錯判斷標準。但是對于作文,很可能寫了錯誤句子,我們還真以為它完全沒問題。

也許小伙伴們正在備考四六級或托福雅思,也許正在寫機器學習論文,這篇文章將介紹有道詞典中的 AI 作文批改,將我們寫的英文傳到 APP 上,它將自動批改打分,并且糾正我們的語法、拼寫等錯誤。

AI 作文批改功能已經(jīng)放到了最新版本的有道詞典 APP 中,我們先試用了一下雅思作文與 arXiv 上的論文。如下左邊是雅思作文,它會給作文整體打一個分數(shù),并通過點評告訴你哪些地方需要加強,例如詞匯的豐富度、邏輯的連貫性等等。對于我們比較關心的語法,AI 作文批改也會給出修改意見,例如「environment」就推薦改成「environmental」。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

此外,很多研究者都需要做實驗寫論文,然而機器學習領域的論文基本都是英文,按我們的思路寫完論文后,中間會存在很多細節(jié)問題。如上機器之心在上傳一段 arXiv 論文后,AI 作文批改確實能給出一些很好的修改建議。例如它讓我們將「On the other hand」子句獨立出來,確實在結(jié)構(gòu)上有更好的可讀性。

這么好的應用已經(jīng)做出來了,而且還是免費的,有英文作文修改需求的小伙伴還不趕快打開有道詞典,體驗白嫖的快樂~

那么問題來了,要實現(xiàn) AI 作文批改,它的思路、原理又是什么樣的?

看思路,自動批改怎么解?

有道詞典 AI 作文批改的使用效果已經(jīng)展示在這邊了,從機器學習及從整體過程上來說,AI 作文批改可以分為評分、評語和糾錯三大模塊。其中評分會從詞匯、語法等角度打分;評語也會從詞匯、語法、結(jié)構(gòu)等維度去考慮,但同時還會提供同義詞匯、高級詞匯推薦以及佳文推薦等;糾錯則需要識別并提供修改意見。

評分與評語生成都可以歸為評分框架,在此過程中,年級或作文作者的學習階段需要充當條件。整個評分框架可以結(jié)合傳統(tǒng)方法與深度學習方法,充分發(fā)揮它們各自的優(yōu)勢。

例如傳統(tǒng)線性模型,我們可以在詞、句、篇章維度上給出評分。作文的詞數(shù)、詞匯豐富度、高級詞匯是不是足夠?拼寫、語法、句式掌握是不是沒問題?篇章的邏輯性、主題是不是都連貫?

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

這三個維度并不能概括整體的作文質(zhì)量,我們還需要一個深度神經(jīng)網(wǎng)絡來從「作文整體」給出一個分數(shù)。

如下是有道打分模型的主要框架,其中 w_i 都是某個句子的「單詞」,每一條句子會通過卷積神經(jīng)網(wǎng)絡編碼為一個「句子語義向量」。這些語義向量最終會通過循環(huán)神經(jīng)網(wǎng)絡與注意力機制編碼為一個作文的整體分數(shù)。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

總體上,作文打分與評語生成的解決思路比較容易理解,但是要想模型能自動修改語法錯誤,這似乎就比較難解決了。

難道還用端到端的模型訓練?我們真不能確定深度神經(jīng)網(wǎng)絡能自己完成「糾錯」這一功能,畢竟,在我們的印象中,語法錯誤的種類非常多,「語感」這一說法又比較縹緲。

有道的解決方案也非常有意思,首先對于簡單一些的拼寫糾錯,我們可以根據(jù)命名實體識別(基于 BERT)及統(tǒng)計模型給出一個得分,依據(jù)詞典、編輯距離等眾多特征判斷拼寫是不是有問題。

后面對于重頭戲語法糾錯,有道嘗試將其定義成序列到序列的生成問題,利用 Transformer 的強大擬合能力與有道累積的數(shù)據(jù)量直接學習。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

看起來語法糾錯模型的思路并不難,但重點在于 Transformer 的數(shù)據(jù)量需求非常大。難道我們真的能像機器翻譯領域那樣找到海量有語法錯誤的句子,及修正語法后的對應句子?

這里有道采用的是一種遷移與對抗學習的方式,既然我們沒有海量標注數(shù)據(jù),那么基于真實用戶錯誤分布生成海量「偽語料」,用它先訓練 Transformer 模型。后面因為語法糾錯的真實標注數(shù)據(jù)很珍貴,我們可以在訓練完 Transformer 后再用真實數(shù)據(jù)微調(diào)一番。采用這種訓練模式,我們才有可能令 Transformer 學到怎樣改錯句。

上面就是有道自動改錯的主要思路了,如果將其應用到有道詞典這個 APP 上,還有很多需要克服的挑戰(zhàn)。有道也做了一系列優(yōu)化,例如利用知識蒸餾壓縮模型、利用預訓練 BERT 快速判斷標點與句子對錯等等。真正要做成好用的產(chǎn)品,實際挑戰(zhàn)遠比我們想象中的多。

看效果,舉個栗子

后面可以具體看看有道 AI 作文批改的功能與效果,我們也可以同時試試 Grammarly 等類似的工具。先不說效果,吐槽一下使用,其它工具不是要下載 Chrome 插件就是需要注冊與登錄,有道詞典的 AI 作文批改的確要方便很多。

在考試作文方面,AI 作文批改能根據(jù)不同的知識水平與考試類別進行專業(yè)打分,它會從詞、句、篇章的層面上進行點評,語法糾錯也會給出更清晰的解析。下圖為 AI 作文批改給一篇高中作文打的分,它同時會生成對應的報告。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

除了整體的報告與評分,AI 作文批改會詳細分析具體哪些地方出現(xiàn)了問題,每一處錯誤都能查看原因及修改意見。尤其是咱們中國人易犯的冠詞使用錯誤,使用這個批改軟件能夠較好地幫我們找出這些語法問題,十分方便。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

雖然使用類似 Grammarly 這樣的應用也能自動糾錯,但相對而言,它們并沒有打分功能,也無法判斷用戶的學習階段和考試類型,更不會生成專業(yè)的點評報告。無法做到網(wǎng)易詞典 AI 作文批改這樣的細化處理,針對不同用戶群體提供針對性的建議。

還能直接 OCR

除了常規(guī)的復制粘貼或手動輸入,有道詞典上的 AI 作文批改還支持 OCR,只需要拍張照就能轉(zhuǎn)化為文本??梢钥吹剑械涝~典對手寫單詞的識別還是比較準的,甚至連標點符號以及段落的位置都能準確識別出來。即使識別有些小錯誤,手動改一改也就沒問題了。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

確認提交后就能進行分析,只不過 OCR 大大簡化了手寫作文的自動批改過程,省去了我們自行手敲的煩惱。尤其是身邊沒有電腦時,這項功能給我們提供了極大的便利。

核心功能:語法糾錯

AI 作文批改的核心功能,還是在于語法糾錯,這是我們最容易提升寫作技能的地方。語法糾錯并不是一個新能力,目前有挺多產(chǎn)品都在做這樣的事情。但是用 Transformer、BERT 等模型來做語法糾錯,并結(jié)合傳統(tǒng)方法的優(yōu)勢,這樣的思路聽上去效果就不會差。

我們可以先通過一條相同的錯句試試不同語法糾錯產(chǎn)品的效果:「On a cold morning, while I was watching a girl buy bread and milk in the fiont for me.」。

首先有道詞典可以檢測出三個錯誤,分別是拼寫、冠詞和介詞錯誤。我們放到微軟愛寫作平臺后,它只能發(fā)現(xiàn)「fiont」存在拼寫錯誤,并且推薦將「buy」換成「purchase」等更高級的詞。Grammarly 免費版一樣,它也只能識別出「fiont」存在拼寫錯誤。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

圖左為有道詞典 AI 作文批改結(jié)果,圖右為 Grammarly 糾錯結(jié)果。

從總體體驗上來說,有道詞典挑出來的錯誤更全一些,尤其是當一句話中出現(xiàn)多種錯誤時。而且因為 AI 作文批改采用了前沿的 DL 模型,它對上下文的感知會更強一些,對于較復雜語法問題、或者語篇尺度上的時態(tài)問題,它都更有優(yōu)勢。

可能你會覺得單個例子不能說明什么,有道詞典也做了詳細的人工測評。對于脫敏后的批改服務請求,測試人員從海外詞典請求、考研用戶請求、行業(yè)數(shù)據(jù)集隨機采樣一部分作為測試集,并評估不同糾錯服務的效果。整個測評過程算法同學都沒有參與,基本能做到公平測評。

Transformer自動糾語法、改論文,我們試了試這個免費英文寫作新神器

不同產(chǎn)品的糾錯效果對比。

其中,Precision 是語法檢測與修正的精確率,Recall 表示語法檢測與修正的召回率。而 F0.5 為精度與召回率的調(diào)和平均,其值越高,通常表示算法性能越好。從上表我們可以明顯的看到,有道詞典 AI 作文批改的三項指標均高出同類先進自動批改軟件 5%~7%。

目前大家已經(jīng)都可以使用了,有道也表示,AI 作文批改還會有其它一些提升,未來將持續(xù)優(yōu)化潤色、范文推薦、書面與口語風格轉(zhuǎn)化等功能。有了這些新能力,作文備考、論文寫作等更多的體驗都會更順滑一些。

【版權(quán)與免責聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P信息發(fā)郵件至 kefu@2898.com ,我們將及時溝通與處理。 本站內(nèi)容除了2898站長資源平臺( www.afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關。