機器之心原創
作者:思、Racoon
網易有道詞典新增 AI 作文批改,詞彙、語法、結構面面俱到,我覺得我的英文論文有救了。
在當前疫情下,我們已經離不開居家學習了,各種備考也得提到日程上。機器之心的讀者大多數都是理科生,數學、計算機都還是有一些「天賦」。然而對于英語,貌似這些天賦幫不到我們什麼,缺乏「語感」的我們在寫作文時經常會犯一些拼寫、語法錯誤。英語閱讀或聽力等其它部分還好,有比較标準的對錯判斷标準。但是對于作文,很可能寫了錯誤句子,我們還真以為它完全沒問題。也許小夥伴們正在備考四六級或托福雅思,也許正在寫機器學習論文,這篇文章将介紹有道詞典中的 AI 作文批改,将我們寫的英文傳到 APP 上,它将自動批改打分,并且糾正我們的語法、拼寫等錯誤。AI 作文批改功能已經放到了最新版本的有道詞典 APP 中,我們先試用了一下雅思作文與 arXiv 上的論文。如下左邊是雅思作文,它會給作文整體打一個分數,并通過點評告訴你哪些地方需要加強,例如詞彙的豐富度、邏輯的連貫性等等。對于我們比較關心的語法,AI 作文批改也會給出修改意見,例如「environment」就推薦改成「environmental」。
此外,很多研究者都需要做實驗寫論文,然而機器學習領域的論文基本都是英文,按我們的思路寫完論文後,中間會存在很多細節問題。如上機器之心在上傳一段 arXiv 論文後,AI 作文批改确實能給出一些很好的修改建議。例如它讓我們将「On the other hand」子句獨立出來,确實在結構上有更好的可讀性。這麼好的應用已經做出來了,而且還是免費的,有英文作文修改需求的小夥伴還不趕快打開有道詞典,體驗白嫖的快樂~那麼問題來了,要實現 AI 作文批改,它的思路、原理又是什麼樣的?看思路,自動批改怎麼解?有道詞典 AI 作文批改的使用效果已經展示在這邊了,從機器學習及從整體過程上來說,AI 作文批改可以分為評分、評語和糾錯三大模塊。其中評分會從詞彙、語法等角度打分;評語也會從詞彙、語法、結構等維度去考慮,但同時還會提供同義詞彙、高級詞彙推薦以及佳文推薦等;糾錯則需要識别并提供修改意見。評分與評語生成都可以歸為評分框架,在此過程中,年級或作文作者的學習階段需要充當條件。整個評分框架可以結合傳統方法與深度學習方法,充分發揮它們各自的優勢。例如傳統線性模型,我們可以在詞、句、篇章維度上給出評分。作文的詞數、詞彙豐富度、高級詞彙是不是足夠?拼寫、語法、句式掌握是不是沒問題?篇章的邏輯性、主題是不是都連貫?
這三個維度并不能概括整體的作文質量,我們還需要一個深度神經網絡來從「作文整體」給出一個分數。如下是有道打分模型的主要框架,其中 w_i 都是某個句子的「單詞」,每一條句子會通過卷積神經網絡編碼為一個「句子語義向量」。這些語義向量最終會通過循環神經網絡與注意力機制編碼為一個作文的整體分數。
總體上,作文打分與評語生成的解決思路比較容易理解,但是要想模型能自動修改語法錯誤,這似乎就比較難解決了。難道還用端到端的模型訓練?我們真不能确定深度神經網絡能自己完成「糾錯」這一功能,畢竟,在我們的印象中,語法錯誤的種類非常多,「語感」這一說法又比較缥缈。有道的解決方案也非常有意思,首先對于簡單一些的拼寫糾錯,我們可以根據命名實體識别(基于 BERT)及統計模型給出一個得分,依據詞典、編輯距離等衆多特征判斷拼寫是不是有問題。後面對于重頭戲語法糾錯,有道嘗試将其定義成序列到序列的生成問題,利用 Transformer 的強大拟合能力與有道累積的數據量直接學習。
看起來語法糾錯模型的思路并不難,但重點在于 Transformer 的數據量需求非常大。難道我們真的能像機器翻譯領域那樣找到海量有語法錯誤的句子,及修正語法後的對應句子?這裡有道采用的是一種遷移與對抗學習的方式,既然我們沒有海量标注數據,那麼基于真實用戶錯誤分布生成海量「僞語料」,用它先訓練 Transformer 模型。後面因為語法糾錯的真實标注數據很珍貴,我們可以在訓練完 Transformer 後再用真實數據微調一番。采用這種訓練模式,我們才有可能令 Transformer 學到怎樣改錯句。上面就是有道自動改錯的主要思路了,如果将其應用到有道詞典這個 APP 上,還有很多需要克服的挑戰。有道也做了一系列優化,例如利用知識蒸餾壓縮模型、利用預訓練 BERT 快速判斷标點與句子對錯等等。真正要做成好用的産品,實際挑戰遠比我們想象中的多。看效果,舉個栗子後面可以具體看看有道 AI 作文批改的功能與效果,我們也可以同時試試 Grammarly 等類似的工具。先不說效果,吐槽一下使用,其它工具不是要下載 Chrome 插件就是需要注冊與登錄,有道詞典的 AI 作文批改的确要方便很多。在考試作文方面,AI 作文批改能根據不同的知識水平與考試類别進行專業打分,它會從詞、句、篇章的層面上進行點評,語法糾錯也會給出更清晰的解析。下圖為 AI 作文批改給一篇高中作文打的分,它同時會生成對應的報告。
除了整體的報告與評分,AI 作文批改會詳細分析具體哪些地方出現了問題,每一處錯誤都能查看原因及修改意見。尤其是咱們中國人易犯的冠詞使用錯誤,使用這個批改軟件能夠較好地幫我們找出這些語法問題,十分方便。
雖然使用類似 Grammarly 這樣的應用也能自動糾錯,但相對而言,它們并沒有打分功能,也無法判斷用戶的學習階段和考試類型,更不會生成專業的點評報告。無法做到網易詞典 AI 作文批改這樣的細化處理,針對不同用戶群體提供針對性的建議。還能直接 OCR除了常規的複制粘貼或手動輸入,有道詞典上的 AI 作文批改還支持 OCR,隻需要拍張照就能轉化為文本。可以看到,有道詞典對手寫單詞的識别還是比較準的,甚至連标點符号以及段落的位置都能準确識别出來。即使識别有些小錯誤,手動改一改也就沒問題了。
确認提交後就能進行分析,隻不過 OCR 大大簡化了手寫作文的自動批改過程,省去了我們自行手敲的煩惱。尤其是身邊沒有電腦時,這項功能給我們提供了極大的便利。核心功能:語法糾錯AI 作文批改的核心功能,還是在于語法糾錯,這是我們最容易提升寫作技能的地方。語法糾錯并不是一個新能力,目前有挺多産品都在做這樣的事情。但是用 Transformer、BERT 等模型來做語法糾錯,并結合傳統方法的優勢,這樣的思路聽上去效果就不會差。我們可以先通過一條相同的錯句試試不同語法糾錯産品的效果:「On a cold morning, while I was watching a girl buy bread and milk in the fiont for me.」。首先有道詞典可以檢測出三個錯誤,分别是拼寫、冠詞和介詞錯誤。我們放到微軟愛寫作平台後,它隻能發現「fiont」存在拼寫錯誤,并且推薦将「buy」換成「purchase」等更高級的詞。Grammarly 免費版一樣,它也隻能識别出「fiont」存在拼寫錯誤。
圖左為有道詞典 AI 作文批改結果,圖右為 Grammarly 糾錯結果。從總體體驗上來說,有道詞典挑出來的錯誤更全一些,尤其是當一句話中出現多種錯誤時。而且因為 AI 作文批改采用了前沿的 DL 模型,它對上下文的感知會更強一些,對于較複雜語法問題、或者語篇尺度上的時态問題,它都更有優勢。可能你會覺得單個例子不能說明什麼,有道詞典也做了詳細的人工測評。對于脫敏後的批改服務請求,測試人員從海外詞典請求、考驗用戶請求、行業數據集随機采樣一部分作為測試集,并評估不同糾錯服務的效果。整個測評過程算法同學都沒有參與,基本能做到公平測評。
不同産品的糾錯效果對比。其中,Precision 是語法檢測與修正的精确率,Recall 表示語法檢測與修正的召回率。而 F0.5 為精度與召回率的調和平均,其值越高,通常表示算法性能越好。從上表我們可以明顯的看到,有道詞典 AI 作文批改的三項指标均高出同類先進自動批改軟件 5%~7%。目前大家已經都可以使用了,有道也表示,AI 作文批改還會有其它一些提升,未來将持續優化潤色、範文推薦、書面與口語風格轉化等功能。有了這些新能力,作文備考、論文寫作等更多的體驗都會更順滑一些。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!