tft每日頭條

 > 圖文

 > 智能閱卷客戶端

智能閱卷客戶端

圖文 更新时间:2025-01-05 20:52:46

智能閱卷客戶端?原标題:智能閱卷官“當學生的時候最煩考試,沒想到工作後幾乎天天跟考試打交道”采訪剛開始,科大訊飛考試業務線工程師張凱自己先笑了此時,他正在機場等飛機,與記者的談話不時被“某某航班即将起飛”的背景音淹沒,飛來飛去,甚至将所有工作塞滿24小時,這是人工智能領域工程師的日常他說:“能從事人工智能輔助閱卷系統的研發,我很驕傲我希望用這套系統,為更多老師減負,打出最準确的分數,讓每一名學生都體會到教育的公平公正”,現在小編就來說說關于智能閱卷客戶端?下面内容希望能幫助到你,我們來一起看看吧!

智能閱卷客戶端(智能閱卷官)1

智能閱卷客戶端

原标題:智能閱卷官

“當學生的時候最煩考試,沒想到工作後幾乎天天跟考試打交道。”采訪剛開始,科大訊飛考試業務線工程師張凱自己先笑了。此時,他正在機場等飛機,與記者的談話不時被“某某航班即将起飛”的背景音淹沒,飛來飛去,甚至将所有工作塞滿24小時,這是人工智能領域工程師的日常。他說:“能從事人工智能輔助閱卷系統的研發,我很驕傲。我希望用這套系統,為更多老師減負,打出最準确的分數,讓每一名學生都體會到教育的公平公正。”

人工智能輔助閱卷系統從2016年開始啟動實驗,至今已經在安徽省、江蘇省、河南省等14個省份投入使用。去年,北京的一些重要考試也試點應用了人工智能輔助閱卷。這套系統還進入學校,成為“智慧教室”的标配。六七年間,這套“智慧”的系統已經獲得了十餘個自有知識産權專利,涉及中英文類手寫體識别、測評等方面。

主觀題智能評分技術研究

人工算法必不敢省人工

“最早判卷是靠一支紅筆,但是面對海量的試卷和有限的閱卷時間,閱卷老師難免會出現纰漏。然而每一場考試對于學生而言,都可能是一次命運的轉折,所以閱卷的公平性至關重要。比如中考、高考、研究生考試,還有四六級考試、托福考試……我們管這些叫高利害考試。”張凱自稱是教育領域的外行,但是經年累月和老師們打交道,張口閉口就會帶出教育領域的專有名詞,說起考試更是侃侃而談,“上世紀八十年代,技術實現了客觀題閱卷機械化,利用光學掃描和石墨感應技術,光标閱讀機可以識别答題卡上的客觀題答案,自動給考生批閱核分,老師隻需要用筆判卷子上的主觀題。進入新世紀前後,高速掃描儀可以掃描整張試卷了,客觀題由計算機出分,閱卷老師可以在網上無紙化、零接觸批閱卷子裡的主觀題,而且一張試卷同時雙評、多評,還有仲裁都可以實現了。”

2016年3月,科大訊飛與教育部考試中心簽署合作協議,宣布共建聯合實驗室。當時給實驗室制定的工作目标是:以考試信息化推動考試現代化,探索信息技術和人工智能技術解決大規模教育考試的難點問題,拓展教育考試服務功能,探索教育考試評價的新方法和新機制,開拓人工智能技術産業化的新領域。

編程、開發系統,這些對于張凱和同事們而言屬于常規操作,真正讓他們犯難的是“講明白”這套系統。最簡單的辦法是,讓這位“智能閱卷官”拿出好成績。這個成績分兩部分:一部分是閱卷準确率要高,一部分是耐力分要高。

在開始正式研發前,張凱和同事們做了一次調研,希望摸清全國考試的家底兒,“考試種類多,數量龐大,閱卷量很大。以河南省為例,僅是高考每年就有百萬級的考生參加,這意味着上千萬甚至更多的題目批閱量。而且考試出分的時間又非常緊湊,如果輔助智能閱卷系統不能保證長時間高強度工作,就不能算合格。”

第一次“試崗”經曆,讓張凱記憶猶新。“三個大小夥子,輪番盯着系統幹活兒,排好班,目不轉睛地盯着。”當初的辛苦如今在工程師嘴裡成了小笑話,“當時實驗室剛成立幾個月,智能評卷系統安裝在計算機上可以出分了。我們就做了一次效果驗證。剛開始,系統鬧‘脾氣’,明明設定了24小時工作運算時間,不盯着就‘偷懶’,我和倆同事一個人盯8小時,加了一層人工崗,保障它的穩定性。”

一次次的更新,一次次的試錯,到2018年,智能閱卷系統可以實現連續運算1個月,不打瞌睡。

2021年,智能評卷系統參與了國家義務教育質量監測。這項監測被業内形象地比喻成對九年義務教育質量的一次“體檢”,要對我國義務教育階段學生德智體美勞和學校教育教學等狀況進行客觀評價,引導社會樹立正确的教育質量觀,促進學生身心健康發展。

大,是這次監測最大的特點。考生數量大,約57萬人,待閱答題卡數量達到1440萬份左右。搭建卷庫、掃描設備、服務器,設置數據處理區、監控安保,各種技術人員和相關工作人員緊密配合,一系列工作有條不紊地推進。

人工算法必不敢省人工,但曾經的“人工盯梢崗”悄然消失了。更多的人力用在了技術升級上。

為了提高效率,每一分每一秒的時間,都要擠着用。為此,工程師們也是絞盡腦汁。最開始的技術,試卷整體掃描完成,工程師們定時去取數據,然後再上傳到某個局域網,老師去機房判卷子。一取一傳,緊趕慢趕往往也需要24小時。現在,在保障絕對安全的前提下,智能閱卷系統和試卷掃描系統可以連接到一個網上了,兩者打通,省去了原來的“接頭”時間。張凱說:“理想狀态下可以實現掃描、人工網評和智能閱卷同步進行,數據實時互傳。”

擦亮人工智能的“眼睛”

相比智能閱卷的耐力值而言,準确度是“更要命”的。

傳統的網上評卷方式,評卷過程主要包括:掃描儀掃描答題卡,形成的圖像被上傳到計算機,再由教師在網上看圖閱卷。換句話說,整個過程其實隻是從紙上轉移到了電腦屏幕上,評卷的質量保障都由教師把控。

讓人工智能加入評卷後,會有什麼變化?張凱将評卷過程“拆分”細解:首先在掃描階段,計算機不再是簡單地呈現圖像,而是對掃描的答題卡進行圖像轉文本的處理,讓圖片轉化為計算機能夠“讀懂”的文本,“基于大數據和海量文庫資源的處理技術,計算機就能對客觀題進行自動評分,同時還能檢測出主觀題裡考生未作答的部分,單獨形成一個空白題列表,不将這些題繼續下發,為老師們評卷減負。”之後,進入教師網評階段,計算機也可以幫助教師給主觀題“查重”,比如篩出套作網絡範文的作文,讓教師單獨處理這些試卷;甚至計算機就可以自主給主觀題打分,作為教師雙評、多評的輔助。

“實現這些應用場景,要突破3大技術要點。”張凱抛出3個專業術語——文本圖像識别技術、基于深度神經網絡建模的評分模型訓練、多維度計算機智能評分算法。他貼心地将難懂的術語翻譯成白話:“簡單地說,我們要做的就是擦亮這位‘智能閱卷官’的眼睛,通過大量的訓練,讓它學會識字、辨錯、測評,還要保證準确率達到教師閱卷的基本水平。”

突破技術要點的背後,工程師們在不斷試錯、默默耕耘。

光是圖像識别轉寫文本,就讓張凱和同事費了不少功夫。“假設要識别100張圖像,我們需要先給這100張圖像找到對應的準确文本,再和計算機識别的内容進行比對,得出準确率。”張凱笑着說,他和同事嘗試了各種技術手段去找“标準答案”,比如融合多套算法“算”出準确的文本,借鑒網絡上其他的識别轉寫技術等,不論怎樣嘗試,找到的“标答”還是不盡如人意……“試了一個月之後,我們發現還是最原始的方法最有效——找兩個标注員,把同一張圖像的文本敲出來,兩人的答案如果還有偏差,就再找第三個人敲一遍,以此類推,最終找到準确的文本。”

考試中,還有些題的答案并不唯一,如何讓計算機學會處理這些題目,也曾令張凱和同事“撓頭”。“舉個最簡單的例子,一道數學題的答案是三分之一,學生寫六分之二或者九分之三都算對,但是計算機最開始隻認一個答案,這就導緻最後機器評分的準确率大打折扣。”張凱說,類似的情況讓計算機在數學等專業性較強的題目的評定上吃了虧,“有些專業領域的知識我們是想不到的,第一次發現答案有遺漏需要增補,是在一次考試之後做數據分析,于是我們想到要給計算機做更細更深的規約。”

張凱最開始想到的方法是把考生們的高頻作答收集起來,形成一個新的樣本,讓老師進行一次評分,再讓計算機學習,做出更準确的評定。“但我們在收集大量新樣本時發現,老師評過的題目也不一定百分之百準确,計算機學習之後還是評不準。”張凱說,他們又想到把所有答案類型都統計出來,發給評卷組的老師逐一确認,然而這無疑又增加了老師的工作量,“以70萬考生規模的考試為例,統計出來的答案數據也有2萬條左右,讓老師每條都看一遍也不現實。”

反複磨合、測試,張凱和同事們終于找到“最優解”:讓計算機對考生的所有作答結果進行歸類,“基本上能判斷對錯的歸為一類,最核心、最需要評卷老師來判斷的歸為一類,讓老師在這些作答中挑出正确答案。”張凱說,看似簡單的步驟,背後其實需要工程師一步步地細化、完善,不斷提高計算機的準确度。

2018年,張凱和同事帶着這套人工智能輔助閱卷系統在某省高考評卷中進行了試驗,探索人工智能評卷技術在多科目、多題型上應用的可行性。

“對我們來說,這是一次大考。”當年參加這場大考時的緊張感,張凱記憶猶新。他解釋,這次試驗内容包括:在線對高考語文、高考英語的作文題進行智能評分,并将評分結果應用于輔助質量監控;以離線方式驗證高考語文簡答題、高考數學證明和計算題、高考文科綜合能力測試政治簡答題的智能評分效果。“龐大的考生數量,閱卷涉及多個科目、多個題型,時間緊迫,這些因素無疑給我們增加了難度。但是,搞科研,就是要有韌勁兒。”張凱笑着說,當時國内還沒有可借鑒的成功經驗,團隊就把這次大考當作對前兩年“訓練”成果的檢驗。

149萬餘份考卷、40台掃描和評卷用各類服務器、兩周時間内評出所有試題結果……這次大考的“成績單”,讓張凱和同事們喜出望外。人工智能評分系統對各科抽取的試卷樣本評分的準确率在95%左右,評分結果都經過了閱卷系統完整性、準确性檢查。同時,這位“智能閱卷官”還檢測出了特殊異常的作答樣本,包括與範文庫中文本内容相似度高、與當次考試試卷題幹相似度高、考生之間作答内容相似度高三種情況。

項目組還在語文作文和英語作文中分别随機挑選了100份圖片進行識别率的統計對比,結果顯示:語文中文字符的識别準确率為96.93%,英語單詞的識别準确率為98.88%。“我們的智能閱卷官已經超過了識别準确率在95%以上的目标,這說明它已經達到了一個較高的水平。”張凱興奮地說,他們還根據智能評分得到的數據,與評卷教師的評分情況進行了比對,并對人機産生大分差的樣本進行标注,将這些大分差樣本數據下發給各學科組評卷專家進行複核,“各題型複核結果也表明,人工智能評分系統對輔助試卷質量監控起到精準定位、精細複核、精确評分的作用。”

人工智能評分系統在這次大考中的出色成績,令張凱和同事們信心倍增。此後,他們又帶着這位智能閱卷官參加了全國多個省市的各類考試。不斷優化升級的過程中,智能閱卷官的準确率也在逐年提高:95%,97%,98%……到2021年,它已經能夠作為高考閱卷的“一評”,參與填空題等答案明确題型的評分,準确率達99.5%以上。

從評卷到構建“智慧課堂”

和科研人員類似,“社會影響力”也是張凱所在項目組的績效指标。從2016年實驗室成立至今,項目組已經發表了語言識别、翻譯、評測相關論文28篇,大多數都獲得了自有知識産權專利;同時,項目組還發表了中文類手寫體識别、評測相關論文11篇,獲得10個相關專利,英文類手寫體識别、評測相關論文4篇,獲得4個專利。

依托項目組的自有知識産權專利,目前,人工智能輔助閱卷系統已經能夠實現對語文、英語以及政治、曆史等文科類學科試卷的智能評分,也可以處理數學這類公式相對統一的學科的試卷,下一步的目标是“精益求精”。“像化學、物理、地理這些學科,會涉及有機分子式、圖形等一些特殊符号,在計算機圖像識别轉寫上,這些難點是我們要進一步突破的。”張凱用“謹小慎微”形容他們正在做的工作,“還有很多細節,比如語文常用的删除号、調位号等修改符号,現在計算機隻能把它們識别出來交給閱卷老師去複核;未來,我們希望它能獨立完成對這些内容的處理。”

去年,智能閱卷官在北京“上崗”了。新中考首考中,從搭建試卷庫、掃描儀、服務器,到實時處理數據,監控試卷安全……項目組在規定時間内順利完成了20萬考生近90萬份答題卡的掃描閱卷工作。不僅這一場考試,大到高考、高中學業水平考試,小至一些學校的月考、期末考,各類考試中都有這套人工智能輔助閱卷系統不同程度的試點應用。

除了關注考試,在北京的中小學校園裡,“智慧課堂”的建設也有人工智能系統的身影。今年,育英中學“上新”了一份個性化學習手冊,裡面包含了學生日常檢測的錯題解析、知識點講解,以及針對薄弱知識點的拓展練習題,幫助學生有針對性地進行鞏固提升,滿足多樣化學習需求。如果學生學有餘力,可以自主自願選擇基于自身知識圖譜生成的個性化學習手冊,作為補充專題學習。這份智能手冊不僅可以識别學生手寫作答的中英文和公式,減輕教師的批改負擔,還可以通過計算機閱讀理解技術分析學生學情,推薦個性化學習方案。

“随着‘雙減’政策的實施,我們也在探索人工智能在素質教育方面發力,提供能力輔助提升。”張凱說,在個性化推薦上,這套系統将轉變以往推薦題庫“刷題”的模式,更注重引導學生自主學習和素質培養,基于對學生的愛好分析,推薦更多相關的課外讀物。看似簡單的轉變,其實需要研發人員做大量的工作才能實現。為此,張凱和同事除了在人工智能評卷技術上進一步拓展之外,也正在忙着探索人工智能在素質教育中的應用。

雖然每天面對着冷冰冰的計算機,做着看似枯燥的工作,工程師們的心卻比誰都細膩溫暖。“我們更想達到的目标是快樂教育,為孩子們減負,讓他們開心成長。”采訪結束,背景音裡又響起航班開始登機的廣播,張凱掐準時間,起身趕往下一座城市,他說,“為了萬千學生,投身這一事業,再辛苦也值得。”(劉冕 李祺瑤)

(千龍網)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved