當前位置: 華文星空 > 知識

給1078萬考生批卷的,可能不是個人

2021-06-08知識

又一年高考開始了,4000余萬份高考試卷成績,還有背後1078萬考生的命運,都在各位閱卷組老師手中。

自1978年恢復高考,至今已有43年,高考閱卷拋棄了上世紀傳統的手改手核的方式,換上電腦開始無紙化閱卷。近幾年,全國多省陸續試點人工智能閱卷。未來,高考或許會拋棄人工,讓機器獨立閱卷。

這40多年裏,技術是怎麽改變了閱卷方式,高考閱卷有沒有變得更容易,考生有沒有得到公正對待?

故事得從1977年講起。

楊景詒 | 作者

李拓 | 編輯

放大燈團隊 | 策劃

一個人的「審判」

1977年,全國恢復了中斷十年的高考。

彼時的高考,保密工作並不完善。一門考試結束,監考老師把收上來的答題紙摞好,用針線和牛皮紙裝訂起來,遮擋考生資訊,封進密封袋。等到批改的時候,再發給閱卷老師。

恢復高考第一年的河北數學答題紙 | 來源:新浪看點

閱卷老師拿到答題紙,直接在答題紙上批改、核分。

那時的閱卷制度也不完善,沒有「雙批」「三批」的要求。 一份試卷由一位閱卷老師手改手核,就決定了考生的命運。

但人工閱卷是個累活,一場高考下來,每個閱卷老師要批改逾千份試卷,頻繁翻頁導致的肩膀酸痛,讓常年伏案工作的閱卷老師們身體狀況雪上加霜。

後來,為了減輕老師負擔,也為了減少人為誤判,山東大學和重慶大學推出了一種自動閱卷器材,並在1988年套用於高考閱卷。

這種名為光標閱讀機(Optical Mark Reader,即OMR)的器材,能夠透過光學掃描和石墨感應技術[1],辨識答題卡上的客觀題答案,自動給考生打分。

南昊光標閱讀機(gif圖很大,請耐心等待) | 來源:騰訊影片

1990年,高考實行標準化考試,把考題分成客觀題和主觀題兩部份。客觀題的答案寫在答題卡上,交給光標閱讀機處理,而主觀題仍然由老師手改手核。

客觀題機讀卡 | 來源:南昊官網

可手改手核的方式過於落後, 不僅卷子流轉效率慢,批改、傳閱、核分環節費時費力,而且泄密風險更高。 曾任職於某省閱卷組的Z老師在接受放大燈團隊(ID:guokr233)采訪時表示,試卷從考場轉移到閱卷老師手中,有許多環節,保不齊會出什麽岔子。

直到世紀之交,電腦技術改變了生活,也改變了高考的閱卷制度,評卷進入無紙化階段。

眼藥水換來公平

1997年,山東大學起草了光標閱讀機行業第一個行業標準。第二年,苦於尋不到合適的生產商,山東大學決定自立門戶——成立山東山大鷗瑪資訊工業有限公司。新成立的山大鷗瑪,不僅生產光標閱讀機,還涉足研發閱卷系統,將全部考生的答題卡上傳至電腦,實作網上閱卷,又稱無紙化閱卷。

1999年高考,廣西率先在英語試卷上試點網上閱卷。考生把客觀題答案塗在答題卡上,由光標閱讀機判卷,而主觀題則寫在另一張答題紙上,送進掃描器掃描,傳給後方閱卷老師。而閱卷老師只需要坐在電腦前點點滑鼠、敲敲鍵盤,就能完成評卷。

次年,廣西又把試點範圍從英語擴大到語文作文。雲南、江西、遼寧等地也效仿廣西,在保送生能力測試等考試中嘗試網上閱卷[2]。

隨著先進閱卷技術的普及,行業很快進入了光標閱讀機的時代。

到2005年,各地中高考、公務員考試、司法考試,以及各類國家職業資格考試和技術職稱考試,紛紛采用標準化試卷、機讀閱卷[3],給光標閱讀機帶來大量需求。

山大鷗瑪是國內光標閱讀機的先驅,但國內龐大的考試閱卷市場,可不是它一家獨享。同一時期成立的科大訊飛子公司廣東訊飛啟明、拓維資訊子公司深圳海雲天,還有以河北南昊為代表的衡水系公司,均得益於此,拿到大量政府和學校訂單,快速發展起來。 (如果你對這個小小的產業感興趣,請關註放大燈明日文章,我們將為你詳細講述光標閱讀機的商業故事。)

轉變發生在2013年,全國高考實行網上閱卷,市場也發生了新的變化。

一方面,高考實行全部無紙化閱卷,主觀題與客觀題均在網上批改,而傳統的光標閱讀機卻只「認識」選擇題,無法滿足閱卷要求。

另一方面,光標閱讀機的速度已顯得捉襟見肘。因技術路線不同, 光標閱讀機的讀卡速度為每小時5000張A4答題卡[4],而掃描器每小時掃描上萬張A3答題卡也綽綽有余[5]。

山大鷗瑪的掃描器(gif圖很大,請耐心等待) | 來源:山大鷗瑪官網

所以,2013年以後,光標閱讀機的銷量開始下滑,高速掃描器登台亮相。

高考答題卡也從原本主觀題與客觀題分開的兩張合二為一,變成了一張大尺寸的A3答題卡。

掃描器會掃描整個卷面,在後台按區切割圖片。客觀題直接機讀打分,主觀題透過網絡發給閱卷老師。

全面無紙化後的答題卡樣式 | 來源:鷗瑪官網

這種由「掃描器+網上閱卷軟件」組成的無紙化閱卷系統,被各地教育考試院一直用到今天。

這與無紙化閱卷的優點分不開。

無紙化閱卷系統能夠簡化閱卷流程。

掃描過的考卷,以照片的形式存檔,以網絡途徑傳輸,試卷的分發、評分、核分環節線上上自動完成,不需要繁重的保密運輸。

無紙化閱卷還能減少評分誤差。

中國教育網認為,無紙化閱卷在簡化閱卷流程的同時,還能防止老師交換意見,「從而減少評分誤差,確保評卷的質素和公正」[2]。

此外,閱卷軟件還能夠以程式的方式控制閱卷質素,如:透過彈窗提醒的方式,提示閱卷人增減批改速度;把已經評過的卷子隨機抽出重批,評估老師閱卷準確率等。

更重要的是,由於閱卷現場看不到考生的試卷,也給保密工作帶來諸多便利[2]。

無紙化閱卷固然方便,但電腦螢幕的加入,又加重了閱卷老師的用眼負擔。

全國高考統一網上閱卷的2013年,河北閱卷組要在9天時間裏批完44.98萬考生的試卷。據【燕趙都市報】的報道,2100名閱卷老師每天要在電腦前坐足8個小時,9天時間共用掉了幾千瓶眼藥水[6]。

既然老師閱卷辛苦,何不多聘請幾個老師分擔工作?

Z老師認為這不太現實,當地閱卷老師的補貼是按件計費的形式,為了保證老師的收入可觀,就必然要控制閱卷老師的總數。「考慮到閱卷工作對體力的要求,教育考試院一般只選擇年齡在50歲以下的老師閱卷。」Z老師補充。

近年來,人工智能技術快速發展,或許會成為解救閱卷老師的希望。

誰在僱用AI閱卷?

人工智能閱卷的歷史,最早可以追溯到1996年。

美國杜克大學的艾利斯·佩吉設計開發出一款名為PEG的作文評分系統,是世界上最早智能評分系統。

到2005年,美國一家非盈利性考試服務中心Educational Testing Service(簡稱ETS)便推出了一個名為E-rater的機器評分系統,套用於GRE、TOFEL等考試。

該組織官網資料,該系統用到了人工智能技術給試卷打分。這個AI系統不光能指出考生的語法、用詞和拼寫錯誤,在作文題中還可以評價考生的文章立意、組織結構和語言風格[7]。

2016年,日本文部科學省宣布,考慮引入AI為日本高考判卷[8]。

而國內涉足AI評卷的科技公司,有兩家。

一家是阿裏。2017年,浙江外國語學院在一次考試中,用阿裏的人工智能系統給11位外國留學生的中文試卷閱卷,並宣稱AI閱卷準確率已超過人類[9]。

次年9月,阿裏又發起一場全球數學比賽,「閱卷老師」同樣是阿裏自研的人工智能[10]。

另一家,則是發跡於教育的科大訊飛。

科大訊飛在早年便開發出口語測評系統,為多地普通話考試提供智能評分服務。後來,訊飛又把註意力從口語轉向文字,研究智能批改技術。

2015年11月,科大訊飛曾在安慶、合肥等地的學校試點用AI批改作文[11];一個月後的科大訊飛年度釋出會上,董事長劉慶峰又推出智學網,宣稱能實作全科閱卷、智能批改[12]。

語文作文智能評分流程 | 來源:科大訊飛智慧教育

2017年中考,湖北襄陽首次引入訊飛的人工智能閱卷系統。一年後,安徽首次把該系統套用於高考。

茲事體大,安徽教育考試院沒敢讓AI在高考中挑大梁, 該系統主要用於作文題輔助閱卷,給老師「打打下手」。 中安線上曾報道,「它在後台對試卷進行評判,與老師的閱卷結果進行對照,如果偏差較大,會進行提醒。」[13]

雖然人工智能暫時還是「輔助」角色,但並不影響各地教育考試院的采購熱情。自2018年起,科大訊飛先後中標安徽、河北、湖北等地的采購需求。科大訊飛智慧教育公眾號文章中稱,該技術每年服務的中高考考生, 已超過600萬 [14]。

訊飛子公司——訊飛啟明中標湖北省教育考試院人工智能閱卷專案 | 來源:中國政府采購網[15]

Z老師也表示,當地高考雖然未曾使用過人工智能閱卷,但教育考試院的技術部門確實在對接相關事宜。

雖然暫時派不上什麽用處,但往好處看,這些系統的采購價格都不貴——

  • 2018年8月,安徽省教育招生考試院采購智能閱卷網評質素控制服務,價格為15.8萬元;
  • 2020年7月,湖北省教育考試院采購高考人工智能評卷服務和研考人工智能評卷檢測服務,價格為20.3萬元;
  • 2020年10月,河北省教育考試院采購人工智能AI質檢技術測試服務,價格為19.76萬元。
  • 若按照每個高考閱卷老師補貼2000元計算,20萬元不過是100個老師的成本。一旦投入使用,將給教育考試院節省大量人力支出。

    誰更有資格決定考生命運?

    從前,考生的命運掌握在閱卷老師手心,他們答個卷都得想著閱卷老師的體驗——

  • 答卷要用黑色簽字筆,閱卷老師看得更清楚;
  • 寫字要寫楷體(至少要整潔),方便閱卷老師分辨;
  • 答題卡要嚴格分區,讓閱卷老師理解作答順序。
  • 即便如此,人工閱卷仍然不盡人意。

    2014年高考,有浙江閱卷老師反映閱卷速度過快,「主觀題平均用時9秒,作文平均1分鐘判閱完成」。上海交通大學教授、21世紀教育研究院副院長熊丙奇稱此類問題普遍存在,甚至有人直言高考閱卷是「草菅人命」[16]。

    2020年,一篇名為【生活在樹上】的滿分作文引發爭議,浙江語文評卷組作文組組長被舉報開課賣書,「既做教練,又當裁判」[17]。

    把閱卷任務交給AI,對考生來說就是好事嗎?

    與人工閱卷相比,AI不知疲倦、閱卷速度快,而且有標準統一,犯錯機率也小。但是,AI「眼中」的標準,一定適用於高考嗎?

    一方面,AI的偏見在閱卷中已有先例。

    Vice曾指出,前述ETS的智能評分系統E-rater存在演算法偏見——它更傾向於給中國學生高分,而給非裔美國學生、阿拉伯學生和西班牙學生低分。後經ETS研究,發現這是由於中國學生作文篇幅更長,使用的句式和詞匯更加復雜[18]。但拗口的句子和華麗的辭藻,顯然不是高考作文的「金標準」。

    另一方面,AI閱卷系統的「智能程度」,還有待檢驗。

    2020年,美國一款服務於兩萬所學校的AI閱卷系統被指存在漏洞,考生只要列出相應關鍵詞,就能被系統辨識並獲得高分[19]。事實上,在中國高三學生群體中,「高分作文樣版」也已流行多年,AI到底能給高分還是判定「抄襲」?一旦再出一篇半文半白的文章,AI讀得懂嗎?

    根據科大訊飛在2021年4月公布的數據,人工智能評閱語文作文的人機評分一致率為99.33%[14]。但若全國均使用人工智能閱卷,今年上千萬的考生中,最終也會有7.2萬人受到AI的不公正對待,誰來保證少數考生的利益?

    2020年8月,教育部考試中心稱要「堅決維護高考評卷和命題工作公平公正」[20],但是要做到絕對的公平,靠人很難,靠AI也很遙遠。

    *本文頭圖來自微博@stage1st宅社區


    References:

    [1] 在考場上如果用簽字筆填塗機讀卡,會怎樣?https:// mp.weixin.qq.com/s/tpLX BmZmfUSMxLM4tu2qSg

    [2] 高考網上閱卷:尋求最大公正!http://www. edu.cn/edu/yuan_cheng/y uan_cheng_jiao_yu/200603/t20060323_10602.shtml

    [3] 劣質鉛筆影響考試成績 家長恐慌欲查去年高考分 http:// news.sina.com.cn/c/2005 -06-01/15236814587.shtml

    [4] 品科光標閱讀機 http://www. pktouch.com/ShowNews.as p?id=736

    [5] 山大鷗瑪TS系列1高速智能掃描器 http://www. oumasoft.com/01smy2.jsp

    [6] 記者探訪高考評卷現場:每道試題都要進行「雙評」 http:// hebei.hebnews.cn/2013-0 6/18/content_3306458.htm

    [7] E-rater as a Quality Control onHuman Scores https://www. ets.org/Media/Research/ pdf/RD_Connections2.pdf

    [8] 日本文部科學省:未來高考考慮用AI判卷 https:// m.zol.com.cn/miparticle /5718026.html

    [9] 「AI老師」批改試卷 https:// zjnews.zjol.com.cn/zjne ws/zjxw/201712/t20171207_5979805.shtml

    [10] 直擊|馬雲回歸教育第一課:阿裏將辦全球數學比賽 https:// tech.sina.com.cn/i/2018 -09-18/doc-ihkhfqns4045948.shtml

    [11] 科大訊飛機器智能閱卷實作機器批改作文 http:// software.it168.com/a201 5/1106/1775/000001775196.shtml

    [12] 科大訊飛年度釋出會:速記將因機器而失業 https:// tech.china.com/news/com pany/892/20151221/20983828_all.html

    [13] 高考閱卷首次采用人工智能輔助網上評卷質素監控系統 http:// ah.anhuinews.com/system /2018/06/14/007894893.shtml

    [14] 關註!語文作文智能批改來了!https:// mp.weixin.qq.com/s/K5A- uyc0iIP7B9c4ZCootA

    [15] 高考人工智能評卷服務及研考人工智能評卷檢測服務單一來源結果公告 http://www. ccgp.gov.cn/cggg/dfgg/c jgg/202007/t20200710_14630905.htm

    [16] 浙江閱卷老師稱1分鐘判篇作文 仍被催促加速 https:// edu.qq.com/a/20140619/0 41493.htm

    [17] 浙江滿分作文閱卷組長被舉報,曾稱「相信會給我一個公正合理的結論」 https://www. takefoto.cn/viewnews-22 59306.html

    [18] Flawed Algorithms Are Grading Millions of Students’ Essays https://www. vice.com/en/article/pa7 dj9/flawed-algorithms-are-grading-millions-of-students-essays

    [19] AI閱卷「翻車」 其實是「翻」在了自然語言處理 https://www. chinanews.com/gn/2020/1 0-14/9312197.shtml

    [20] 教育部考試中心強調:堅決維護高考評卷和命題工作公平公正 http://www. moe.gov.cn/jyb_xwfb/moe _1946/fj_2020/202008/t20200821_479387.html