七款A(yù)I大模型“高考成績(jī)” 前三名文科過(guò)一本
- 來(lái)源:IT之家
- 作者:3DM整理
- 編輯:方形的圓
IT之家7月18日消息,上海人工智能實(shí)驗(yàn)室17日公布了針對(duì)7個(gè)AI大模型的高考全科目測(cè)試結(jié)果,據(jù)大模型開(kāi)源開(kāi)放評(píng)測(cè)體系“司南”相關(guān)負(fù)責(zé)人介紹,“當(dāng)前大模型仍存在很大的局限性。組織AI大模型‘參加高考’,目的是評(píng)測(cè)當(dāng)前大模型的真實(shí)水平,找準(zhǔn)問(wèn)題,持續(xù)推進(jìn)技術(shù)進(jìn)步?!?
測(cè)試結(jié)果顯示,書(shū)生?浦語(yǔ)2.0系列文曲星大模型(浦語(yǔ)文曲星)、阿里通義千問(wèn)大模型Qwen2-72B以及GPT-4o再次包攬文、理科前三甲;前三名 AI“考生”的文、理科成績(jī)分別超過(guò)了“一本”“二本”線(以今年高考人數(shù)最多的河南省的分?jǐn)?shù)線為參考)。
從官方提供的圖片來(lái)看,此次參與“高考”的大模型還包括來(lái)自零一萬(wàn)物的 Yi-1.5-34B、來(lái)自通義千問(wèn)的 Qwen2-57B、來(lái)自智譜的GLM-4-9B 和法國(guó) AI 初創(chuàng)公司Mistral旗下的Mixtral 8×22B。
據(jù)介紹,此次評(píng)測(cè)具備如下特征:
全卷考試:進(jìn)行全卷評(píng)分,而不只針對(duì)單一題型,且包括帶圖的高考題
考前開(kāi)源:評(píng)測(cè)覆蓋的開(kāi)源模型均為今年高考前開(kāi)源的模型,排除泄題的可能性
老師打分:邀請(qǐng)有高考閱卷經(jīng)驗(yàn)的老師打分,確保評(píng)分和高考盡量一致
完全公開(kāi):生成答案的代碼、模型答卷、評(píng)分結(jié)果完全開(kāi)源
在增加綜合科目的基礎(chǔ)上,Qwen2-72B、GPT-4o、浦語(yǔ)文曲星包攬文、理科前三甲。阿里通義千問(wèn)大模型Qwen2-72B以546分的成績(jī)榮獲AI高考“文科狀元”,浦語(yǔ)文曲星則以 468.5分成為理科第一名,分別超過(guò)了“非開(kāi)源國(guó)際插班生”GPT-4o(文科531分,理科467分)。同為國(guó)外機(jī)構(gòu)發(fā)布的Mixtral 8x22B平均得分最少,弱于國(guó)內(nèi)大模型的高考表現(xiàn)。
閱卷老師們一致認(rèn)為,大模型與真人考生仍存在差距,雖然對(duì)于基礎(chǔ)知識(shí)的掌握表現(xiàn)出色,但在邏輯推理和知識(shí)靈活應(yīng)用方面,大模型仍然差強(qiáng)人意。具體而言,在作答主觀題時(shí),大模型往往無(wú)法完整理解題干,不明白代詞指向,結(jié)果導(dǎo)致答非所問(wèn);解答數(shù)學(xué)題時(shí),解題過(guò)程機(jī)械且邏輯性差,對(duì)于幾何題,常出現(xiàn)與空間邏輯相違背的推斷;對(duì)物理、化學(xué)實(shí)驗(yàn)理解膚淺,無(wú)法準(zhǔn)確識(shí)別并運(yùn)用實(shí)驗(yàn)器材。
此外,大模型也會(huì)偽造虛構(gòu)內(nèi)容,編造看似合理但實(shí)際不存在的詩(shī)句,或在存在明顯計(jì)算錯(cuò)誤的情況下之后不反思,“硬著頭皮蒙”一個(gè)答案,均給閱卷老師帶來(lái)了困擾。
根據(jù)上海人工智能實(shí)驗(yàn)室上個(gè)月公布的AI高考全卷結(jié)果,Qwen2-72B、GPT-4o及書(shū)生?浦語(yǔ)2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過(guò)70%。大部分模型“考生”語(yǔ)文、英語(yǔ)科目表現(xiàn)良好,但數(shù)學(xué)方面仍有很大提升空間。


-
傳奇歲月
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
妖神記之巔峰對(duì)決
-
無(wú)雙戰(zhàn)車(悟空沉默)
-
深淵契約
-
貓狩紀(jì)0.1折
-
靈劍仙師(斗破蒼穹)
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門評(píng)論
全部評(píng)論