數(shù)字金融
網(wǎng)絡(luò)營(yíng)銷(xiāo)推廣
電商服務(wù)
■本報(bào)記者 趙廣立
2024年全國(guó)高考的“硝煙”剛剛散去,“大模型考生”就被抓回來(lái)重新“做題”了。
市面上涌現(xiàn)出的大模型產(chǎn)品讓人眼花繚亂,圍繞“大模型技術(shù)哪家強(qiáng)”的討論不絕于耳,各色名目的大模型評(píng)測(cè)應(yīng)運(yùn)而生。作為國(guó)內(nèi)最權(quán)威的考試之一,高考覆蓋各類(lèi)學(xué)科及題型,同時(shí)在開(kāi)考前這些題屬于“絕密”,非常適合用來(lái)作為考查大模型智能水平的評(píng)測(cè)工具,堪稱(chēng)大模型綜合能力的“試金石”。
連日來(lái),一些專(zhuān)業(yè)機(jī)構(gòu)紛紛下場(chǎng),使用市面上常見(jiàn)的大模型產(chǎn)品如通義千問(wèn)、字節(jié)豆包、訊飛星火、文心一言、騰訊元寶、月之暗面Kimi等作為“考生”,圍繞“大模型高考測(cè)試”得出了一系列結(jié)果,為人們更好地了解大模型產(chǎn)品的性能和特點(diǎn)提供了參考樣本。
AI高考數(shù)學(xué)全不及格?換個(gè)打開(kāi)方式試試
近期,一則“AI高考測(cè)試出分,數(shù)學(xué)全不及格”的消息登上“熱搜”。
消息出自上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系OpenCompass對(duì)7個(gè)開(kāi)源大模型進(jìn)行的高考語(yǔ)、數(shù)、外全卷能力測(cè)試。據(jù)OpenCompass于6月19日發(fā)布的評(píng)測(cè)結(jié)果,大模型的語(yǔ)文、英語(yǔ)考試水平還不錯(cuò),但數(shù)學(xué)都不及格,最高分只有75分(滿(mǎn)分150分)。
參加OpenCompass此次高考測(cè)試的大模型,分別是來(lái)自阿里巴巴、零一萬(wàn)物、智譜AI、上海人工智能實(shí)驗(yàn)室、法國(guó)Mistral的開(kāi)源模型。OpenCompass稱(chēng),因無(wú)法確定閉源模型的更新時(shí)間,此次評(píng)測(cè)沒(méi)有納入商用閉源模型,僅引入GPT-4o作為評(píng)測(cè)參考。
對(duì)于數(shù)學(xué)測(cè)試全部不及格,OpenCompass表示,“大模型在數(shù)學(xué)方面還有很大的提升空間”。
不過(guò),復(fù)旦大學(xué)自然語(yǔ)言處理(NLP)實(shí)驗(yàn)室LLMEVAL團(tuán)隊(duì)主持的高考數(shù)學(xué)評(píng)測(cè)顯示,大模型數(shù)學(xué)成績(jī)不佳的結(jié)果,可能緣于“打開(kāi)方式不對(duì)”。
首先,LLMEVAL團(tuán)隊(duì)選取了2024年高考新I卷、新II卷數(shù)學(xué)試卷的客觀(guān)題(單選、多選和填空題,共73分)來(lái)評(píng)測(cè),得出了不同的結(jié)論。使用客觀(guān)題測(cè)試大模型的好處是,對(duì)就是對(duì)、錯(cuò)就是錯(cuò),結(jié)果一目了然。同時(shí)主觀(guān)題由于解題方法、思路存在差異,具有一定的主觀(guān)性,如果結(jié)果不正確,就很難客觀(guān)地評(píng)出步驟分。
其次,此次大模型“考生”增加到12個(gè):阿里巴巴Qwen2-72b、訊飛星火、GPT-4o、字節(jié)豆包、智譜GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、騰訊元寶、月之暗面Kimi、DeepSeek-V2-Chat。
另外,他們?cè)谠u(píng)測(cè)中發(fā)現(xiàn),數(shù)學(xué)問(wèn)題不同格式的提示輸入(Prompt)對(duì)大模型性能影響很大。在最初的評(píng)測(cè)中,LLMEVAL團(tuán)隊(duì)對(duì)數(shù)學(xué)題目中的公式部分采用了通過(guò)光學(xué)字符識(shí)別(OCR)后輸出的格式(轉(zhuǎn)義符格式),最新一次評(píng)測(cè)則使用了Latex格式進(jìn)行了橫向?qū)Ρ仍u(píng)測(cè)。
結(jié)果顯示,大多數(shù)模型的兩次測(cè)試結(jié)果均出現(xiàn)較大差異,不過(guò)使用Latex格式后,大模型整體表現(xiàn)更佳:2024年全國(guó)高考新I卷、新II卷數(shù)學(xué)測(cè)試中,得分率超過(guò)50%的大模型產(chǎn)品數(shù)量由此前的5個(gè)和6個(gè)升至7個(gè)和9個(gè)。考慮到Latex格式更符合人類(lèi)實(shí)際使用大模型時(shí)所采用的格式,LLMEVAL團(tuán)隊(duì)建議后續(xù)測(cè)試主要基于此格式。
具體而言,LLMEVAL團(tuán)隊(duì)使用Latex格式Prompt的測(cè)試結(jié)果顯示,在2024年全國(guó)高考新I卷數(shù)學(xué)測(cè)試中,阿里巴巴Qwen2-72b、訊飛星火的得分率均超過(guò)及格線(xiàn)(60%),分別為78.08%和71.23%;在2024年全國(guó)高考新II卷數(shù)學(xué)測(cè)試中,訊飛星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格線(xiàn),分別為65.07%、63.70%、62.33%。
由此可見(jiàn),大模型在數(shù)學(xué)方面并非“熱搜”所說(shuō)那樣完全不及格,訊飛星火、阿里巴巴Qwen2-72b等國(guó)產(chǎn)大模型在高考數(shù)學(xué)客觀(guān)題中具有較高的準(zhǔn)確率,令人眼前一亮。當(dāng)然,LLMEVAL團(tuán)隊(duì)在評(píng)測(cè)后也指出,大模型在數(shù)學(xué)推理任務(wù)中的魯棒性與準(zhǔn)確性仍有很大的提升空間。
語(yǔ)文、英語(yǔ)高考測(cè)試,作文見(jiàn)真章
“AI考生”之于語(yǔ)文、英語(yǔ)高考,最引人注目的當(dāng)數(shù)大模型的作文水平了。
對(duì)于考生而言,作文考試主要考查學(xué)生運(yùn)用語(yǔ)言成文的能力,考查的是識(shí)字情況、用詞組句的能力以及表達(dá)事實(shí)、思想或觀(guān)點(diǎn)的能力。事實(shí)上,作文是最能考驗(yàn)大模型語(yǔ)言理解能力和文本生成能力的測(cè)評(píng)工具,這兩項(xiàng)能力正是時(shí)下大模型最為倚重的。
2024年全國(guó)高考語(yǔ)文科目考試一結(jié)束,就有不少場(chǎng)外師生使用市面上的大模型產(chǎn)品“寫(xiě)作文”。圍繞新課標(biāo)I卷高考作文題“答案與問(wèn)題”、新課標(biāo)II卷“抵達(dá)未知之境”、北京高考(1)(2)卷的作文題“歷久彌新”和“打開(kāi)”等題目,文心一言、訊飛星火等多家大模型產(chǎn)品紛紛化身“寫(xiě)手”,并交出“作品”。
一些大模型作文令人眼前一亮。以全國(guó)新高考I卷的作文題為例,在這個(gè)具有思辨性的題目引導(dǎo)下,大模型提交的部分作文題不僅切題,更顯巧妙,如《問(wèn),豈可少?》《疑問(wèn)如春芽,答案似剪刀》《于無(wú)疑處生疑,方是進(jìn)矣》《問(wèn)題不止,智慧無(wú)窮》《智涌未來(lái),問(wèn)海無(wú)涯》,等等。
近日,全國(guó)中小學(xué)生作文競(jìng)賽評(píng)委、中學(xué)語(yǔ)文教研專(zhuān)家呂政嘉和河南省基礎(chǔ)教育教學(xué)專(zhuān)家?guī)斐蓡T李來(lái)明共同對(duì)市面上7款大模型產(chǎn)品的上述4張?jiān)嚲淼淖魑倪M(jìn)行了評(píng)測(cè)打分。從打分情況來(lái)看,訊飛星火、文心一言4.0、騰訊元寶在4張?jiān)嚲淼淖魑念}上均有不俗表現(xiàn),最高平均得分接近50分。
能拿50分的AI作文長(zhǎng)啥樣?訊飛星火作出的《問(wèn),豈可少?》得到均分51.5的評(píng)分。李來(lái)明對(duì)該文的評(píng)語(yǔ)為,“全文結(jié)構(gòu)完整,思路清晰,論證層層遞進(jìn),結(jié)構(gòu)框架清晰明了。全文多處扣題生發(fā)議論,鞭辟入里,分析得當(dāng)。但在一些地方,可以適當(dāng)增加一些論證手法,使文章更加生動(dòng)有趣”。
在高考英文作文題目“幫李華寫(xiě)郵件”中,中國(guó)外語(yǔ)教育研究中心特約研究員、知名教研策劃專(zhuān)家周?chē)?guó)榮和廣東國(guó)家級(jí)示范校教師楊菁菁也對(duì)上述7款大模型產(chǎn)品的英語(yǔ)作文進(jìn)行了評(píng)測(cè)和打分。他們將2024年高考真題作文要求輸入7款大模型產(chǎn)品,生成作文后,由教研雙評(píng)給出評(píng)分并作最高分點(diǎn)評(píng)。
全國(guó)高考卷的英語(yǔ)應(yīng)用文寫(xiě)作題中,7款大模型產(chǎn)品均能完成試題規(guī)定的寫(xiě)作任務(wù),結(jié)構(gòu)上也能做到邏輯清晰、結(jié)構(gòu)合理,其中不乏能夠使用復(fù)雜句式,在語(yǔ)言表達(dá)上有多處亮點(diǎn)的作品。但這些文章也有一些明顯的扣分項(xiàng),如使用超綱詞匯、超過(guò)字?jǐn)?shù)上限等。打分方面,7款產(chǎn)品均有超過(guò)12分(滿(mǎn)分15分)的表現(xiàn),且得分相對(duì)穩(wěn)定。
在難度更高的全國(guó)高考英語(yǔ)卷“讀后續(xù)寫(xiě)”題目和北京卷英語(yǔ)作文題中,7款大模型產(chǎn)品的表現(xiàn)有了差別。周?chē)?guó)榮和楊菁菁的打分和點(diǎn)評(píng)顯示,訊飛星火、騰訊元寶在“讀后續(xù)寫(xiě)”題目中高分領(lǐng)先;在北京卷英語(yǔ)作文題中,訊飛星火、月之暗面Kimi、文心一言4.0排前三位。綜合來(lái)看,國(guó)產(chǎn)大模型在中國(guó)高考的表現(xiàn)不落下風(fēng),有著教育行業(yè)背景的訊飛星火大模型在一眾大模型中表現(xiàn)搶眼,堪稱(chēng)“更會(huì)做題的大模型”。
評(píng)測(cè),還有很長(zhǎng)的路要走
評(píng)測(cè)作為對(duì)機(jī)器理解、處理、應(yīng)用自然語(yǔ)言能力的一種評(píng)估和量化手段,是大模型領(lǐng)域技術(shù)水平和研究進(jìn)展的直觀(guān)體現(xiàn),是相關(guān)研究的工具和重要驅(qū)動(dòng)力。
北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所教授穗志方日前在“大模型+計(jì)算語(yǔ)言”專(zhuān)題論壇上的報(bào)告中表示,大模型在人類(lèi)標(biāo)準(zhǔn)化考試中如中國(guó)高考、公務(wù)員考試、美國(guó)SAT考試等的表現(xiàn),能夠?yàn)槠湓谡鎸?shí)世界中的能力提供評(píng)估參考,但仍存在一些問(wèn)題。如一些模型在諸如SAT數(shù)學(xué)測(cè)試等任務(wù)中表現(xiàn)優(yōu)異,但在復(fù)雜推理或特定知識(shí)領(lǐng)域中的表現(xiàn)卻又不夠出色。截然相反的表現(xiàn),讓人無(wú)從評(píng)判。
“在大模型內(nèi)在機(jī)理沒(méi)有探究清楚的情況下,我們目前的評(píng)測(cè)路徑只能依靠從外部表現(xiàn)來(lái)推測(cè)內(nèi)在能力?!彼胫痉秸f(shuō),現(xiàn)有評(píng)測(cè)仍存在規(guī)范性、系統(tǒng)性及科學(xué)性方面的問(wèn)題,評(píng)測(cè)的深度和廣度方面有待改進(jìn)。
她提出,未來(lái)大模型評(píng)測(cè)應(yīng)當(dāng)以具有綜合考查能力的類(lèi)人機(jī)器語(yǔ)言能力評(píng)測(cè)為目標(biāo),在參考信度、難度、效度三大原則的基礎(chǔ)上,發(fā)展更系統(tǒng)的評(píng)測(cè)大綱、更具挑戰(zhàn)的評(píng)測(cè)任務(wù)、更科學(xué)的評(píng)測(cè)方法,采取更多樣、更魯棒的評(píng)測(cè)手段,科學(xué)高效地為大模型提供客觀(guān)、公平、類(lèi)人的評(píng)測(cè)結(jié)果。如此,方能引領(lǐng)和推動(dòng)人工智能領(lǐng)域各類(lèi)模型、方法的提出和創(chuàng)新。