大模型答數學題“翻車”是種警示-新華網
新華網 > > 正文
2024 07/19 09:25:46
來源:廣州日報

大模型答數學題“翻車”是種警示

字體:

近日,一道小學數學題讓AI大模型集體“失智”了。9.11和9.9兩個數字哪個更大?就此問題,第一財經記者測試了12個大模型。其中,國內外12個大模型之中只有4個答對了,剩下8個全都回答錯誤,且錯法各有不同。

  一道小學數學題難倒了一眾海內外AI大模型,這在輿論場激起了不小漣漪。有人“驚掉下巴”,調侃“大模型集體翻車”;也有人質疑AI的能力邊界,甚至上手測試了一番,結果發現答案對錯都有,有些大模型能迅速“承認錯誤”,而有的則“一錯到底”。

  針對這一事件,業界給出了分析,總結起來有二。一是技術。大模型在分析文本時,通常會使用特定機制將文本拆分成更小的單元,然後再進行處理。打個比方,這就類似於將一句話拆成一個個詞彙去理解。我們都知道,很多詞語脫離特定語境,意思可能就變了,所以會有“斷章取義”的誤解。同理,大模型的這種拆分處理,顯然不夠嚴謹。

  二是訓練數據。現如今,大模型更多是以文本模型進行訓練分析,在數理分析、邏輯推理上還有待優化,很多用戶也感覺大模型“文科強理科弱”。對此,有媒體以今年高考數學題做測驗,結果顯示,參與測試的7個大模型全部“不及格”,最高分只有75分。由此看來,所謂大模型是“文科生”的説法,未必沒有道理。

  有道是“福禍相依”,此次事件不見得完全是壞事,至少提醒了我們兩件事。頭一件,大模型的短板要補上來。大模型回答數學問題“吃癟”,暴露了其基礎不夠紮實。目前,依託龐大參數規模、強大算力資源等“外挂”,大模型作為人工智能領域最熱門的技術分支,已在多個領域表現出“超高”水準。因而,業界也早早“走在前面”,錨定工業生産製造、金融計算等重要領域,布局新場景,落地新應用。基礎不牢,地動山搖。如果連最基礎的數學都搞不定,又如何去解決更複雜的現實問題?如何實現技術範式的顛覆性創新?顯然,基礎性研究和基本能力建設,已成為必須翻越的兩座大山。

  第二件,我們要學會對技術産物“祛魅”。AI大模型出道至今,一直頂着“能力擔當”的頭銜。幫學生寫作業、為“打工人”敲總結……如此“博學多才”,以至於我們期待甚高、依賴過多,總覺得它“無所不能”。可事實上,不論是大模型,還是其他人工智能技術,雖然概念持續火熱、産品琳瑯滿目,但大部分尚處在測試探索期,距離真正成熟、好用還有一定距離。所謂“祛魅”,就是保持“人間清醒”。既不過分迷信技術特質,也不盲目誇大技術功用,而是在客觀判斷和合理運用中,讓技術應用成為我們的最佳“搭檔”。(庹亞男)

【糾錯】 【責任編輯:王志艷】