近日,上海市人工智能實驗室發布中文醫療大模型權威評測平台MedBench 4.0,這是國內首個面向垂直大模型、專用大模型、應用場景的醫療大模型評測與驗證體系。業內人士介紹,MedBench 4.0為衡量醫學AI産品性能與可靠性提供了科學標尺,保障了醫療人工智能産品質量的提升與行業良性競爭。
據悉,中文醫療大模型權威評測平台MedBench首發於2023年年中,目前更新至第四版。上海人工智能實驗室醫療和評測中心負責人徐捷介紹,本次升級包含大語言模型、多模態大模型及智能體三大技術範式,深度對齊國家《衞生健康行業人工智能應用場景參考指引》,覆蓋60個全自主構建評測集,共70萬餘專業評測題。
記者從上海市人工智能實驗室了解到,針對大語言模型評測,平台圍繞醫學知識問答、語言理解、生成、複雜推理及安全倫理等維度構建了評測集,並創新引入科學指標體系,以緩解模型信息遺漏或幻覺生成等問題對評測結果的影響;針對多模態大模型評測,瞄準醫療影像、檢測報告等臨床核心場景,平台可覆蓋目標檢測、圖像分類、多模態報告質控、序列影像理解、病程動態追蹤等10項細分任務,填補了中文醫療多模態評測領域的技術缺口;針對智能體評測,平台則重點解決智能體執行斷層的問題,推動醫療智能體從“能對話”向“能執行、能協作”演進。
對於醫療大模型評測的意義,徐捷告訴記者,評測首先可以驗證醫療大模型的合規性,其次是驗證其專業性,比如會不會誤診、漏診或者開錯藥,最終幫助市場更好地訓練出優質的醫療大模型。
記者注意到,目前,不少通用大模型如深度求索、千問等都可以分析體檢報告和檢查報告。那麼,醫療大模型的價值何在呢?
對此,徐捷介紹稱,主流通用大模型可以滿足日常健康諮詢。評測顯示,國內頭部通用大模型的醫學能力已經超過國外同類産品。但對於需要給出專業判斷的醫療場景,例如要做哪些檢查、如何解讀報告、應開什麼藥或者中醫方劑等,大模型還需整合大量醫學數據、專家醫案和臨床經驗等語料。醫療大模型能高效處理海量信息,提供循證參考,有助於提升醫生診療水平、補足基層醫療短板,進而實現醫學普惠。
除推出權威評測平台,上海人工智能實驗室還聯合專業醫療機構和相關企業,推出了兒童眼病智能篩查與精準干預系統、胃腸多模態輔助診療大模型等醫療人工智能應用。(記者 葉健 )



