上海人工智能實驗室發布新版中文醫療大模型權威評測平台-新華網

近日，上海市人工智能實驗室發布中文醫療大模型權威評測平台MedBench 4.0，這是國內首個面向垂直大模型、專用大模型、應用場景的醫療大模型評測與驗證體系。業內人士介紹，MedBench 4.0為衡量醫學AI産品性能與可靠性提供了科學標尺，保障了醫療人工智能産品質量的提升與行業良性競爭。

據悉，中文醫療大模型權威評測平台MedBench首發於2023年年中，目前更新至第四版。上海人工智能實驗室醫療和評測中心負責人徐捷介紹，本次升級包含大語言模型、多模態大模型及智能體三大技術範式，深度對齊國家《衞生健康行業人工智能應用場景參考指引》，覆蓋60個全自主構建評測集，共70萬餘專業評測題。

記者從上海市人工智能實驗室了解到，針對大語言模型評測，平台圍繞醫學知識問答、語言理解、生成、複雜推理及安全倫理等維度構建了評測集，並創新引入科學指標體系，以緩解模型信息遺漏或幻覺生成等問題對評測結果的影響；針對多模態大模型評測，瞄準醫療影像、檢測報告等臨床核心場景，平台可覆蓋目標檢測、圖像分類、多模態報告質控、序列影像理解、病程動態追蹤等10項細分任務，填補了中文醫療多模態評測領域的技術缺口；針對智能體評測，平台則重點解決智能體執行斷層的問題，推動醫療智能體從“能對話”向“能執行、能協作”演進。

對於醫療大模型評測的意義，徐捷告訴記者，評測首先可以驗證醫療大模型的合規性，其次是驗證其專業性，比如會不會誤診、漏診或者開錯藥，最終幫助市場更好地訓練出優質的醫療大模型。

記者注意到，目前，不少通用大模型如深度求索、千問等都可以分析體檢報告和檢查報告。那麼，醫療大模型的價值何在呢？

對此，徐捷介紹稱，主流通用大模型可以滿足日常健康諮詢。評測顯示，國內頭部通用大模型的醫學能力已經超過國外同類産品。但對於需要給出專業判斷的醫療場景，例如要做哪些檢查、如何解讀報告、應開什麼藥或者中醫方劑等，大模型還需整合大量醫學數據、專家醫案和臨床經驗等語料。醫療大模型能高效處理海量信息，提供循證參考，有助於提升醫生診療水平、補足基層醫療短板，進而實現醫學普惠。

除推出權威評測平台，上海人工智能實驗室還聯合專業醫療機構和相關企業，推出了兒童眼病智能篩查與精準干預系統、胃腸多模態輔助診療大模型等醫療人工智能應用。（記者　葉健）

【糾錯】【責任編輯:冉曉寧】

深度觀察

新華全媒頭條丨鄭州商城遺址：求索夏商文明七十年

上海人工智能實驗室發布 新版中文醫療大模型權威評測平台

上海人工智能實驗室發布 新版中文醫療大模型權威評測平台

上海人工智能實驗室發布新版中文醫療大模型權威評測平台

上海人工智能實驗室發布新版中文醫療大模型權威評測平台