近日,數字醫學領域期刊《npj Digital Medicine》(Nature旗下學術期刊)發布了一項來自中國科研團隊的最新研究成果——全球用於評估醫療AI臨床適用性的標準:“臨床安全-有效性雙軌基準”(CSEDB,Clinical Safety-Effectiveness Dual-Track Benchmark)。
這是中國團隊首次在該期刊發表“大語言模型+醫療”領域的相關標準研究。CSEDB的創立為醫療大模型的迭代優化指明了方向,也為醫療AI進入嚴肅診療場景奠定了基礎。同時,在基於這一標準對全球多個主流AI模型開展的系統性測評中,由中國未來醫生團隊打造的MedGPT各項評分均位列全球第一。

此次經全球期刊驗證的CSEDB評估標準,由未來醫生科研團隊聯合32位國內臨床專家共同制定。這些專家均來自北京協和醫院、中國醫學科學院腫瘤醫院、中國人民解放軍總醫院、復旦大學附屬華山醫院等醫療機構的23個核心專科。
這套新標準打破了過往以答題準確率評估醫療AI能力的模式,在全球範圍內首次引入“安全性”與“有效性”雙軌評價體系,全面貼合真實臨床決策場景。
評估維度涵蓋30項核心指標,其中17項聚焦安全性,包括危急重症狀識別、致死性診斷失誤、絕對禁忌用藥等關鍵場景;13項聚焦有效性,包括多病並存優先級、診療方案與指南一致等核心需求。同時,CSEDB按臨床風險等級對每項指標加權打分,分值從1分到5分不等,5分對應“潛在致命後果”,如劑量與器官功能失配等高風險情境;1分對應“可逆性傷害”,如病例與檢查報告專業解讀準確性等場景。
在測試方法上,CSEDB也打破了以往“標準問-標準答”的靜態模式。基於上述指標,整套評估體系共構建了2069個開放式問答條目,覆蓋26個臨床專科,全方位模擬臨床診療的複雜場景。
CSEDB的建立,意味着AI時代首次誕生了一套能真實反映醫療AI臨床診療能力的系統化評估標準。全球主流大模型悉數參與測試,包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等。
在這場系統性測評中,未來醫生自研的AI醫療認知系統MedGPT總體得分(0.985)、安全性得分(0.912)、有效性得分(0.861)三項核心指標均位列全球第一。

MedGPT的表現源自於未來醫生的初心:從立項之初,就將臨床專家關注的安全性和有效性植入底層代碼,致力於讓醫療AI“像醫生一樣思考”,而非僅僅“説得像醫生”。其底層技術架構模擬的就是人腦的認知邏輯,而不是寄希望於海量數據澆灌下的“大模型智慧自然涌現”。
2023年,MedGPT就在面向真實患者的臨床試驗中,如今,這一能力仍在持續迭代:超過1萬名醫生通過未來醫生平台與患者進行交互,每週沉澱2萬條“真實診療反饋”,通過“反饋即迭代”的飛輪機制,MedGPT 的準確率每月能提升1.2%-1.5%,不斷推動醫療AI臨床診療能力向更高水平邁進。




