Nature旗下期刊發布醫療AI評估新標準，未來醫生MedGPT位列全球第一-新華網

近日，數字醫學領域期刊《npj Digital Medicine》（Nature旗下學術期刊）發布了一項來自中國科研團隊的最新研究成果——全球用於評估醫療AI臨床適用性的標準：“臨床安全-有效性雙軌基準”（CSEDB，Clinical Safety-Effectiveness Dual-Track Benchmark）。

這是中國團隊首次在該期刊發表“大語言模型+醫療”領域的相關標準研究。CSEDB的創立為醫療大模型的迭代優化指明了方向，也為醫療AI進入嚴肅診療場景奠定了基礎。同時，在基於這一標準對全球多個主流AI模型開展的系統性測評中，由中國未來醫生團隊打造的MedGPT各項評分均位列全球第一。

此次經全球期刊驗證的CSEDB評估標準，由未來醫生科研團隊聯合32位國內臨床專家共同制定。這些專家均來自北京協和醫院、中國醫學科學院腫瘤醫院、中國人民解放軍總醫院、復旦大學附屬華山醫院等醫療機構的23個核心專科。

這套新標準打破了過往以答題準確率評估醫療AI能力的模式，在全球範圍內首次引入“安全性”與“有效性”雙軌評價體系，全面貼合真實臨床決策場景。

評估維度涵蓋30項核心指標，其中17項聚焦安全性，包括危急重症狀識別、致死性診斷失誤、絕對禁忌用藥等關鍵場景；13項聚焦有效性，包括多病並存優先級、診療方案與指南一致等核心需求。同時，CSEDB按臨床風險等級對每項指標加權打分，分值從1分到5分不等，5分對應“潛在致命後果”，如劑量與器官功能失配等高風險情境；1分對應“可逆性傷害”，如病例與檢查報告專業解讀準確性等場景。

在測試方法上，CSEDB也打破了以往“標準問-標準答”的靜態模式。基於上述指標，整套評估體系共構建了2069個開放式問答條目，覆蓋26個臨床專科，全方位模擬臨床診療的複雜場景。

CSEDB的建立，意味着AI時代首次誕生了一套能真實反映醫療AI臨床診療能力的系統化評估標準。全球主流大模型悉數參與測試，包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等。

在這場系統性測評中，未來醫生自研的AI醫療認知系統MedGPT總體得分（0.985）、安全性得分（0.912）、有效性得分（0.861）三項核心指標均位列全球第一。

MedGPT的表現源自於未來醫生的初心：從立項之初，就將臨床專家關注的安全性和有效性植入底層代碼，致力於讓醫療AI“像醫生一樣思考”，而非僅僅“説得像醫生”。其底層技術架構模擬的就是人腦的認知邏輯，而不是寄希望於海量數據澆灌下的“大模型智慧自然涌現”。

2023年，MedGPT就在面向真實患者的臨床試驗中，如今，這一能力仍在持續迭代：超過1萬名醫生通過未來醫生平台與患者進行交互，每週沉澱2萬條“真實診療反饋”，通過“反饋即迭代”的飛輪機制，MedGPT 的準確率每月能提升1.2%-1.5%，不斷推動醫療AI臨床診療能力向更高水平邁進。

【糾錯】【責任編輯:孫慧】

深度觀察

新華全媒頭條丨長江禁漁五年，發生了哪些變化？