近日,海豚智能與牛津大學、劍橋大學與北京航空航天大學等合作夥伴共同發布大模型測評基準U2-Bench。這是專為大模型超聲圖像理解能力設計的多任務測評基準。U2-Bench 收錄了7,241例來自15個解剖部位的病例,覆蓋疾病診斷、病灶定位、報告生成等8大任務、50 個臨床場景,以此來全面、客觀、準確的評估多模態大模型在複雜超聲數據上的表現。
在最新測試中,海豚智能的超聲大模型Dolphin-V1在U2-Bench上綜合得分(U2-Score)為0.4748。其中模型在超聲標準切面識別任務上表現優異,對於心臟與胎兒的標準切面識別的準確率超過85%。
“U2-Bench 的誕生離不開海豚智能這群富有創造力的年輕人們的努力。”法國國家技術科學院院士,逸超醫療董事長雅克·蘇凱&&,“很高興看到他們為超聲領域帶來的改變,這將成為超聲AI研究的新篇章。”
英國皇家學會副主席,牛津大學終身教授Alison Noble 院士&&,“公開統一的測評基準對於超聲大模型走向臨床應用至關重要。”
海豚智能創始人,CEO勒安捷&&:“U2-Bench 不僅填補了醫療超聲大模型領域評測的空白,更為大模型在超聲領域的應用帶來了更多的可能性。
作為一家醫學影像大模型公司,海豚智能認為實現技術在醫療場景中的落地至關重要,這也是海豚智能強調要將臨床洞見融入到AI模型的研發流程中的關鍵原因。未來,海豚智能將進一步推進模型的落地,繼續與合作夥伴們共建臨床上高效、可信的超聲大模型。
【糾錯】 【責任編輯:孫慧】