中國AI高性能網絡受國際頂會認可 阿里雲6篇論文入選SIGCOMM2024-新華網
新華網 > > 正文
2024 05/14 11:16:41
來源:環球網

中國AI高性能網絡受國際頂會認可 阿里雲6篇論文入選SIGCOMM2024

字體:

  5月13日,網絡通信領域國際頂會SIGCOMM2024確定了收錄論文名單,中國企業表現亮眼,阿里雲6篇論文入選,其中,介紹阿里雲最新一代的智算集群網絡架構HPN 7.0的成果論文,成為SIGCOMM歷史上在AI智算集群網絡架構領域的首篇論文。據了解,SIGCOMM2024將於8月在悉尼線下召開會議。

  大模型的火熱對AI基礎設施提出了更高要求,HPN7.0架構即面向AI時代對網絡高性能需求而研發。據介紹,HPN 7.0針對大模型訓練場景下規模大、大流多、突發強烈、穩定性需求高的特點,創新性地設計了“雙上聯+多軌+雙平面”的網絡架構,並配合最新一代的51.2Tbps單芯片以太網交換機和400G高性能網卡,自研Solar-RDMA和ACCL通信庫,實現了單層千卡、兩層萬卡的高性能和高穩定互聯。

  

  HPN7.0架構:為AI設計的高性能網絡集群

  從2023年9月開始,HPN7.0在阿里雲展開大規模部署,大模型訓練性能較上一代架構在典型場景下提升14.9%,且大幅提高了智算網絡整體穩定性。前不久阿里雲發布通義千問2.5版本大模型,就是基於HPN7.0高性能網絡架構訓練。通義千問2.5版本較2.1版本在理解能力、邏輯推理、指令遵循、代碼能力上分別提升9%、16%、19%、10%,中文性能全面趕超GPT-4Turbo。

  阿里雲基礎設施網絡負責人蔡德忠介紹稱:“阿里雲從2017年開始探索端網融合的可預期網絡,HPN7.0更進一步,把端網融合的體系結構從網絡協議棧拓展到網絡架構和通信庫,實現了面向AI智算時代的全新網絡集群架構創新。”

  網絡架構是網絡技術及系統的基石,重大創新如連城之璧般稀少。據了解,SIGCOMM此前關於傳統數據中心網絡的架構領域文章還是Google提出的Jupiter網絡,現已成為業界經典網絡架構範式。有專家指出,此次由阿里雲提出的新一代網絡架構HPN7.0,有望成為下一代AI高性能網絡架構的新範式。

  在SIGCOMM近50年的發展歷程中,來自中國大陸的論文僅50余篇,其中阿里累計入選25篇,是國內被收錄數量最多的科技公司。據了解,阿里雲在高性能網絡領域已深耕多年,提出了端網融合的可預期網絡技術體系,並在業界率先實踐完成RDMA低延時網絡、智算集群網絡架構HPN 7.0等先進網絡技術的大規模實踐。阿里巴巴還曾獲評權威機構AMiner全球十大最具影響力的網絡研究機構。

【糾錯】 【責任編輯:凌紀偉】