11月10日,以“數字科技 煥新啟航”為主題的2023數字科技生態大會在廣州市舉辦。會上,天翼雲重磅發布一站式智算服務&&“慧聚”。天翼雲科技有限公司董事長、總經理胡志強對天翼雲智算服務體系進行了全面解讀。
2023年是大模型高速發展的一年,大模型不斷擴大的參數規模和快速迭代的技術路線跨越式地提升了模型的能力,但是同時也為大模型的訓練和應用帶來了很多挑戰。比如算力利用率的瓶頸日益凸顯、算力成本壓力進一步增大、模型的構建難度不斷提升、模型的行業落地更加複雜。
胡志強&&,為順應大模型時代對於雲服務商的新要求,天翼雲全面升級,構建了全棧大模型智算服務,包括打造智算數據中心AIDC、升級雲智超一體化基礎設施&&“雲驍”、推出一站式智算服務&&“慧聚”、構建國雲大模型生態,形成雲智一體的智算服務體系。
整個體系的基石是智算基礎設施。針對AI高強度運算帶來的散熱問題,天翼雲推出了液冷DC艙,融合定制化液冷智算服務器,實現低至1.12的PUE。與此同時,天翼雲也將“雲驍”升級成為雲智超一體化基礎設施服務&&,構建了高性能RoCE網絡、並行文件存儲等服務;重點提升訓練加速、網絡加速等核心能力,同時升級了運維體系,實現對基礎設施的全面故障預測和感知。在國産化方面,“雲驍”&&率先在公有雲加載天翼雲RoCE網絡+國産GPU方案並實現商用。
在&&層,天翼雲發布大模型的一站式智算服務&&“慧聚”。“慧聚”&&將大模型開發訓練過程中的關鍵流程、複雜技術和寶貴實踐經驗進行總結和抽取,構建出一站式全鏈路的大模型生産應用的流水線,大幅降低大模型訓練、微調、部署、推理的門檻,讓客戶能夠更專注於模型升級和應用落地。
在技術上,“慧聚”&&成功突破了算子加速、模型並行、斷點續訓等技術難點,將高性能計算能力、分佈式算力調度能力、訓練和推理多環節加速技術、高性能數據存儲技術進行封裝,穩定性、訓練推理速度等核心指標大幅提升。
在功能上,“慧聚”&&基於數據&&、模型開發&&、模型服務&&和應用服務&&四大&&,提供數據準備、模型開發、任務管理、模型優化等多個産品功能模塊,每個功能模塊又包含多級組件。功能與組件之間可以靈活組裝,幫助用戶打造針對不同場景的專屬工具集。
基於全新的基礎設施服務&&“雲驍”和智算服務&&“慧聚”,天翼雲已經為大模型開發者、大模型提供者、應用廠商、政府與科研機構、行業協會等合作夥伴提供多種生態模式支持。
依託國雲智算底座,發揮國雲安全優勢,天翼雲將與産業各方合作夥伴緊密協作,廣泛匯聚國內外AI芯片夥伴、各類通用大模型及行業大模型夥伴及廣大開發者,共建繁榮的大模型創新生態,攜手打造先進的智算生産力,全面賦能經濟社會的數字化和智能化。