在數字經濟蓬勃發展的當下,算力成為駕馭創新大潮的關鍵力量。2019年末國家超算濟南中心(簡稱:濟南超算)科技園已經開園啟用,並主導建設了多個重點實驗室和研究院,積極參與山東高等技術研究院等重要科研項目,在智能信息技術領域全面布局,圍繞超算形成的數字經濟生態創新圈,成功吸引了近 20 家科研院所、30 多家科研&&。
然而隨着算力需求的不斷增長和多樣化,如何將高性能計算、雲計算、人工智能計算等不同類型的算力資源高效整合與調度,如何實現高度自動化的運營運維,成為了橫亙在濟南超算面前的難題。
彼時的北京青雲科技集團股份有限公司(簡稱:青雲科技),一方面在全面開展國産異構算力的深度適配,另一方面在積極探索EHPC,將彈性、擴展、統一管理的軟體&&能力從雲計算領域擴展到超算領域。
兩個志同道合的創新者一拍即合,攜手突破算力整合與運營的瓶頸,推動算力産業的創新發展。
多元異構算力統一調度
青雲科技以創新的理念打造了 AI 智算&&,為濟南超算實現對3000P算力的統一調度提供了關鍵支撐,打破了高性能計算、雲計算、人工智能計算等資源模塊之間的壁壘,實現了對異構算力的整合管理。
濟南超算整合了多種異構芯片、服務器、存儲、網絡等資源,以“山河雲”對外提供統一算力服務,通過智能化的調度算法,根據不同應用場景的需求,動態分配算力資源,極大地提高了算力的使用效率。例如,在處理大規模科學計算任務時,&&能夠迅速調配高性能計算資源,確保任務的高效完成;而在人工智能訓練場景中,則可以精準分配 GPU 等計算資源,加速模型訓練過程。
運營運維規範化、自動化
濟南超算同步建立起完善的管理體系與流程規範,管理人員通過可視化管理,可以清晰地看到不同類型資源的分佈狀態,以及各個項目對資源的佔用情況。而青雲AI智算&&提供的子賬號管理及工單管理等功能,進一步提升了管理的精細化程度。
更讓管理人員和用戶交口稱讚的是精準計費功能和工單系統。精確計費不僅為濟南超算的成本核算和資源定價提供了準確依據,更讓用戶能夠清楚了解自己的費用支出情況。特別對於一些小型科研團隊來説,精準計費功能讓他們能夠更好地控制科研成本:根據自己的實際需求靈活調整算力使用量,清楚地知道每一筆費用的去向,將有限的科研經費花在刀刃上,提高科研資源的利用效率。而工單系統則避免了繁瑣的人工溝通,提升了運維效率。
為了確保算力的穩定可靠運行,青雲還推出了故障監控與自愈系統。該系統擁有 1000+ 故障特徵庫,能夠秒級發現故障並分鐘級自愈。這樣一來,山河雲&&檢測到故障,會立即通過多渠道發出告警。隨後,系統會自動啟動任務檢測和調度禁止機制,防止新任務在故障機器上運行。系統還會預留部分機器作為備份,以便在故障發生時迅速接管任務,保證用戶的業務連續性。
開放生態讓AI應用按需落地
青雲 AI 智算&&的開放架構,為濟南超算提供了一條快速接軌大模型服務、AI應用的“快車道”,讓山河雲服務的科研企業、工業企業、政府機構、高校等享受生態便利,緊跟AI技術演變,保持創新活力。
比如,服務山東數字政府的政務雲實現了雲計算資源池、高性能計算、人工智能計算集群之間的算力彈性擴展,上線了300+ 政務系統;智慧黃河模擬器正在緊鑼密鼓的研發中,其中涉及到大量數據和模型的融合。同時,濟南超算、青雲科技也與合作夥伴共同推進自然語言巨量模型的訓練工作,服務於智能客服、信息檢索等領域的應用。
這一優勢也讓山河雲服務的眾多企業得以快速擁DeepSeek,在實際業務中應用,典型的是用於內部知識庫的搭建,提升知識庫的質量與實用性。山河雲服務的高校學生也能夠更快運用DeepSeek完成科研項目,比如通過模型微調實現自己需要的應用功能並形成論文。山河雲為高校學生提供了廣闊的科研創新空間,學生們能夠更便捷、高效地運用DeepSeek 展開深入探索: 根據自身的研究方向和需求,對模型進行針對性調整和優化,成功實現了一系列獨特的應用功能;學生們還將這些創新實踐進行系統總結和理論昇華,形成了高質量的學術論文,為相關領域的研究貢獻新的思路和成果。
算網融合新突破
與此同時,山河超級計算集群與青雲科技合作打造基於 SD-WAN 網絡接入的方式,建成以“濟南 - 青島”為兩大超算核心結點、連接山東 16 市骨幹結點和 100 余個邊緣結點的省域算力網絡。
在此基礎上,濟南超算積極參與各類算網項目,目前已作為成員單位參與科技部牽頭的中國超算互聯網,並在“東數西算”網絡方面成立了黃河流域算力聯盟,與樞紐結點的算力共享。
濟南超算與青雲科技的合作,不僅在技術層面實現了算力的融合創新,更在産業生態方面形成了集聚效應,讓眾多科研機構、企業和高校圍繞着山河雲,形成了一個緊密的創新生態系統。各方通過資源共享、技術交流和合作創新,充分發揮自身優勢,共同攻克技術難題,推動産業智能升級,助力數字經濟高質量發展。