助攻AI大模型,騰訊云星脈高性能計算網絡首次完整披露|環球今亮點
智東西
(資料圖片僅供參考)
編譯 | Glu
編輯 | 李水青
智東西6月27日消息,昨天下午,騰訊云在北京舉辦了一場面向AI大模型的高性能網絡溝通會,在現場首次完整披露了其自研的星脈高性能計算網絡。據稱,星脈網絡具備業界最高互聯帶寬,能提升40%的GPU利用率,節省30%~60%的模型訓練成本,還讓AI大模型通信性能提升10倍。
同時,基于騰訊云新一代算力集群HCC,星脈網絡可支持10萬卡的超大計算規模。
AI新時代,大模型成為AI領域最火熱的話題,各大科技公司紛紛入局,騰訊公司也不例外,繼6月19日公布其行業大模型研發進展后,騰訊云副總裁王亞晨、騰訊云數據中心網絡總監李翔于今日與智東西等媒體官宣了“星脈網絡”實現全新升級,并分享了騰訊云網絡研究的發展歷程。
王亞晨稱:“星脈網絡是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網絡服務,將助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業大模型的訓練效率,在云上加速大模型技術的迭代升級和落地應用。”
演講嘉賓:騰訊云副總裁王亞晨
演講嘉賓:騰訊云數據中心網絡總監李翔
一、AI大模型3大網絡需求:大帶寬、高利用率、無損網絡
目前,AI大模型的訓練參數已飆升至萬億級別,如此龐大的訓練任務無法由單個服務器完成,而需要大量GPU服務器組成算力集群,相互協作完成任務。
這些服務器通過機間網絡相連接,不斷交換數據。因此,高性能網絡具有至關重要的地位,它有利于讓算力集群更加快速、準確地完成大規模的訓練任務。
大集群不等于大算力,相反,GPU集群規模的擴大還會引發額外的通信開銷。因為傳統網絡架構下,數據傳輸時會通過多層協議棧,需要反復停下來檢查、分揀、打包,導致通信效率低下。
也就是說,網絡層級越多,致GPU集群通信性能將越低。現在爆火的生成式AI大模型需要運用千億、萬億參數規模進行訓練,這個訓練過程中通信占比最大可達50%,而傳統低速網絡的帶寬無法支撐。
在這個問題的解決上,業界通常會引入RDMA技術(GPU之間直接通信),這是一種高性能、低延遲的網絡通信技術,能夠允許計算節點之間直接進行數據傳輸,減少中間環節。
但光靠RDMA技術還遠遠不夠,傳統網絡協議也將制約GPU集群的運行效率。傳統網絡協議也很容易導致網絡擁塞、高延時和丟包,而僅%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。
王亞晨幽默地將傳統網絡協議喻為“交通管理系統”:“這讓所有人都在一條大馬路上行走,自然會導致交通堵塞。”
二、帶寬,支持10萬卡集群組網
基于以上問題,騰訊云在交換機、通信協議、通信庫以及運營系統等軟硬件方面進行升級,推出了自研的大模型專屬高性能網絡“星脈”。
“帶寬”決定了能夠同時傳輸的數據,“拓撲”是節點設備間的連接方式,決定了組網規模的大小。在這兩項硬指標上,騰訊云稱星脈皆達到了業界最高水平。
在硬件方面,星脈網絡自研白盒交換機,這是一種軟硬件解耦的開放網絡設備,采用四層解耦體系,包括接入、轉發、路由、管控系統;騰訊云還自研了網絡操作系統,包括網絡OS與網管平臺,構建了互聯底座,實現自動化部署和配置。
在軟件方面,騰訊云自研的TiTa網絡協議,能夠實時監測并調整網絡擁塞,TiTa網絡協議能夠提升40%的帶寬負載,還能提供低延時無損網絡,實現高負載下的0丟包,使集群通信效率達90%以上。
王亞晨將其與傳統網絡協議對比,稱:“這是讓有不同需求的人走不同的路,就不會導致堵塞了。”
此外,騰訊云還為星脈網絡設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統實現了微秒級感知網絡質量。結合動態調度機制合理分配通信通道,可以避免因網絡問題導致的訓練中斷等問題,讓通信時延降低40%。
王亞晨將其比喻為“導航系統”,優化后的集合通信就像有了導航一樣,可以快速找到最優路徑。
為確保星脈網絡的高可用,騰訊云自研端到端全棧網絡運營系統。它可以讓大模型訓練系統的整體部署時間從19天縮減至天,保證基礎配置100%準確;通過端網立體化監控與智能定位系統,它可以進行離線故障診斷、在線故障實時告警,讓整體故障的排查時間由天級降低至分鐘級;此外,它具有秒級的故障自愈能力,端側會主動發起路徑選擇,能夠極速恢復網絡故障。
三、3代演進,17年耕耘,網絡硬軟件全自研
根據騰訊云官方數據,目前,騰訊云在全球26個地理區域運營70個可用區,同時在70多個國家和地區部署了超過2800個CDN加速節點,全網帶寬資源儲備超過200T。
而在星脈網絡技術升級的背后,是騰訊數據中心網絡歷經3代技術演進、17年耕耘的成果。
第一代是互聯網驅動時期。數據中心網絡流量主要由用戶訪問數據中心服務器的南北向流量構成,網絡架構以接入、匯聚、出口為主。這一階段主要使用了商用網絡設備,搭建標準化數據中心網絡,支撐QQ在線人數增長超過1億,服務器規模增長超10萬。
第二代是云服務驅動時期。隨著大數據和云計算的興起,服務器之間的東西向流量逐漸增多,云租戶對網絡產生了虛擬化和隔離的要求。數據中心網絡架構逐漸演變為同時承載南北向和東西向流量的云網絡架構,騰訊云構建了全自研網絡設備與管理系統,打造超大規模數據中心網絡,服務器規模近200萬臺。
第三代是大規模算力驅動時期。隨著AI大模型的出現,騰訊云在國內率先推出高性能計算網絡,采用東西向、南北向流量的分離架構。構建了獨立的超大帶寬、符合AI訓練流量特征的網絡架構,并配合自研軟硬件設施,實現整套系統的自主可控,滿足超強算力對網絡性能的新需求。
日前,騰訊云發布的新一代HCC高性能計算集群,正是基于星脈高性能網絡打造,可以實現超高互聯帶寬,算力性能較前代提升3倍,為AI大模型訓練構筑可靠的高性能網絡底座。
結語:面向AI大模型,騰訊星脈網絡打助攻
參數達到千億、萬億級別的AI大模型尤其看重網絡性能,它需要大帶寬、高利用率、無損的網絡來幫助它高效地完成訓練任務。以此為契機,騰訊云基于過往17年的網絡布局經驗與技術成果,研發了助攻AI大模型的星脈網絡。星脈網絡具備帶寬,可支持10萬卡集群組網,能讓AI大模型通信性提升10倍。
自OpenAI于去年推出ChatGPT后,各方勢力紛紛入局AI大模型,千模大戰一觸即發。騰訊公司上周了公布其行業大模型的研究進度,騰訊云不“卷”參數,而聚焦到具體產業端,關注AI大模型的落地。此外,他們積極構建高性能網絡以助攻AI大模型。此次溝通會中,王亞晨還透露騰訊云正在積極探索下一代高性能網絡,致力于構建更強算力的計算集群。
關鍵詞:




