作者 | 弗雷迪
數據支持 | 勾股大數據(www.gogudata.com)
字節豆包的出圈,在A股又掀起一股圍繞算力基建的投資,應用端的進步和鉅額資本開支或逼促國內其他AI玩家追趕差距。
而在全球AI領域,隨着算力需求突破單個芯片性能升級的速度,一場全新的AI基建已經拉開帷幕。博通的入局,令大型科技公司不再臣服於英偉達的芯片霸權。
新一批賣鏟人,開始進場了。
01
AI基建2.0
AI基建投資並非只停留在堆GPU的範疇,還覆蓋了像高速互聯、存儲、光通信、交換機等不可或缺的環節,這些共同組成了算力,存力,運力。
AI服務器跟傳統服務器集羣的不同,就是增加了GPU模組。從存力的角度,HBM容量帶寬的增速趕不上芯片算力增長的速率,那就會有內存牆的問題,制約算法的發揮。
從服務器的角度,算力網絡內部光模塊的用量由集羣內GPU數量決定,每台服務器的網絡端口數量同步增加,按照比例推算可知,這會帶來多大的需求量。
這個邏輯,其實在AI基建1.0版本已經兑現過。國內的光模塊“三劍客”,美國的博通、邁威爾科技,都是受益者。
而如今,邏輯有什麼變化?
首先是超大規模算力集羣已經初具雛形。
Meta此前提出,要在2024年底繼續擴大基礎設施建設,包括35萬顆H100的配置。未來,AI算力集羣的規模上限將遠遠不止百萬顆GPU。
生成式AI的應用往往需要處理和分析大量數據,執行這些任務通常會超過單個計算節點的能力,因此需要跨多個計算節點分攤工作負載,前提是要讓節點之間的通信暢通無阻。
英偉達的做法叫做Scale up,通過NVLINK Switch提升GPU之間的通信速率,把多個GPU組成一個超級GPU節點,縱使單節點的性能已經趨近極限,在高速互聯下張量並行的得以提升。
而實現高速互聯的方案,不再只是光模塊,而納入了銅互聯。因為在短距離連接的場景裏,相比光互連,銅互聯在成本和功耗上佔據優勢。
以英偉達GB200 NVL72為例,800G光模塊的市場平均單價在430美金左右,那麼整個機櫃購置光模塊就要花掉55.7萬美元,相比之下,使用銅纜互聯節省了差不多6倍的成本。
在短距離連接場景裏,高速銅互連方案已經逐漸被海外大型雲服務廠商所採用。
其次,去年AI芯片的所有增量幾乎都被英偉達一家所壟斷,但隨着以博通ASIC為代表的芯片合作方式得到驗證,科技巨頭逐漸加碼了自研算力部署。
因為過去英偉達可以將GPU和互聯方案一起打包塞給科技巨頭,但現在巨頭和博通一起搞芯片集羣,選擇上更加多樣化,激發了像高速互聯、交換機的配套需求。
亞馬遜在今年12月初發布了 Trainium2 推理芯片,其單機櫃可以放置兩台Trainium2 服務器,兩個機櫃間就通過有源線纜連接。除此之外,谷歌、X.AI都在使用定製線纜。
除了業績指引亮眼的博通,數據中心的上游配套供應商今年終於能看到實際的業績增長。
安費諾是高速率連接器龍頭,英偉達高速銅纜組件的主要供應商。在過去的三季度,公司銷售額同比增長26%,其中用於AI產品的貢獻最大。
Credo提供的是高速連接線材,近期大火的AEC是其主要產品。在月初公佈的財報中,公司即表示AEC已經在下游AI領域放量,佐證了科技大廠對於高速線纜的旺盛需求。業績公佈後次日,公司市值一天就升近50%。
02
什麼是AEC?
對於AI算力集羣來説,最小化能耗和成本是極關鍵的。英偉達的策略是儘可能多地部署高速銅纜,今年推出的GB200機架方案中,採用了超過5000根銅纜連接GPU,長度超過2英里。
按照下半年出貨,明年成為主力產品的節奏,市場對銅纜潛在需求量的預期十分樂觀。根據機構預測,僅GB200出貨量拉動的銅纜需求,2025年的市場空間將達到約64億美元。未來新產品方案的設計,對於高速銅纜的需求還會不斷進行迭代。
數據中心交換網絡的連接方案包括光模塊+光纖、有源光纜AOC和直連銅纜DAC。
銅纜為短距離連接提供高帶寬和性能,是經濟高效的解決方案。而光纜利用光纖並提供更高的帶寬,適合更長的距離,多用於不同機架之間的連接。
想要實現成本最低的高速互聯,且功耗和延遲統統降低,銅互連是性能和成本折中的方案。
DAC是一種兩端帶有固定接頭的銅纜組件,廣泛用於數據中心的短距離連接,長度通常為1至7米,傳輸速率最高可達到224Gps,可以進一步分為有源DAC和無源DAC。
無源DAC在電纜端直接連接,通過銅線傳輸,在沒有信號調節時可以進行傳輸。覆蓋距離不超過3米,譬如用於系統內的機架連接。
有源DAC則包含ACC(有線銅纜)和 AEC(有源電纜)。
ACC是通過內部添加了有源信號驅動器芯片,這些有源芯片補償了銅傳輸造成的部分損耗,因此它們可以傳輸比無源DAC遠 2-3 倍的距離。
而AEC則是在ACC基礎上,通過在線纜兩端引入 Retimer 芯片,可以在傳輸開始和結束時清理、去除噪聲並放大信號,從而進一步延長傳輸距離。雖然功耗和成本也會隨之增加,但仍低於光纜AOC。
比較來看,AEC和ACC的覆蓋範圍都比DAC更長,都適用於為短距離連接提供高帶寬,是比較經濟高效的解決方案。
每年要投入上千億資本開支的微軟谷歌們,未來預算投入會將一部分投入到互聯設施中,這是確定無疑的。
因為NVLINK技術的存在,再加上機櫃密度足夠高,所以英偉達使用DAC和部分ACC就已經夠用。但他們現在要圍繞自己的芯片集羣配套,整體算力密度不如英偉達的前提下,機櫃內卡離得更遠,於是就傾向於性能出色的AEC。
機構大幅度的修正呼應瞭如今大型AI集羣對高速電纜需求的積極變化。
根據Lightcounting最新報吿,預計未來五年高速電纜的銷售額將增長兩倍以上,到2029年將達到67億美元。按照去年的報吿,對2028年銷售額的估計只有28億美元。
除了市場擴容本身,其中主要的變化是,到2029年,DAC將逐漸把市場份額讓給AEC和ACC。
但是不是一定能替代光模塊呢?
如果一些方案本來使用的是有源光纜,可能會被AEC替代一部分。但在1.6T甚至更高速率的互聯域,跨機櫃較長距離的連接場景依然首選光模塊,整體方案來看還是會搭配使用。
超大算力集羣的競賽不光只有海外巨頭在參與,國內幾個頭部玩家也在持續投入。字節網傳的明年1500億元資本開支,以及字節在應用端的出色表現,或倒逼其他國內大廠奮起直追,在國內複製一場AI軍備競賽。
對於國內A股,投資機會又可能在哪裏?(注意:下文提到的上市公司僅是分析説明,並非推薦,讀者需注意風險)
03
下一個光模塊?
AI2.0基建對於高速互聯的需求明確,同時隨着自研ASIC隊伍的不斷壯大,超大規模XPU集羣的建設將帶動上游的光模塊、交換機、PCB、高速線纜等用量的持續繁榮。
來自英偉達的映射最為直接,當前B200在逐漸上量,供應商安費諾的配套產品線就集結了眾多來自國內的上游供應商,譬如包括樂庭智聯(沃爾核材)、神宇股份、鼎通科技、奕東科技等(僅作分析説明,並非推薦)。
樂庭智聯是沃爾核材的子公司,也是安費諾的核心線纜供應商,目前無論是產品線,技術,以及產能,都為承接大量訂單做足了準備,可以預見未來由產能和價值量提升帶來的業績怎增長。
公司在8月曾透露,部分單通道224G高速通信線產品完成了重要客户驗證,已接到訂單需求,陸續交付中,目前整體佔比較小。
作為核心映射標的,股價從2月最低點迄今,市值累計翻了接近4.5倍。類似的海外配套供應商還有精達股份、鴻騰精密等(僅作分析説明,並非推薦)。
高速銅纜組件由線材和連接器組成,上游提供材料,下游是終端客户。在高速線材&連接器市場,國際巨頭通過專利優勢壟斷大量份額。AEC的主要供應商包括 Astera labs,Broadcom、Credo、Marvell、Maxliner、Point2。
國內企業如鼎通科技、奕東電子生產的組件經過客户集成其他功能後形成連接器模組,最終供應給下游客户。
但未來隨着國內算力建設,下游客户對國產化內部器件的需求增長,國內供應商有望從細分器件逐步突破海外壟斷。譬如去年上市的華豐科技,在去年上半年已經成功研製224Gbps高速背板連接器。
國內來看,新易盛在高速AEC電纜模塊有所佈局;瑞可達AEC系列產品目前相關項目正在推進中;兆龍互連已規模化生產應用於傳輸速率達到400G的高速傳輸電纜及組件產品,無源銅纜和有源銅纜產品可針對情況提供不同解決方案(僅作分析説明,並非推薦)。
從成本來看,高速銅互連的單位價值量或無法與光模塊相提並論,但隨着算力基建在規模量級上的突破,成本和性能將是科技巨頭們不得不去平衡的問題,一些短距離的互聯場景將逐漸被高速銅纜填充。
這意味着,一批新的“賣鏟人”正在徐徐走進這個賽道,跟光模塊的故事極其相似,預先享受到了估值端提升。
技術路線的迭代只是一個契機,對於國內企業,高速銅纜仍然具備比較高的門檻,從技術研發,產品驗證,到進入供應鏈,收穫業績爆發增長,這個過程仍存在着不及預期的可能性。(全文完)