作者:吳俊宇 編輯:謝麗容
來源:財經十一人
國內雲廠商高性能GPU芯片缺貨,正在成爲限制中國生成式AI誕生的最直接因素。
2022年12月,微軟投資的AI創業公司OpenAI推出了聊天機器人ChatGPT。這是生成式AI在文本領域的實際應用。所謂生成式AI,是指依靠AI大模型和AI算力訓練生成內容。ChatGPT本質是OpenAI自主研發的GPT-3.5語言大模型。該大模型包含近1800億個參數。
微軟的Azure雲服務爲ChatGPT構建了超過1萬枚英偉達A100 GPU芯片的AI計算集羣。
美國市場研究機構TrendForce在3月1日的報告中測算稱,處理1800億個參數的GPT-3.5大模型,需要的GPU芯片數量高達2萬枚。未來GPT大模型商業化所需的GPU 芯片數量甚至超過3萬枚。更早前的2022年11月,英偉達在官網公告中提到,微軟Azure上部署了數萬枚A100/H100高性能芯片。這是第一個採用英偉達高端GPU構建的大規模AI算力集羣。
鑑於英偉達在高性能GPU方面的技術領先實力,在國內,雲計算技術人士公認的一個說法是,1萬枚英偉達A100芯片是做好AI大模型的算力門檻。
《財經十一人》瞭解到,目前國內雲廠商擁有的GPU主要是英偉達中低性能產品(如英偉達A10)。擁有超過1萬枚GPU的企業不超過5家,其中擁有1萬枚英偉達A100芯片的企業最多隻有1家。也就是說,單是從算力這個衡量指標來看,國內能在短期內佈局類似ChatGPT的選手十分有限。
ChatGPT看似只是聊天機器人,但這卻是微軟的AI算力、AI大模型和生成式AI在消費市場的一次肌肉展示。在企業市場,這是雲計算的新一輪增長點。微軟Azure ML(深度學習服務)已有200多家客戶,包括製藥公司拜耳、審計公司畢馬威。Azure ML連續四個季度收入增長超過100%。這是微軟雲旗下雲、軟件、AI三大業務中增長最快的板塊。
今年2月,包括阿裏、百度等中國企業宣佈將研發類ChatGPT產品,或將投入生成式AI的研發。在國內,AI算力、AI大模型和生成式AI被認爲只有雲廠商纔有資格下場。華爲、阿裏、騰訊、字節跳動、百度都有雲業務,理論上有跑通AI算力、AI大模型和生成式AI應用的入場券。
有入場券不代表能跑到終點。這需要長期高成本投入。GPU芯片價格公開,算力成本容易衡量。大模型需要數據採集、人工標註、模型訓練,這些軟性成本難以簡單計算。生成式AI的投資規模通常高達百億元。
多位雲計算廠商技術人士、服務器廠商人士對《財經十一人》表示,高性能GPU芯片短缺,硬件採購成本、運營成本高昂,國內市場中短期商業化困難,這三個問題纔是真正的挑戰。他個人認爲,具備資金儲備、戰略意志和實際能力的企業,暫時不會超過3家。
決定AI大模型“智商”的核心因素是三個,算力規模、算法模型的精巧度、數據的質量和數量。
AI大模型的推理、訓練高度依賴英偉達的GPU芯片。缺少芯片會導致算力不足。算力不足意味着無法處理龐大的模型和數據量。最終的結果是,AI存在智商差距。
3月5日,第十四屆全國人民代表大會第一次會議開幕式結束後,科技部部長王志剛在全國兩會“部長通道”接受媒體採訪時評價,ChatGPT作爲一個大模型,有效結合了大數據、大算力、強算法。它的計算方法有進步,特別是在保證算法的實時性與算法質量的有效性上。“就像發動機,大家都能做出發動機,但質量是有不同的。踢足球都是盤帶、射門,但是要做到梅西那麼好也不容易。”
英偉達是全球知名的半導體廠商,在數據中心GPU市場佔據超過90%以上的份額。英偉達A100芯片2020年上市,專用於自動駕駛、高端製造、醫療製藥等AI推理或訓練場景。2022年英偉達推出了性能更強的新一代產品H100。A100/H100是目前性能最強的數據中心專用GPU,市面上幾乎沒有可規模替代的方案。包括特斯拉、Facebook在內的企業,都利用A100芯片組建了AI計算集羣,採購規模均超過7000枚。
多位雲計算技術人士對《財經十一人》表示,運行ChatGPT至少需要1萬枚英偉達的A100芯片。然而, GPU芯片持有量超過1萬枚的企業不超過5家。其中,擁有1萬枚英偉達A100 GPU的企業至多隻有1家。
另有某大型服務器廠商人士對《財經十一人》表示,即使樂觀估計,GPU儲備規模最大的企業也不超過5萬枚,且以英偉達中低端數據中心芯片(如英偉達A10)爲主。這些GPU芯片分散在不同數據中心中,單個數據中心通常只配備了數千枚GPU芯片。
此外,由於美國政府去年8月開始實施的貿易限制,中國企業早已無法獲取英偉達A100芯片。現有A100芯片儲備均是存貨,剩餘使用壽命約爲4年-6年。
2022年8月31日,英偉達、AMD兩家半導體企業旗下生產的GPU產品被美國列入限制範圍。英偉達被限制的產品包括A100和H100,AMD受管制GPU產品包括MI250。按照美國政府的要求,未來峯值性能等於或超過A100的GPU產品也被限制出售。
中國企業目前能夠獲取的最佳替代品,是英偉達的A800芯片。A800被視爲是A100的“閹割版”。2022年8月,A100被禁止銷售中國市場後,英偉達在當年三季度針對中國市場推出了特供的A800芯片。該產品計算性能與A100基本相同,但數據傳輸速度被降低了30%。這會直接影響AI集羣的訓練速度和效果。
不過,A800芯片目前在中國市場也嚴重缺貨。雖然是A100“閹割版”,A800京東官網定價超過8萬元/枚,甚至超過A100官方定價(1萬美元/枚)。即使如此,A800在京東官網仍是缺貨狀態。
有雲廠商人士對《財經十一人》表示,A800實際售價甚至高於10萬元/枚,價格還在持續上漲。A800目前在浪潮、新華三等國內服務器廠商手中是稀缺品,一次只能採購數百片。
GPU數量不夠或性能不夠的結果是,AI推理和模型訓練的準確度不足。這會直接導致中國企業即使做出類似的對話機器人,機器人的“智商”會遠低於ChatGPT。國內雲廠商高性能GPU芯片缺貨,正在成爲限制中國版ChatGPT誕生的最直接因素。
AI算力和大模型是比雲還要燒錢的吞金獸。
即使有足量的高性能GPU,中國雲廠商接下來還要面臨高昂的硬件採購成本、模型訓練成本以及日常運營成本。面對上述成本,具備資金儲備、戰略選擇和實際能力的企業不超過三家。
OpenAI能做出ChatGPT,背後有微軟提供資金和算力。2019年微軟向OpenAI投資10億美元。2021年微軟再進行了一輪未透露金額的投資。今年1月,微軟宣佈將在未來數年陸續向OpenAI投資100億美元。
對雲廠商來說,AI算力和大模型需要面臨高昂的硬件採購成本、模型訓練成本以及日常運營成本。
其一,硬件採購成本和智算集羣建設成本。如果以1萬枚英偉達A800 GPU爲標準構建智能算力集羣,在10萬元/枚的價格標準下,僅GPU採購成本就高達10億元。一臺服務器通常需要4枚-8枚GPU,一臺搭載A800的服務器成本超過40萬元。國內服務器均價爲4萬-5萬元。一臺GPU服務器的成本是普通服務器的10倍以上。服務器採購成本通常是數據中心建設成本的30%,一個智算集羣的建設成本超過30億元。
其二,模型訓練成本。想要算法模型足夠精準,需要進行多輪算法模型訓練。有某外資雲廠商的資深技術人士對《財經十一人》表示,ChatGPT一次完整的模型訓練成本超過1200萬美元(約合8000萬元)。如果進行10次完整的模型訓練,成本便高達8億元。GPU芯片價格公開,算力成本相對容易衡量。但AI大模型還需要數據採集、人工標註、模型訓練等一系列工作,這些軟性成本難以簡單計算。不同效果的模型最終成本也不同。
其三,日常運營成本。數據中心內的模型訓練需要消耗網絡帶寬、電力資源。此外,模型訓練還需要算法工程師負責調教。上述成本也以億元爲單位計算。
也就是說,進入AI算力和AI大模型的賽道,前期硬件採購、集羣建設成本就高達數十億元。後期模型訓練、日常運營以及產品研發成本同樣高達數十億元。一家管理諮詢公司技術戰略合夥人對《財經十一人》表示,生成式AI的投資規模高達百億元。
微軟大規模採購GPU組建智算集羣,這在商業邏輯上行得通。2022年微軟在雲計算基礎設施的支出超過250億美元,當年微軟營業利潤828億美元,微軟雲營業利潤就超過400億美元。僅微軟雲利潤大於支出,大規模投資AI算力、大模型業務,這與微軟的財務現狀是相匹配的。
微軟的AI計算有產品、有客戶、有收入,形成了新的增長點。微軟的客戶通常會在雲上租賃數千枚高性能GPU,進行語言模型學習,以此使用自己的啓用生成式 AI。
微軟旗下包括Azure ML和OpenAI。Azure ML有200多家客戶,包括製藥公司拜耳、審計公司畢馬威。Azure ML連續四個季度收入增長超過100%。微軟雲甚至已經形成了“雲-企業軟件-AI計算”三條輪動增長的曲線。其中公有雲Azure營收增速約爲30%-40%,軟件業務營收增速約爲50%-60%,AI算力營收增速超過100%。
中國企業用於雲基礎設施的資本支出有限,投資投資智算集羣、AI大模型需要從有限的預算中分走支出。更大的挑戰是,中短期內不僅無法盈利,還要虧更多錢。
科技公司的資本支出通常被用於採購服務器、建設數據中心、購置園區土地等固定資產。以亞馬遜爲例,2022年資本支出580億美元,超過50%用於投資雲基礎設施。《財經十一人》查閱阿裏、騰訊、百度最近一個財年的資本支出發現,三家數據分別爲533億元、622億元、112億元。
三家均未披露用於投資雲基礎設施的資本支出情況。假設三家企業與亞馬遜相同,50%的資本支出用於投資雲基礎設施,數據分別爲266億元、311億元、56億元。投資數十億元對資本支出寬裕的企業來說可以承受,但對資本支出不足的企業來說,則是負擔。
國內宣佈已建設智算集羣的企業包括阿裏雲、華爲、百度,但智算集羣內GPU芯片數量不詳。2022年,主要雲廠商均把提高毛利、減少虧損作爲戰略重點。在這個階段採購高性能GPU、建設智算集羣需要鉅額投入。不僅會加劇虧損,還需要依賴集團輸血。這將考驗企業管理層的戰略意志。
華爲、阿裏、騰訊、字節跳動、百度都有雲業務,理論上有做出中國版ChatGPT的入場券。
有雲計算技術人士評價,有入場券的幾家企業也會有實際的戰略考量。比如,騰訊、百度、字節跳動有雲也有大量數據,但雲業務在虧損,長期投入的資金儲備、戰略意志存疑。華爲靠自研昇騰芯片建立了大模型技術,但因“斷供”影響無法獲得英偉達的GPU芯片,而且作爲硬件廠商缺少互聯網公司的數據積累。
由於上述限制,能實現AI大模型商業化的企業少之又少。最終同時具備資金儲備、戰略意志和實際能力的企業將聊聊無幾。
目前,沒有一家中國雲廠商像微軟一樣擁有數萬枚A100/H100芯片。中國雲廠商的高性能GPU算力目前暫時不足。一種更務實的觀點是,中國雲廠商即使真的獲取1萬枚英偉達高性能GPU後,也不應該簡單投入到中國版ChatGPT這種大衆的消費場景。
算力資源稀缺時,優先考慮是投入行業市場,爲企業客戶提供服務。一家管理諮詢公司技術戰略合夥人對《財經十一人》表示,ChatGPT只是對話機器人,商業應用場景展示暫時有限。用戶規模越大,成本也就越高,帶來的虧損也會越大。AI算力和大模型如何在細分領域實現商業化,獲取正向現金流纔是關鍵。
中國市場的AI算力、大模型的商業化尚處於起步期。目前國內自動駕駛、金融等領域的少數客戶開始採用AI算力。比如,小鵬汽車目前已經採用阿裏雲的智算中心進行自動駕駛的模型訓練。
有數據中心產品經理對《財經十一人》表示,國內銀行金融客戶反欺詐已經大量運用模型訓練技術,通常只需要租賃使用數百枚性能更低的GPU調教模型。同樣是AI計算和模型訓練,這是更低成本的解決方案。事實上,通用大模型無法解決行業具體問題,無論是金融、汽車、消費等各個領域都需要行業模型。
中國暫時沒有足夠的高性能GPU做大規模AI模型訓練,可以先在細分領域做小模型。AI技術發展之快速超越了人們的認知,對中國公司來說,持續佈局戰略性發力纔是根本之道。