ICC訊 自ChatGPT橫空出世以來,人工智能大模型的熱度持續(xù)攀升。有觀點認為,人工智能將引領第四次工業(yè)革命。然而,這一預言背后隱藏著一個問題:算力成本的高企。舉例來說,GPT-3.5訓練一次大模型的成本高達1200萬美元,約合8700萬人民幣,而ChatGPT 4.0的算力需求則激增了68倍。面對這一“燒錢”游戲,我們該如何應對?
數據中心和智算中心形象圖
國內智算成本高企的背后
首先,讓我們來探究一下智算的“胃口”。智算的過程主要分為兩步:推理與訓練。推理過程就像是讓AI模型進行“深思熟慮”,而訓練過程則是讓它們“勤學苦練”。這兩個階段都對計算資源和電力有著巨大的需求。
硬件設備價格昂貴:智算離不開高性能計算機(HPC)和GPU等硬件設備。這些高端設備價格高昂,而且許多關鍵設備還依賴進口,這無疑進一步推高了成本。以H100為例,據美國金融機構Raymond James稱,H100的成本約為3320美元,但英偉達對客戶的批發(fā)銷售價格介于25000美元至30000美元之間,而同時受到美國政策限制,成為稀有資源。
電力成本高企:智算對計算資源的需求巨大,而這些資源的運行和冷卻都需要消耗大量的電力。在國內,電力價格不菲,尤其是在一些大都市,電費無疑成了智算成本中的“大戶”。北上廣深等核心城市工業(yè)用電價一直保持高位,用電緊張。
人才和數據成本不可小覷:智算領域需要大批高素質人才,包括數據科學家、算法工程師和系統架構師等,隨著智算需求的增長,這些人才的薪資也水漲船高。而數據作為智算的“燃油”,獲取和處理高質量的數據同樣需要投入大量資源。數據的采集、清洗、存儲和傳輸等環(huán)節(jié),都會產生可觀的成本。
據了解,目前,國內企業(yè)在智算方面投入巨大,以1P算力的成本來看,硬件設備的采購成本大約為5000萬元,電力和維護成本每年約1000萬元,再加上人才和數據成本,整體支出堪稱“天文數字”。
盡管如此,智算的需求仍在不斷增長,特別是在金融、醫(yī)療、制造和交通等領域。為了保持競爭力,企業(yè)不得不持續(xù)增加智算的投入,形成了一個“成本高-需求高-投入高”的惡性循環(huán)。那么,企業(yè)該如何打破這個循環(huán),有效降低智算成本呢?
破解之道
制冷、供配電節(jié)能技術的應用:液冷技術通過使用液體冷卻系統,可以有效降低數據中心的溫度,提高能效,減少能耗。這有助于降低電力成本;模塊化的電力系統可以更靈活地滿足不同負載需求,減少能源浪費,從而降低成本。例如,阿里浸沒式液冷的應用,使PUE值降到1.09,液冷技術可以顯著降低數據中心的能源消耗,實現綠色智算中心的目標。
東數西算,優(yōu)化資源配置:電力成本低廉的西部地區(qū)利用“東數西算”戰(zhàn)略,將數據計算任務從東部轉移到資源豐富、電力成本低廉的西部地區(qū)。這有助于降低整體智算成本。同時,8大國家算力樞紐節(jié)點的20毫秒(ms)時延圈已覆蓋國內主要城市,5ms時延圈已實現樞紐周邊省市覆蓋,這使得數據傳輸速度更快、可靠性更高。例如,貴州的智算中心已成為許多企業(yè)的首選地,通過將計算任務轉移到此地,企業(yè)可以顯著降低電力成本。
網絡技術的進步:智算中心內部網絡連接技術的不斷改進可以提高數據傳輸速度、可靠性和安全性。例如,騰訊云通過自研星脈網絡3.2T通信帶寬和統一的接入層能力,打造了一個可以支持超過10萬張卡并行計算,并且能夠兼容多種GPU生態(tài)的算力集群,這有助于優(yōu)化智算中心內部的通信,提高整體智算效率。
云計算,降低基礎設施成本:云計算是降低智算成本的有效途徑。企業(yè)可以通過使用云計算平臺,減少自建數據中心的成本。云計算平臺提供按需付費模式,企業(yè)可以根據實際需求靈活調整算力資源,避免資源浪費。例如,騰訊云和阿里云等國內領先的云計算服務商,已經為眾多企業(yè)提供了高效、低成本的智算解決方案。
智算成本的高企無疑是國內智算行業(yè)面臨的一大挑戰(zhàn)。但是,通過采用節(jié)能技術、實施“東數西算”戰(zhàn)略、提升網絡技術和使用云計算等措施,我們有望有效破解這一難題,降低智算成本。隨著技術的不斷進步和政策的支持,國內智算行業(yè)必將迎來更加廣闊的發(fā)展前景。