ICC訊 自ChatGPT橫空出世以來(lái),人工智能大模型的熱度持續(xù)攀升。有觀點(diǎn)認(rèn)為,人工智能將引領(lǐng)第四次工業(yè)革命。然而,這一預(yù)言背后隱藏著一個(gè)問(wèn)題:算力成本的高企。舉例來(lái)說(shuō),GPT-3.5訓(xùn)練一次大模型的成本高達(dá)1200萬(wàn)美元,約合8700萬(wàn)人民幣,而ChatGPT 4.0的算力需求則激增了68倍。面對(duì)這一“燒錢”游戲,我們?cè)撊绾螒?yīng)對(duì)?
數(shù)據(jù)中心和智算中心形象圖
國(guó)內(nèi)智算成本高企的背后
首先,讓我們來(lái)探究一下智算的“胃口”。智算的過(guò)程主要分為兩步:推理與訓(xùn)練。推理過(guò)程就像是讓AI模型進(jìn)行“深思熟慮”,而訓(xùn)練過(guò)程則是讓它們“勤學(xué)苦練”。這兩個(gè)階段都對(duì)計(jì)算資源和電力有著巨大的需求。
硬件設(shè)備價(jià)格昂貴:智算離不開高性能計(jì)算機(jī)(HPC)和GPU等硬件設(shè)備。這些高端設(shè)備價(jià)格高昂,而且許多關(guān)鍵設(shè)備還依賴進(jìn)口,這無(wú)疑進(jìn)一步推高了成本。以H100為例,據(jù)美國(guó)金融機(jī)構(gòu)Raymond James稱,H100的成本約為3320美元,但英偉達(dá)對(duì)客戶的批發(fā)銷售價(jià)格介于25000美元至30000美元之間,而同時(shí)受到美國(guó)政策限制,成為稀有資源。
電力成本高企:智算對(duì)計(jì)算資源的需求巨大,而這些資源的運(yùn)行和冷卻都需要消耗大量的電力。在國(guó)內(nèi),電力價(jià)格不菲,尤其是在一些大都市,電費(fèi)無(wú)疑成了智算成本中的“大戶”。北上廣深等核心城市工業(yè)用電價(jià)一直保持高位,用電緊張。
人才和數(shù)據(jù)成本不可小覷:智算領(lǐng)域需要大批高素質(zhì)人才,包括數(shù)據(jù)科學(xué)家、算法工程師和系統(tǒng)架構(gòu)師等,隨著智算需求的增長(zhǎng),這些人才的薪資也水漲船高。而數(shù)據(jù)作為智算的“燃油”,獲取和處理高質(zhì)量的數(shù)據(jù)同樣需要投入大量資源。數(shù)據(jù)的采集、清洗、存儲(chǔ)和傳輸?shù)拳h(huán)節(jié),都會(huì)產(chǎn)生可觀的成本。
據(jù)了解,目前,國(guó)內(nèi)企業(yè)在智算方面投入巨大,以1P算力的成本來(lái)看,硬件設(shè)備的采購(gòu)成本大約為5000萬(wàn)元,電力和維護(hù)成本每年約1000萬(wàn)元,再加上人才和數(shù)據(jù)成本,整體支出堪稱“天文數(shù)字”。
盡管如此,智算的需求仍在不斷增長(zhǎng),特別是在金融、醫(yī)療、制造和交通等領(lǐng)域。為了保持競(jìng)爭(zhēng)力,企業(yè)不得不持續(xù)增加智算的投入,形成了一個(gè)“成本高-需求高-投入高”的惡性循環(huán)。那么,企業(yè)該如何打破這個(gè)循環(huán),有效降低智算成本呢?
破解之道
制冷、供配電節(jié)能技術(shù)的應(yīng)用:液冷技術(shù)通過(guò)使用液體冷卻系統(tǒng),可以有效降低數(shù)據(jù)中心的溫度,提高能效,減少能耗。這有助于降低電力成本;模塊化的電力系統(tǒng)可以更靈活地滿足不同負(fù)載需求,減少能源浪費(fèi),從而降低成本。例如,阿里浸沒(méi)式液冷的應(yīng)用,使PUE值降到1.09,液冷技術(shù)可以顯著降低數(shù)據(jù)中心的能源消耗,實(shí)現(xiàn)綠色智算中心的目標(biāo)。
東數(shù)西算,優(yōu)化資源配置:電力成本低廉的西部地區(qū)利用“東數(shù)西算”戰(zhàn)略,將數(shù)據(jù)計(jì)算任務(wù)從東部轉(zhuǎn)移到資源豐富、電力成本低廉的西部地區(qū)。這有助于降低整體智算成本。同時(shí),8大國(guó)家算力樞紐節(jié)點(diǎn)的20毫秒(ms)時(shí)延圈已覆蓋國(guó)內(nèi)主要城市,5ms時(shí)延圈已實(shí)現(xiàn)樞紐周邊省市覆蓋,這使得數(shù)據(jù)傳輸速度更快、可靠性更高。例如,貴州的智算中心已成為許多企業(yè)的首選地,通過(guò)將計(jì)算任務(wù)轉(zhuǎn)移到此地,企業(yè)可以顯著降低電力成本。
網(wǎng)絡(luò)技術(shù)的進(jìn)步:智算中心內(nèi)部網(wǎng)絡(luò)連接技術(shù)的不斷改進(jìn)可以提高數(shù)據(jù)傳輸速度、可靠性和安全性。例如,騰訊云通過(guò)自研星脈網(wǎng)絡(luò)3.2T通信帶寬和統(tǒng)一的接入層能力,打造了一個(gè)可以支持超過(guò)10萬(wàn)張卡并行計(jì)算,并且能夠兼容多種GPU生態(tài)的算力集群,這有助于優(yōu)化智算中心內(nèi)部的通信,提高整體智算效率。
云計(jì)算,降低基礎(chǔ)設(shè)施成本:云計(jì)算是降低智算成本的有效途徑。企業(yè)可以通過(guò)使用云計(jì)算平臺(tái),減少自建數(shù)據(jù)中心的成本。云計(jì)算平臺(tái)提供按需付費(fèi)模式,企業(yè)可以根據(jù)實(shí)際需求靈活調(diào)整算力資源,避免資源浪費(fèi)。例如,騰訊云和阿里云等國(guó)內(nèi)領(lǐng)先的云計(jì)算服務(wù)商,已經(jīng)為眾多企業(yè)提供了高效、低成本的智算解決方案。
智算成本的高企無(wú)疑是國(guó)內(nèi)智算行業(yè)面臨的一大挑戰(zhàn)。但是,通過(guò)采用節(jié)能技術(shù)、實(shí)施“東數(shù)西算”戰(zhàn)略、提升網(wǎng)絡(luò)技術(shù)和使用云計(jì)算等措施,我們有望有效破解這一難題,降低智算成本。隨著技術(shù)的不斷進(jìn)步和政策的支持,國(guó)內(nèi)智算行業(yè)必將迎來(lái)更加廣闊的發(fā)展前景。