隨著5G、云計(jì)算、AIGC大模型等新技術(shù)蓬勃興起,數(shù)據(jù)中心作為我國數(shù)字經(jīng)濟(jì)飛速發(fā)展的基石和算力底座,兼具高能耗屬性,肩負(fù)著節(jié)能減碳的社會(huì)責(zé)任及適應(yīng)算力需求的持續(xù)增長。
國家工信部數(shù)據(jù)顯示,截至2022年底中國算力總規(guī)模超過150EFlops(每秒浮點(diǎn)運(yùn)算次數(shù)),數(shù)據(jù)中心機(jī)架總規(guī)模超過650萬。根據(jù)Uptime Institute的數(shù)據(jù),截至2022年的全球中大型數(shù)據(jù)中心平均PUE(Power Usage Effectiveness,電源利用效率)為1.55,其中溫控制冷系統(tǒng)能耗占比為25%以上。
數(shù)據(jù)中心節(jié)能審查及能耗監(jiān)察趨向嚴(yán)格化
我國數(shù)據(jù)中心市場供需地域分布不均,東部數(shù)據(jù)算力供不應(yīng)求,西部地區(qū)算力供大于求,數(shù)據(jù)中心布局向西轉(zhuǎn)移,同時(shí)數(shù)據(jù)中心綠色節(jié)能發(fā)展已成趨勢。“雙碳”和“東數(shù)西算”的雙重政策下,全國新建大型、超大型數(shù)據(jù)中心平均PUE降到1.3以下,集群內(nèi)PUE要求東部≤1.25、西部≤1.2,先進(jìn)示范工程≤1.15。國家強(qiáng)制標(biāo)準(zhǔn)GB 40879-2021《數(shù)據(jù)中心能效限定值及能效等級(jí)》正式發(fā)布,數(shù)據(jù)中心能效等級(jí)指標(biāo)分別為1級(jí)(PUE≤1.2)、2級(jí)(PUE≤1.3)和3級(jí)(PUE≤1.5)。
與此同時(shí),一線發(fā)達(dá)城市反而實(shí)行電費(fèi)獎(jiǎng)懲措施,對(duì)低效數(shù)據(jù)中心加強(qiáng)升級(jí)改造,力爭PUE不高于1.4,推進(jìn)淘汰數(shù)據(jù)中心關(guān)停并轉(zhuǎn)。
降本增效,傳統(tǒng)人工調(diào)優(yōu)需要進(jìn)一步解放
數(shù)據(jù)中心PUE是數(shù)據(jù)中心總耗電量(PDC, Power of Data Center)與IT設(shè)備耗電量(PIT, Power of IT)的比值,比值越趨近于1,表示一個(gè)數(shù)據(jù)中心的綠色化程度越高。數(shù)據(jù)中心總耗電量包含IT設(shè)備耗電量、溫控制冷系統(tǒng)設(shè)備耗電量、供配電設(shè)備耗電量及輔助系統(tǒng)的耗能。其中,溫控制冷系統(tǒng)作為數(shù)據(jù)中心能耗最大的輔助設(shè)備,電費(fèi)支出成本在運(yùn)營運(yùn)行期間占30%~40%。
基于冷凍水系統(tǒng)的傳統(tǒng)BA群控系統(tǒng),依賴專家經(jīng)驗(yàn)和人工手動(dòng)操作調(diào)優(yōu),根據(jù)變?nèi)萘康睦淞啃枨蠓治龊晚憫?yīng)控制以及室外溫度變化,實(shí)現(xiàn)基于供需平衡的能效優(yōu)化。
傳統(tǒng)BA群控系統(tǒng)在運(yùn)維階段能效優(yōu)化難度大,一方面制冷系統(tǒng)原理復(fù)雜,制冷設(shè)備種類及數(shù)量多,不同設(shè)備控制變量龐大且存在響應(yīng)延遲,單純依靠運(yùn)維人員的專家經(jīng)驗(yàn)依據(jù)室外的環(huán)境溫度和實(shí)時(shí)IT功率來動(dòng)態(tài)調(diào)節(jié)響應(yīng)已經(jīng)無法滿足能耗進(jìn)一步降低的要求。另一方面,由于制冷系統(tǒng)內(nèi)部和外部環(huán)境的動(dòng)態(tài)特性(考慮天氣),一個(gè)系統(tǒng)運(yùn)行的定制模型和規(guī)則并不能保證另一個(gè)系統(tǒng)的適用,且每個(gè)制冷設(shè)備的實(shí)際運(yùn)行效率也存在差異。傳統(tǒng)BA群控系統(tǒng)的人工調(diào)節(jié)參數(shù)少,調(diào)節(jié)慢,效果不明顯,實(shí)時(shí)性低。
AI加持使能,更深層次的軟實(shí)力
數(shù)據(jù)中心開始應(yīng)用多種節(jié)能創(chuàng)新技術(shù),推進(jìn)數(shù)據(jù)中心綠色節(jié)能,降低單位運(yùn)行成本。比如,將傳統(tǒng)低溫冷凍水改為采用中高溫冷凍水,充分引入間接蒸發(fā)冷卻設(shè)備代替?zhèn)鹘y(tǒng)冷凍水,服務(wù)器液冷技術(shù)更是使數(shù)據(jù)中心PUE降低到了極致。同時(shí),隨著大數(shù)據(jù)分析及AI技術(shù)的成熟應(yīng)用,基于服務(wù)器級(jí)負(fù)載響應(yīng)和溫度控制的iCooling@AI算法軟件調(diào)優(yōu)加持,使能傳統(tǒng)冷機(jī)群控系統(tǒng)和末端空調(diào)群控系統(tǒng)能夠?qū)崟r(shí)調(diào)節(jié),更頻繁更高效的尋找最佳PUE,助力運(yùn)行PUE接近設(shè)計(jì)PUE。
相比硬件設(shè)備的創(chuàng)新,華為iCooling軟件調(diào)優(yōu)節(jié)省投資,易交付,PUE節(jié)能見效快,投資回收期普遍<2年。
華為iCooling首先通過融合深度學(xué)習(xí)算法+能源大模型,利用華為自有數(shù)據(jù)中心大批量高質(zhì)量的運(yùn)行數(shù)據(jù),基于昇騰底座的超大規(guī)模模型建模及訓(xùn)練調(diào)優(yōu)的能力,根據(jù)系統(tǒng)運(yùn)行的歷史數(shù)據(jù)積累,結(jié)合專家知識(shí),利用DNN方法,擬合PUE、制冷能耗、設(shè)備單機(jī)效率的數(shù)學(xué)預(yù)測模型。
基于PUE的預(yù)測模型,獲取實(shí)際場景與PUE敏感的特征值,利用模型中的特征如大氣條件、IT負(fù)載等參數(shù)進(jìn)行負(fù)荷的數(shù)據(jù)建立本地模型。整個(gè)過程中,iCooling通過海量數(shù)據(jù)采集、數(shù)據(jù)處理(脫敏、去雜、歸一等)、PUE模型訓(xùn)練&推理、最佳PUE決策建議下發(fā)給BA冷機(jī)群控系統(tǒng)和末端空調(diào)群控系統(tǒng),從而實(shí)時(shí)驅(qū)動(dòng)底層設(shè)備運(yùn)行狀態(tài)調(diào)整,周而復(fù)始的保持最佳PUE狀態(tài)。另外,在負(fù)載率變化≥5%或室外溫差≥3℃,iCooling重新構(gòu)建PUE訓(xùn)練模型,自動(dòng)尋優(yōu)。
華為iCooling從數(shù)據(jù)安全、控制安全、運(yùn)行安全三個(gè)層次解決實(shí)際應(yīng)用問題,基于聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)算法,本地部署保障AI模型訓(xùn)練數(shù)據(jù)無需出局,同時(shí)具備雙層邏輯控制的AI優(yōu)化控制主動(dòng)、被動(dòng)退出機(jī)制,滿足運(yùn)維SLA要求,調(diào)測更省心。目前華為iCooling已在金融、運(yùn)營商、大企業(yè)和智算中心行業(yè)應(yīng)用60+案例,使能運(yùn)行PUE降幅可達(dá):水冷冷凍水8%~15%、風(fēng)冷冷凍水5~8%、華為EHU 3%~5%。華為iCooling幫助數(shù)據(jù)中心運(yùn)行PUE接近設(shè)計(jì)PUE的同時(shí),也有利于客戶申報(bào)零碳、綠色數(shù)據(jù)中心優(yōu)秀案例。