芯片間以及芯片與內(nèi)存間通信的帶寬正成為現(xiàn)代計(jì)算系統(tǒng)的瓶頸。因此,提高系統(tǒng)組件間的吞吐量是重中之重。盡管為提高互連系統(tǒng)效率和開發(fā)更加復(fù)雜的通信協(xié)議做了許多工作,但對(duì)更高吞吐量的需求必然伴隨著散熱成本,因?yàn)檫@些模塊的功耗會(huì)增加。人工智能 (AI) 的最新進(jìn)展正在推動(dòng)這些迅速變化,包括從 112 Gbps-PAM4 過渡到 224 Gbps-PAM4 以及采用下一代 1.6T 模塊。
數(shù)據(jù)中心熱管理現(xiàn)狀
數(shù)據(jù)中心電子系統(tǒng)的熱管理目標(biāo)是,在指定負(fù)載和條件下將組件溫度保持在安全運(yùn)行范圍內(nèi)。這些溫度范圍是根據(jù)溫度與使用壽命的關(guān)系及其在現(xiàn)場(chǎng)的目標(biāo)使用壽命確定的。其他運(yùn)行方面(如電壓)和環(huán)境因素(如濕度或環(huán)境溫度波動(dòng))也會(huì)影響數(shù)據(jù)中心環(huán)境中零部件的使用壽命。
有效的熱管理策略應(yīng)考慮多種因素,包括功耗、功率密度及其空間分布,以及目標(biāo)系統(tǒng)負(fù)載和運(yùn)行條件的時(shí)間和瞬態(tài)特性。
保持更低的工作溫度可提高組件可靠性,延長(zhǎng)使用壽命。更低的工作溫度還能降低系統(tǒng)的整體功耗。要確定系統(tǒng)的最佳工作點(diǎn)并保持能率比,必須在散熱方案更高的功率要求與電子元件總體功耗的降低之間取得平衡。
風(fēng)冷的最新進(jìn)展
多年來,空氣一直是電子系統(tǒng)的首選冷卻媒介。與液冷相比,風(fēng)冷因其在低壓工作時(shí)的介電性質(zhì)、大多為惰性、易于應(yīng)用和較低的實(shí)施成本而備受青睞。近幾十年來,支持向電子系統(tǒng)輸送冷空氣和從機(jī)架收集熱空氣的基礎(chǔ)設(shè)施得到了很好的優(yōu)化。
在風(fēng)冷系統(tǒng)中,光模塊正上方的氣流和模塊散熱器的策略性熱優(yōu)化——無論是平頂模塊 (QSFP-DD) 頂部的鰭片式散熱器還是集成散熱器 (OSFP)——都能確保高效散熱。在使用鰭片式散熱器的情況下,必須確保散熱器與模塊外殼之間良好的熱接觸,為熱量創(chuàng)造一個(gè)低熱阻的路徑。
要做到這一點(diǎn),首先要優(yōu)化鰭片散熱器。過去,行業(yè)專注于將鋁擠壓散熱器更換為密度更高的拉鏈鰭片式/疊片式散熱器。然而,在未來更高功率的模塊中,可插拔模塊與鰭片式散熱器之間的熱阻將成為一個(gè)新的瓶頸。因此,必須特別要注意改善降低熱阻——例如在接觸面使用熱界面材料 (TIM)。
這些散熱器的設(shè)計(jì)涉及多個(gè)考慮因素,包括機(jī)械系統(tǒng)要求以及與系統(tǒng)氣流和壓力動(dòng)態(tài)相關(guān)的熱性能?,F(xiàn)代散熱器必須針對(duì)這些客戶特定的邊界條件和系統(tǒng)環(huán)境進(jìn)行優(yōu)化——適合所有應(yīng)用的標(biāo)準(zhǔn)散熱器選項(xiàng)已不復(fù)存在。
除了優(yōu)化散熱器之外,最大程度降低從散熱器到模塊的下游氣路的風(fēng)阻也很重要。這包括在保持電磁干擾 (EMI) 屏蔽要求的前提下,對(duì)機(jī)架和連接器進(jìn)行熱優(yōu)化,在上面增加通風(fēng)孔從而可以通過最大程度降低風(fēng)阻。
對(duì)于堆疊式機(jī)架配置,需要采用協(xié)同設(shè)計(jì)的方法,為將要放置在機(jī)架上的模塊提供優(yōu)化的散熱器設(shè)計(jì)。在協(xié)同設(shè)計(jì)中,需要模擬冷卻劑流,同時(shí)考慮刀片上的所有組件。必須進(jìn)行全面的系統(tǒng)級(jí)分析,以確保所有模塊都能獲得足夠的氣流,并最大程度減少模塊之間的溫差。
液冷的崛起
盡管風(fēng)冷很有效,但其冷卻能力也存在固有的限制。ASHRAE 的《液冷在主流數(shù)據(jù)中心的興起和擴(kuò)張》(2021 年)建議,風(fēng)冷系統(tǒng)每個(gè)芯片的功率限制約為 400 W,而開放計(jì)算項(xiàng)目 (OCP) 的《開放加速器模塊 (OAM) 設(shè)計(jì)規(guī)范修訂版 2.0》(2023 年)中提到,風(fēng)冷系統(tǒng)的功率限制約為 600 W。不過,高端處理器最近的發(fā)展趨勢(shì)超過了這些限制。處理器這么高的功率需要使用液冷,這種冷卻方式可為主處理器提供更加高效、緊湊的解決方案。
這一趨勢(shì)為系統(tǒng)其他部分(如可插拔光模塊,其功率通常比主處理器低)的冷卻帶來了一個(gè)有意思的難題。這些組件仍然需要某種方式的主動(dòng)冷卻。由于 1.6 T 光學(xué)元件的功率水平預(yù)計(jì)將高達(dá) 35 W,液冷成為了下一代可插拔光器件中的一個(gè)越來越受關(guān)注和討論的領(lǐng)域。
在風(fēng)冷系統(tǒng)中,這些外圍組件將受益于為系統(tǒng)提供的冷卻氣流,這意味著主系統(tǒng)風(fēng)扇可以提供足夠的氣流。在某些液冷系統(tǒng)中,系統(tǒng)是基于混合方法設(shè)計(jì)的,大功率組件 (ASIC/GPU) 采用液冷方法,而系統(tǒng)的其他部分則采用風(fēng)冷方法。這些系統(tǒng)需要在機(jī)架或刀片上安裝風(fēng)扇,以提供足夠的氣流。
另一種冷卻可插拔光模塊的方法是采用冷板系統(tǒng)來有效管理多個(gè)光模塊的溫度。這些系統(tǒng)利用冷板上的獨(dú)立浮動(dòng)基座,確保與每個(gè)模塊(插在可能有不同公差疊加的端口上)都有足夠低的熱阻。使用該方法部署系統(tǒng)時(shí),會(huì)在設(shè)計(jì)和制造上遇到重大難題,包括:
· 確保模塊之間均勻冷卻以及冷板中均勻的流量分布
· 平衡不同系統(tǒng)組件之間的壓降
· 控制制造復(fù)雜性和增加的裝配成本
· 在制造階段進(jìn)行更加復(fù)雜的測(cè)試,以確保最佳性能和可靠性
· 盡管存在這些難題,但它們并非無法克服。事實(shí)上,Molex莫仕已經(jīng)在實(shí)際應(yīng)用中解決了這些難題。
光模塊冷卻的未來
對(duì)于下一代光模塊而言,一個(gè)非常重要的優(yōu)先考慮因素是熱流路徑的端到端優(yōu)化,可以最大程度減少從組件結(jié)點(diǎn)到冷卻媒介(空氣或液體)的阻力。這將包括:
· 優(yōu)化單個(gè)組件的電子封裝
· 確保在印刷電路板上和模塊內(nèi)部放置組件時(shí)考慮溫度影響
· 打造從組件到模塊表面的低熱阻路徑(例如,使用高熱導(dǎo)率墊片,使用 TIM 來改善接觸阻力,使用更高熱導(dǎo)率的模塊外殼)
· 改善模塊蓋的熱擴(kuò)散,避免出現(xiàn)局部熱點(diǎn),這會(huì)導(dǎo)致降低冷卻效率(例如,在模塊中使用銅塊和熱管)
· 同樣重要的是這些模塊熱特性分析方法的改變。傳統(tǒng)的模塊特性分析方法(使用普通的外殼溫度限制)會(huì)留下余量——對(duì)于更大功率的模塊來說,余量非常小。
下一代冷卻系統(tǒng)的發(fā)展之路
· 對(duì)數(shù)據(jù)中心里大功率光收發(fā)器進(jìn)行更好冷卻的需求從未如此迫切。在網(wǎng)絡(luò)難以滿足飛漲的帶寬需求時(shí),設(shè)計(jì)人員無法承擔(dān)讓這些不可或缺的組件過熱的后果。
· 我們已經(jīng)到了提高系統(tǒng)冷卻能力的成敗關(guān)頭,這推動(dòng)了對(duì)性能驅(qū)動(dòng)的熱創(chuàng)新的要求。伴隨著數(shù)據(jù)中心不斷努力應(yīng)對(duì)日益嚴(yán)峻的散熱難題,Molex莫仕始終走在創(chuàng)新的最前沿。
作為 OCP 及其冷卻環(huán)境項(xiàng)目的活躍參與者,Molex莫仕正在積極開發(fā)下一代冷卻技術(shù),以滿足數(shù)據(jù)中心日益增長(zhǎng)的熱管理需求。相信 Molex莫仕能夠?yàn)閿?shù)據(jù)中心架構(gòu)提供強(qiáng)大的動(dòng)態(tài)解決方案,這些方案既具有韌性,又面向未來。