用戶名: 密碼: 驗證碼:

800G MSA白皮書解讀(上)

摘要:3月11號,800G可插拔光模塊MSA工作組發(fā)布了業(yè)內(nèi)第一份800G MSA白皮書,一直沒時間看,今天找出來看看,把要點給大家分享一下。先來談談這個MSA組織吧。

  本文轉(zhuǎn)載自微信公眾號“光通信充電寶”,作者馮振華博士,經(jīng)允許略作刪改。

  3月12號,800G可插拔光模塊MSA工作組發(fā)布了業(yè)內(nèi)第一份800G MSA白皮書,一直沒時間看,今天找出來看看,把要點給大家分享一下。先來談談這個MSA組織吧。

  800G pluggable MSA的發(fā)起者主要是中國和日本公司,包括、光迅、中國電信技術(shù)實驗室、H3C、海思、華為、立訊精密、住友、騰訊和山崎,當然后來陸續(xù)還有其它公司加入。目標是定義面向數(shù)據(jù)中心應用的短距800G傳輸用的可插拔低成本光模塊,包括8X100G與4X200G兩種規(guī)范,傳輸距離包括100m,500m,2km,如下圖所示。

圖1. 800G MSA的研究范疇

       目前業(yè)界有部分觀點認為800G的傳輸需求將在2021年出現(xiàn),但直到2023年市場開始走向成熟。對應的還有個美國通信巨頭博通、思科牽頭成立的QSFP-DD800MSA光模塊工作組,推動QSFP-DD格式的800G光模塊和相關(guān)連接器標準化。

  白皮書的題目叫《用800G光模塊使能下一代云和AI》,很有華為的味道,當然事實上參與單位還包括騰訊、百度等互聯(lián)網(wǎng)大佬,(可惜我司暫不在其中啊)如圖2所示。全書共16頁,分為六章。行文脈絡大概是這樣的:

  1、新應用(云計算,AI應用)催生了更高互連帶寬的需求,業(yè)界需要更高速的光模塊,如800G;

  2、數(shù)據(jù)中心的架構(gòu),不同位置交換機對帶寬的要求;

  3、SR互連場景的需求,8x100G的應對方案技術(shù)分析;

  4、FR互連場景的需要分析,4x200G技術(shù)可行性,重點技術(shù);

  5、應對DR場景的潛在技術(shù)方案;

  6、總結(jié)與展望。

圖2. 800G MSA主要推動單位

  1. 背景介紹-800市場即將到來

  白皮書指出,根據(jù)相關(guān)研究,諸如AR/VR,AI和5G的新應用將會產(chǎn)生越來越多的流量,并且呈指數(shù)增長,這將導致更大帶寬和更多連接的需求,如圖3所示,全球的互連帶寬容量在最近四年仍將快速增長,復合增長速率高達48%。

圖3. 全球互連指數(shù)

  與需求相對應的市場,也反映了這一趨勢。如圖4所示,根據(jù)light counting預測,未來5年數(shù)據(jù)中心市場400G光模塊將快速增長,到2022年左右將出現(xiàn)2x400G或800G的市場。按照Lightcounting 市場研究公司的CEO, Vladimir博士的話說就是,云數(shù)據(jù)中心的運營商在2023~2024年將會部署800G光模塊來應對不斷增長的網(wǎng)絡流量,這其中大多數(shù)的光模塊將是可插拔的,并且也可能看到采用共封裝(co-packaged)的模塊。

圖4. 數(shù)據(jù)中心光模塊市場年銷售額預測

  由于在交換ASIC芯片領(lǐng)域,兩年容量翻一倍的摩爾定律尚未失效,云數(shù)據(jù)中心的架構(gòu)將受到擴容的挑戰(zhàn)。目前商用部署的以太網(wǎng)交換機容量為12.8Tb/s,不過1年后就要面臨被25.6Tb/s的替代。交換機的容量演進路線如圖5所示,這將給高密度光互聯(lián)帶來巨大的壓力,因為不是所有的光電器件都能像CMOS工藝那樣每兩年集成密度增加一倍,這是由于不同的器件,它的設計和制造方法不同所決定的。

圖5. 數(shù)據(jù)中心交換芯片容量演進規(guī)律

  在過去的幾年里,基于NRZ直接探測的100G短距光模塊大出風頭,承載了大部分的云服務快速增長的流量。自從IEEE在2011年3月啟動了400GE相關(guān)標準的研究,在2020年將會迎來400G 光模塊的規(guī)模部署,并且明年的需求更加強勁。圖4反映了這一增長趨勢。值得注意的是,在應用初期,400G模塊主要是用于DR4場景下傳輸,速率4x100G,距離達500m,以及FR4場景,2x200G速率,距離長達2km,并沒有真正用到400GE MAC功能。同時,還注意到IEEE可能在短期之內(nèi)并不會將800GE光口標準化,至少在近兩年內(nèi)是完不成8x100GE或2x400GE高密度互連的800GE標準的,但到那時800G實際需求已經(jīng)出現(xiàn),因此需要業(yè)界來制定規(guī)范,實現(xiàn)不同廠家800G產(chǎn)品互連互通。

  2. 數(shù)據(jù)中心架構(gòu)

  一般來講,面向的應用不同,數(shù)據(jù)中心的結(jié)構(gòu)及流量特征可能不同。比如,面向外部客戶提供XaaS類型服務的數(shù)據(jù)中心中的主要流量更可能是南北向的服務器到客戶端的,這樣的話,數(shù)據(jù)中心規(guī)模在地理上可以更集中。而如果是面向內(nèi)部需求的云計算或存儲為主的數(shù)據(jù)中心中,流量更傾向于東西向服務器與服務器之間流動,這一般需要集中超大型數(shù)據(jù)中心資源。甚至盡管應用場景類似,運營商依然可以根據(jù)自家喜好來選擇基于PSM4或CWDM4的光互連方案。這就導致了數(shù)據(jù)中心架構(gòu)和技術(shù)的多樣性。

  常用的數(shù)據(jù)中心架構(gòu)至少有兩種。 下圖給出了典型的數(shù)據(jù)中心架構(gòu)(3層)及其交換速率演進路標。不過通常的數(shù)據(jù)中心會比圖中的設備更多,架構(gòu)會顯得更加龐大和復雜。每一層之間會考慮3:1左右的收斂比,如一個Spine交換機下面可能會連接3個Leaf交換機,以此類推。在Spine層之上需要通過ZR類型的相干光互連方案來實現(xiàn)與其它數(shù)據(jù)中心的互聯(lián)(也就是DCI場景)。800G接口速率出現(xiàn)的標志是,當sever和TOR交換機之間的速率達到200G的時候,TOR到Leaf之間以及Spine層就不得不采用PSM4 4x200G的扇出結(jié)構(gòu)了。

圖6. 常見3層數(shù)據(jù)中心架構(gòu)及光互連速率演進

  這里的TOR,Leaf,Spine交換機其實就分別對應著我們在網(wǎng)絡中經(jīng)常說的接入層,匯聚層和核心層了。通常對于典型的數(shù)據(jù)中心網(wǎng)絡(DCN),如果部署200G帶寬的服務器,就得具備800G的網(wǎng)絡連接帶寬,但也可以根據(jù)數(shù)據(jù)中心建設成本預算,在數(shù)據(jù)中心提供服務的能力(即帶寬、傳輸距離等資源)上做出一些折中考慮。如表1,給出了數(shù)據(jù)中心網(wǎng)絡中不同層級對帶寬和傳輸距離的要求,并給出了推薦的光模塊封裝尺寸要求。

表1. DCN不同層對帶寬和傳輸距離的要求

  考慮到最近興起的AI應用大量的計算需求,在一些面向AI應用的超級計算機集群或AI數(shù)據(jù)中心中,人們通常會采用兩層的交換架構(gòu),如圖7所示。這是因為考慮到AI計算的特征,不需要層與層之間的流量匯聚,每個服務器的流量已經(jīng)非常大,因而直接對應一個交換機接口,獨享帶寬資源。可見,這種AI或超算數(shù)據(jù)中心網(wǎng)絡中,流量特性與常規(guī)的數(shù)據(jù)中心不同,它主要是大顆粒流量業(yè)務,不需要頻繁地交換。

圖7. AI/高性能計算數(shù)據(jù)中心網(wǎng)絡架構(gòu)及速率演示

  這種二層數(shù)據(jù)中心網(wǎng)絡,由于沒有層之間的流量匯聚需求,如果部署400G的服務器,才需要800G的網(wǎng)絡互連帶寬。相比于傳統(tǒng)的三層交換數(shù)據(jù)中心網(wǎng)絡,這種二層架構(gòu)更方便快速部署,同時也具有更低的延時,非常適用于未來的AI或超算 DCN。表2給出這種DCN具體技術(shù)指標。

表2. AI或高性能計算數(shù)據(jù)中心網(wǎng)絡需求

  不過,有些小公司或小型云數(shù)據(jù)中心網(wǎng)絡中,Leaf與服務器之間的傳輸速率可能并不需要400G這么大的帶寬,這就需要在具體設計的時候考慮實際面臨的應用場景與成本之間的關(guān)系。附帶談一談數(shù)據(jù)中心建設應該注意的問題吧。在數(shù)據(jù)中心解決方案中,最應該關(guān)注兩個因素是可擴展性和成本。當設計一個數(shù)據(jù)中心時,成本控制和性能的建設標準不能過高或過低。如果用戶過度建設,那么將會浪費資源,雖然這些資源可以用來拓展更多的業(yè)務。但是閑置的資源能力是很昂貴的,而且當真正需要使用它的時候,這個能力可能成為被淘汰的技術(shù)。例如,如果用戶建立一個數(shù)據(jù)中心,預期生命周期為10年,并已經(jīng)建立了額外容量,以適應未來的增長,但這個能力可能在5年后過時。屆時電能消耗、性能和其他功能的進步,可以使數(shù)據(jù)中心運營和維護處于明顯的劣勢。

  而如果數(shù)據(jù)中心建設標準較低時也會面臨挑戰(zhàn),甚至可能更加昂貴。如果用戶的設計規(guī)則能力低于計劃的要求,在擴建和升級數(shù)據(jù)中心時,屆時將會有一個巨大的資本開支。

  正是由于上述的可能存在的數(shù)據(jù)中心建設過度或不足的問題,因此數(shù)據(jù)中心的快速擴展、運營便捷以及成本這些重大問題是許多企業(yè)優(yōu)先考慮的事項。企業(yè)要采用最靈活的解決方案,通常會選擇數(shù)據(jù)中心托管的模式。數(shù)據(jù)中心托管運營商允許用戶“按需付費,漸進擴展”。用戶可以根據(jù)需要擴展或減少租用空間,只需支付相關(guān)的使用費用就可,這樣用戶就沒有閑置或不足的能力,也就沒有了所有設施相關(guān)的問題,并能最大限度地提高IT投資的價值。

      不過這對于一些互聯(lián)網(wǎng)大佬都不是什么問題,他們更看重的是數(shù)據(jù)本身的價值,因而不惜代價重金投入也要自建數(shù)據(jù)中心及自已提供云服務,把關(guān)鍵資產(chǎn)掌握在自己手里,比如阿里,騰訊,百度,F(xiàn)acebook, google,甚至它們中有的公司還專門有網(wǎng)絡基礎(chǔ)設施相關(guān)研究部門,研究各種低成本高速光互連方案,甚至連光模塊都要自研。目的無非就是建設更好的數(shù)據(jù)中心網(wǎng)絡,提供更快速多樣的服務,吸引更多的用戶。

  最后,還需要解釋一下為什么最近幾年數(shù)據(jù)中心網(wǎng)絡如此火爆。這還得從視頻說起,下圖為Cisco最新的VNI流量預測,指出近幾年視頻流量在網(wǎng)絡中占據(jù)越來越大的比例,到2022年預計視頻相關(guān)的流量將占據(jù)整個互聯(lián)網(wǎng)流量的80%以上。這一點相信大家都不會感到吃驚,因為我們自己每天都是視頻流量的接收者和生產(chǎn)者。伴隨著視頻業(yè)務不斷興起的是承載網(wǎng)絡架構(gòu)的變化和流量分布的轉(zhuǎn)變。

       隨著內(nèi)容分發(fā)網(wǎng)絡(CDN)的興建和數(shù)據(jù)中心網(wǎng)絡(DCN)的下沉,內(nèi)容,如視頻,文件等,這些網(wǎng)絡資源被緩存在離用戶更近的地方,以提供更低的延時,更快的緩沖速率。這樣大部分流量將不再需要經(jīng)過長距離的骨干網(wǎng)傳輸,而是就近被終結(jié)在中短距的城域網(wǎng)或數(shù)據(jù)中心網(wǎng)絡范圍之內(nèi)。早在2017年就有報告指出中短距的城域網(wǎng)流量已經(jīng)超過長途骨干網(wǎng)流量了。而數(shù)據(jù)中心,特別是云數(shù)據(jù)中心互聯(lián)(DCI)則是城域網(wǎng)絡的最典型應用。因此,近些年關(guān)于它的話題火熱也就不奇怪了。

圖8. Cisco VNI預測流量變化趨勢

內(nèi)容來自:光通信充電寶
本文地址:http://m.huaquanjd.cn//Site/CN/News/2020/04/03/20200403030637299488.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字: 800G
文章標題:800G MSA白皮書解讀(上)
【加入收藏夾】  【推薦給好友】 
免責聲明:凡本網(wǎng)注明“訊石光通訊咨詢網(wǎng)”的所有作品,版權(quán)均屬于光通訊咨詢網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。 已經(jīng)本網(wǎng)授權(quán)使用作品的,應在授權(quán)范圍內(nèi)使用,反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。
※我們誠邀媒體同行合作! 聯(lián)系方式:訊石光通訊咨詢網(wǎng)新聞中心 電話:0755-82960080-168   Right