久久zyz资源站无码中文动漫 ,99精品国产在热久久婷婷 ,欧美AAAAAA级午夜福利视

ICC訊 近日，在美國(guó)加利福尼亞舉行的Hot CHIPS會(huì)議上，英特爾展示了一款代號(hào)為“Piuma”的具有1TB/s硅光子互連的8核528線程處理器，旨在用于處理最大的分析工作負(fù)載。

7nm工藝8核心528線程

據(jù)介紹，Piuma芯片基于臺(tái)積電7nm FinFET工藝制造(如果你不知道的話，英特爾在臺(tái)積電制造了很多非CPU產(chǎn)品，而且已經(jīng)有很多年了)，它有八個(gè)核，每個(gè)核具有66個(gè)線程，總共528線程，晶體管數(shù)量超過(guò)276億個(gè)。

△芯片中心的一個(gè)重要部分專(zhuān)門(mén)用于路由器，這些路由器控制從共封裝光學(xué)器件流入的數(shù)據(jù)流

需要指出的是，該芯片并不是基于x86架構(gòu)的，它是專(zhuān)門(mén)為DARPA(美國(guó)國(guó)防高級(jí)研究計(jì)劃局的分層身份驗(yàn)證漏洞(HIVE)程序使用自定義RISC架構(gòu)構(gòu)建的。美國(guó)的這項(xiàng)軍事舉措旨在開(kāi)發(fā)一種圖形分析處理器，該處理器能夠以比傳統(tǒng)計(jì)算架構(gòu)快100倍的速度處理流式數(shù)據(jù)，同時(shí)功耗更低。雖然這對(duì)DARPA來(lái)說(shuō)可能是一件奇怪的事情，但該政府機(jī)構(gòu)認(rèn)為大規(guī)模圖形分析在基礎(chǔ)設(shè)施監(jiān)控和網(wǎng)絡(luò)安全方面有應(yīng)用。

英特爾首席工程師Jason Howard在他的Hot Chips演示中指出的應(yīng)用例子是社交網(wǎng)絡(luò)，它可以運(yùn)行圖形分析工作負(fù)載來(lái)了解成員之間的聯(lián)系。

這項(xiàng)創(chuàng)建大規(guī)模并行圖形處理和互連芯片項(xiàng)目時(shí)間起源于2017年，英特爾被選為制造 HIVE 處理器的供應(yīng)商，麻省理工學(xué)院的林肯實(shí)驗(yàn)室和亞馬遜網(wǎng)絡(luò)服務(wù)被選為基于此類(lèi)處理器的系統(tǒng)創(chuàng)建和托管萬(wàn)億邊圖形數(shù)據(jù)集以供分析。

雖然英特爾曾在2019和2022年對(duì)于“Piuma”處理器進(jìn)行過(guò)一些介紹，但是在本周的Hot CHIPS大會(huì)上，英特爾首席工程師Jason Howard進(jìn)一步詳解了Piuma處理器和系統(tǒng)，其中包括英特爾與 Ayar Labs 合作創(chuàng)建的光子互連技術(shù)，用于將大量處理器連接在一起。

在2012年，超級(jí)計(jì)算機(jī)制造商Cary推出的XMT系列就是一個(gè)巨大的共享內(nèi)存線程的怪物，非常適合圖形分析，它擁有多達(dá) 8,192 個(gè)處理器，每個(gè)處理器有 128 個(gè)以 500 MHz 運(yùn)行的線程，插入 Opteron 8000 使用的 AMD Rev F 插槽系列 X86 CPU 全部與定制的“SeaStar2+”環(huán)面互連捆綁在一起，該互連提供 105 萬(wàn)個(gè)線程和 512 TB 共享主內(nèi)存，供圖形發(fā)揮作用。就 Linux 系統(tǒng)而言，這看起來(lái)就像一個(gè)單一的 CPU。

The nextplatform認(rèn)為，“Piuma”處理器就像是再次將舊的東西變成新的，雖然處理器本身比較普通，但其使用的硅光子互連技術(shù)更好，想必性?xún)r(jià)比也是如此。也許英特爾會(huì)將這個(gè)Piuma系統(tǒng)商業(yè)化，并真正改變一切。

全新的內(nèi)存架構(gòu)設(shè)計(jì)

Jason Howard表示，當(dāng)英特爾開(kāi)始設(shè)計(jì)“Piuma”處理器時(shí)，從事 HIVE 項(xiàng)目的研究人員意識(shí)到圖形處理不僅是大規(guī)模并行，這意味著可能有一些方法可以利用這種并行性來(lái)提高圖形分析的性能。當(dāng)在標(biāo)準(zhǔn) X86 處理器上運(yùn)行時(shí)，圖形數(shù)據(jù)庫(kù)的緩存行利用率非常低，在圖形數(shù)據(jù)庫(kù)運(yùn)行的 80% 以上的時(shí)間里，72 字節(jié)緩存行中只有 8 字節(jié)或更少被使用。指令流中的大量分支給 CPU 管道帶來(lái)了壓力，而內(nèi)存子系統(tǒng)也因依賴(lài)負(fù)載的長(zhǎng)鏈而承受了很大的壓力，這對(duì) CPU 上的緩存造成了很大的影響。

Piuma芯片有四個(gè)管道，每個(gè)管道有 16 個(gè)線程(稱(chēng)為 MTP)，還有兩個(gè)管道，每個(gè)管道有一個(gè)線程(稱(chēng)為 STP)，其性能是MTP中一個(gè)線程的8倍。處理核心基于定制的RISC指令集，但是并未明確具體情況。

Jason Howard在他的Hot Chips演示中解釋道：“所有的管道都使用自定義ISA，它類(lèi)似于RISC，是一個(gè)固定的長(zhǎng)度?！? “每個(gè)管道都有32個(gè)可用的物理寄存器。我們這樣做是為了方便您在任何管道之間遷移計(jì)算線程。因此，也許我開(kāi)始在一個(gè)多線程管道上執(zhí)行，如果我發(fā)現(xiàn)它花費(fèi)了太長(zhǎng)時(shí)間，或者可能是最后一個(gè)可用的線程，我可以快速遷移到我的單線程管道上，以獲得更好的性能。

STP 和 MTP 單元通過(guò)交叉開(kāi)關(guān)連接，并具有組合的 192 KB L1 指令和 L1 數(shù)據(jù)緩存，并且它們鏈接到比 L2 緩存更簡(jiǎn)單的共享 4 MB 暫存器 SRAM 存儲(chǔ)器。

每個(gè)Piuma芯片都有 8 個(gè)活動(dòng)核心，每個(gè)核心都有自己定制的 DDR5 內(nèi)存控制器，該控制器具有 8 字節(jié)訪問(wèn)粒度，而不是像普通 DDR5 內(nèi)存控制器那樣具有 72 字節(jié)訪問(wèn)粒度。每個(gè)插槽都有 32 GB 的定制 DDR5-4400 內(nèi)存。

Jason Howard解釋說(shuō)，Piuma芯片所采用的新穎的內(nèi)存架構(gòu)，這是優(yōu)化圖形分析工作負(fù)載的一個(gè)重要內(nèi)容。這些芯片與32GB DDR5-4400內(nèi)存配對(duì)，通過(guò)允許8字節(jié)訪問(wèn)粒度的自定義內(nèi)存控制器進(jìn)行訪問(wèn)。根據(jù)Jason Howard的說(shuō)法，這是有利的，因?yàn)椤懊慨?dāng)我們從內(nèi)存中取出一條數(shù)據(jù)線時(shí)，我們都會(huì)嘗試?yán)盟械臄?shù)據(jù)線，而不是扔掉7/8的數(shù)據(jù)線?！?

1TB/s硅光互連，可以連接超過(guò)10萬(wàn)個(gè)芯片

“Piuma”芯片被認(rèn)為是英特爾首個(gè)直接網(wǎng)狀光子結(jié)構(gòu)的一部分，英特爾并沒(méi)有使用銅線將多個(gè)芯片縫合在一起，而是使用了使用硅光子互連技術(shù)，使用了共封裝光學(xué)器件(CPO)可以將數(shù)百甚至數(shù)千個(gè)芯片連接在一個(gè)低延遲、高帶寬的網(wǎng)絡(luò)中。

這是一個(gè)不錯(cuò)的想法，但無(wú)論如何，該芯片仍然是一個(gè)原型。英特爾的目標(biāo)是開(kāi)發(fā)可以擴(kuò)展的技術(shù)，以支持最大的圖形分析工作負(fù)載。

△圍繞中央計(jì)算芯片的四個(gè)小芯片為英特爾這個(gè)原型芯片提供1TB/s的光學(xué)帶寬

雖然該芯片最初看起來(lái)是一個(gè)標(biāo)準(zhǔn)處理器，它甚至有一個(gè)相當(dāng)?shù)湫偷腂GA接口，與Xeon-D芯片上的接口沒(méi)有什么不同，但I(xiàn)/O芯片的大部分?jǐn)?shù)據(jù)都是使用與Ayar Labs合作開(kāi)發(fā)的硅光子芯片進(jìn)行光學(xué)傳輸?shù)摹?

中央處理器周?chē)乃膫€(gè)小芯片將進(jìn)出處理器的電信號(hào)轉(zhuǎn)換為32根單模光纖攜帶的光信號(hào)。正如我們所理解的，這些光纖束中的16根用于傳輸數(shù)據(jù)，另16根用于接收數(shù)據(jù)。

根據(jù)英特爾的說(shuō)法，每根光纖都可以在芯片內(nèi)外以32GB/s的速度傳輸數(shù)據(jù)，總帶寬為1TB/s。該光纖網(wǎng)絡(luò)可以將超過(guò)100000個(gè)“Piuma”芯片配置聯(lián)網(wǎng)在一起，任何一個(gè)芯片都可以以非常低的延遲與另一個(gè)芯片通信。

進(jìn)出英特爾原型處理器的數(shù)據(jù)都是通過(guò)光學(xué)傳輸?shù)?

英特爾還必須找到一種方法來(lái)處理進(jìn)出計(jì)算芯片的巨大數(shù)據(jù)流，理論上需要高達(dá)1TB/s。根據(jù)Jason Howard的說(shuō)法，這一要求使得Piuma芯片內(nèi)部大量區(qū)塊專(zhuān)用于路由器的原因。

具體來(lái)說(shuō)，Piuma芯片的每個(gè)核心都有一對(duì)路由器，將 2D 網(wǎng)格中的核心相互鏈接、鏈接到八個(gè)內(nèi)存控制器以及四個(gè)高速高級(jí)接口總線 (AIB) 端口。AIB 是英特爾于 2018 年推出的用于互連小芯片的免版稅 PHY。Ayar Labs 的芯片有 32 個(gè)光學(xué) I/O 端口，每個(gè) AIB 8 個(gè)，每個(gè)方向可提供 32 GB/秒的帶寬。

以下是在 PIUMA 封裝上實(shí)現(xiàn) 2D 網(wǎng)格的片上路由器的深入分析：

這是一個(gè)十端口直通路由器。2D 網(wǎng)格以 1 GHz 運(yùn)行，需要四個(gè)周期來(lái)遍歷路由器。它有 10 個(gè)虛擬通道和四種不同的消息類(lèi)別，Jason Howard表示這可以避免網(wǎng)格上的任何死鎖，并且為路由器內(nèi)的每個(gè)鏈路提供 64 GB/秒的速度。

Piuma芯片上的路由器和核心封裝比想象的要復(fù)雜一些，如下圖：

它更像是芯片上有 16 個(gè)核心/路由器單元，其中只有 8 個(gè)核心被激活，因?yàn)樾酒暇W(wǎng)格需要兩倍數(shù)量的路由器來(lái)饋入 AIB，而 AIB 又饋入 Ayar Labs 芯片光子學(xué)。硅光子鏈路僅用作物理層，它們專(zhuān)門(mén)用于擴(kuò)展多個(gè)插槽之間的片上網(wǎng)絡(luò)。

比如，由 16 個(gè)使用硅光子鏈路的Piuma芯片組成的網(wǎng)絡(luò)可以以全對(duì)全配置的 4×4 網(wǎng)格連接在一起。每個(gè)Piuma芯片在標(biāo)稱(chēng)電壓和工作負(fù)載下消耗約 75瓦，這意味著它消耗約1200瓦?？紤]到一個(gè)具有112個(gè)內(nèi)核和224個(gè)線程的單雙插槽Intel Sapphire Rapids系統(tǒng)在負(fù)載下可以很容易地消耗那么多功率，Piuma芯片的功耗表現(xiàn)還不錯(cuò)。

Piuma芯片具有 1 TB/秒的光學(xué)互連能力，可以將多達(dá)131,072個(gè)芯片連接在一起，形成一個(gè)大型共享內(nèi)存的圖形處理超級(jí)計(jì)算機(jī)。路由器就是網(wǎng)絡(luò)，所有設(shè)備都通過(guò) HyperX 拓?fù)溥M(jìn)行連接，而不是直接連接到機(jī)架內(nèi)的所有拓?fù)?，每個(gè)機(jī)架內(nèi)將有16個(gè)Piuma芯片。

16 個(gè)Piuma芯片，則意味著擁有 128 個(gè)內(nèi)核、8,448 個(gè)線程和 512 GB 內(nèi)存。HyperX 網(wǎng)絡(luò)的第一級(jí)擁有 256 個(gè)芯片，包含32,768 個(gè)核心、270,336 個(gè)線程和 1 TB 內(nèi)存。升級(jí)到 HyperX 網(wǎng)絡(luò)的二級(jí)，則可以構(gòu)建一個(gè)包含 16,384 個(gè)芯片，包含210 萬(wàn)個(gè)核心、1730 萬(wàn)個(gè)線程和 64 TB 共享內(nèi)存的 Piuma芯片集群。最后，在 HyperX 網(wǎng)絡(luò)的第三級(jí)，則可以擴(kuò)展到 131,072 個(gè)芯片，擁有1680 萬(wàn)個(gè)核心、1.384 億個(gè)線程和 512 PB 共享內(nèi)存。

每個(gè)Piuma芯片節(jié)點(diǎn)通過(guò)單模光纖連接在一起，有趣的是，Piuma網(wǎng)絡(luò)設(shè)計(jì)所實(shí)現(xiàn)的帶寬(每方向 16 GB/秒)僅具有理論設(shè)計(jì)點(diǎn)的帶寬。但即便如此，這仍然是一個(gè)巨大的帶寬怪獸，理論上整個(gè) HyperX 網(wǎng)絡(luò)的單向平分帶寬為 16 PB/秒。

挑戰(zhàn)依然存在

英特爾此次成功展示Piuma芯片，并不是說(shuō)其在光學(xué)器件研發(fā)方面沒(méi)有遇到挑戰(zhàn)。Jason Howard說(shuō)，在測(cè)試中，Piuma芯片實(shí)際的硅光互連速率只達(dá)到了預(yù)計(jì)(1TB/s)的一半，并且光纖還經(jīng)常出現(xiàn)故障。

Jason Howard說(shuō)：“一旦我們把所有東西都調(diào)好并工作起來(lái)，就會(huì)出現(xiàn)很多纖維附著問(wèn)題，因?yàn)檫@些都是脆性纖維，它們就會(huì)脫落。” “我們還看到，當(dāng)我們對(duì)整個(gè)封裝進(jìn)行回流工藝時(shí)，由于熱結(jié)果，我們會(huì)遇到光學(xué)問(wèn)題，最終會(huì)產(chǎn)生糟糕的光學(xué)成品率?！?

Jason Howard解釋說(shuō)，為了克服這些挑戰(zhàn)，英特爾必須與合作伙伴合作開(kāi)發(fā)具有較低熱障的新材料。

到目前為止，英特爾已經(jīng)構(gòu)建了兩塊主板，每塊板都配有一個(gè)Piuma芯片，并將它們互連起來(lái)以運(yùn)行測(cè)試并向 DARPA 證明其有效。

現(xiàn)在的問(wèn)題是，這樣一臺(tái)機(jī)器的大規(guī)模成本是多少?嗯，以每個(gè)節(jié)點(diǎn) 750 美元計(jì)算，這根本不算什么，對(duì)于一個(gè)具有 4,096 個(gè)Piuma芯片的 HyperX 一級(jí)系統(tǒng)來(lái)說(shuō)，大概需要 310 萬(wàn)美元;對(duì)于一個(gè)具有 262,144 個(gè)Piuma芯片的HyperX 二級(jí)系統(tǒng)來(lái)說(shuō)，成本接近 2 億美元;而對(duì)于一個(gè)具有210萬(wàn)個(gè)Piuma芯片的HyperX 三級(jí)系統(tǒng)來(lái)說(shuō)，成本將達(dá)到15.7億美元。

英特爾設(shè)想，Piuma芯片可以構(gòu)建到包含超過(guò)10萬(wàn)個(gè)芯片的網(wǎng)格中，即使是最大的圖形分析工作負(fù)載，也可以實(shí)現(xiàn)近乎線性的性能擴(kuò)展。然而，目前這還只是個(gè)夢(mèng)想，因?yàn)橛⑻貭柶駷橹怪粶y(cè)試了兩個(gè)連接在其結(jié)構(gòu)上的芯片。

Jason Howard解釋說(shuō)，英特爾是否會(huì)將該設(shè)計(jì)商業(yè)化將取決于資金。“如果有客戶可以給我們資金支持，我們非常歡迎建造這些東西?！?

英特爾展示全新處理器：1TB/s硅光互連！8核528線程！

英特爾展示全新處理器：1TB/s硅光互連！8核528線程！