揭秘 Nvidia Blackwell GPU — 跨越性能的五倍飛越

小晶片 (Chiplet) 技術﹑與AMD 的比較以及 B200 的意義

Eric
5 min readApr 9, 2024
Stable Diffusion AI 產生的 Chiplet 晶片 — ChipX / 圖取自 AI

Nvidia 在 2024 年的全球技術大會(GTC)上,發表了令人矚目的最新 AI 晶片 — Blackwell GPU。這款晶片標誌著 Nvidia 在 AI 領域的一大步前進,而且在性能上實現了與前代 H100 相比高達 5 倍的提升,令其在各項硬體條件上均顯得格外引人注目。具體來說,Blackwell 的功耗從 700W 增加到 1000W,而電晶體數量更是從 H100 的 800 億顆飛躍至 2040 億顆,其中最大的指標在於 Nvidia 終於開始使用 「Chiplet 小晶片」 技術,利用封裝技術將多個小裸晶 (Die) 整合再一起。

Nvidia 加入 Chiplet 行列

這是一個非常令人矚目的發展,Chiplet 技術是將不同功能模組單獨生產,然後使用先進封裝技術將多個裸晶片 (Dies) 整合在一塊晶片上。這不僅降低了設計成本和研發時間,還提高了設計的彈性和良率。這項技術在某種程度上類似於整合了不同功能模組的單晶片系統 (SoC),但相比之下,Chiplet 技術能夠實現更高的性能和更低的成本,特別適用於高效能運算集群等場景。

SoC 及 Chiplet 的比較,Chiplet 特別適合高效能計算中心,提供龐大的運算吞吐量 / 表一取自作者

而 Nvidia 的 B200 GPU 為第一個採用 Chiplet 晶片的 Nvidia 產品。這個 GPU 通過將兩塊 B100 GPU Chiplets 結合,值得一提的是,B100 本身在性能上面與前一代 H100 並無相差多少,主要是通過更先進的技術節點以及增加的記憶體來改進,但通過將兩塊 B100 結合,電晶體數目增加到高達 2040 億顆,再加上引入了更簡單的計算格式 FP4/FP6 等,實現了顯著效能提升。

Nvidia B200 GPUs,由兩顆 B100 GPU Chiplets 利用先進封裝技術製作而成 / 圖取自 Nvidia 2024 GTC Youtube 直播

與競爭對手的比較

在對比中,Nvidia 的 Blackwell(B200)與其他競爭產品相比,在技術節點、耗能、晶體管數量及大小方面均展示出其顯著的優勢。例如,B200 使用了 4NP 節點,而耗能達到 1000W,晶體管數量為 2080 億,顯著超越了其他競爭者。在運算吞吐量比 AMD 的旗艦晶片 MI300X 高多達 4 倍.

然而,我認為 Nvidia 面臨一個挑戰是如何進一步降低晶片成本和面積。從表二可以看出,儘管 B200 只使用了 2 個 Chiplets,但其面積卻是使用 12 個 Chiplets 的 MI300X 的 1.5 倍以上。這也反映了 Nvidia 和 AMD 專注在不同技術上的差異 (前者為大晶片架構,後者為小晶片架構)。

B200 與 AMD MI300X 以及其他 AI 晶片比較圖表 / 表二取自作者

B200 未來對 Nvidia 的效益

B200 為 Nvidia 踏入 Chiplet 的第一步,我期待 Nvidia 未來能夠繼續朝小型晶片的技術發展,從而降低成本和能耗,使得性價比更加突出。但還是不能忽略其如猛獸般的硬體效能,證明了 Nvidia 在 AI 硬體領域的領先地位,不僅讓投資者放心,也提高了市場認可度。

此外黃仁勳提到一個關鍵點:現有的 H100 伺服器可以輕鬆升級至 B200,這一點對那些已經投資大量 H100 運算中心的公司來說極具吸引力。這種升級方式類似於電腦玩家升級自己桌面電腦一樣,只需更換主機板上的 CPU/GPU,即可使周邊元件支援新的晶片。B200 與現有的 H100 資料中心周邊元件相容,實現了無縫升級,這將大幅推動 B200 的快速推廣和部署。

參考資料

--

--

Eric

SoC Software Engineer at Tesla | 2021 UC Berkeley EECS | 2019 NTUEE.