揭秘 Nvidia Blackwell GPU — 跨越性能的五倍飛越

小晶片 (Chiplet) 技術﹑與AMD 的比較以及 B200 的意義

5 min readApr 9, 2024

Stable Diffusion AI 產生的 Chiplet 晶片 — ChipX / 圖取自 AI

Nvidia 在 2024 年的全球技術大會（GTC）上，發表了令人矚目的最新 AI 晶片 — Blackwell GPU。這款晶片標誌著 Nvidia 在 AI 領域的一大步前進，而且在性能上實現了與前代 H100 相比高達 5 倍的提升，令其在各項硬體條件上均顯得格外引人注目。具體來說，Blackwell 的功耗從 700W 增加到 1000W，而電晶體數量更是從 H100 的 800 億顆飛躍至 2040 億顆，其中最大的指標在於 Nvidia 終於開始使用「Chiplet 小晶片」技術，利用封裝技術將多個小裸晶 (Die) 整合再一起。

Nvidia 加入 Chiplet 行列

這是一個非常令人矚目的發展，Chiplet 技術是將不同功能模組單獨生產，然後使用先進封裝技術將多個裸晶片 (Dies) 整合在一塊晶片上。這不僅降低了設計成本和研發時間，還提高了設計的彈性和良率。這項技術在某種程度上類似於整合了不同功能模組的單晶片系統 (SoC)，但相比之下，Chiplet 技術能夠實現更高的性能和更低的成本，特別適用於高效能運算集群等場景。

SoC 及 Chiplet 的比較，Chiplet 特別適合高效能計算中心，提供龐大的運算吞吐量 / 表一取自作者

而 Nvidia 的 B200 GPU 為第一個採用 Chiplet 晶片的 Nvidia 產品。這個 GPU 通過將兩塊 B100 GPU Chiplets 結合，值得一提的是，B100 本身在性能上面與前一代 H100 並無相差多少，主要是通過更先進的技術節點以及增加的記憶體來改進，但通過將兩塊 B100 結合，電晶體數目增加到高達 2040 億顆，再加上引入了更簡單的計算格式 FP4/FP6 等，實現了顯著效能提升。

Nvidia B200 GPUs，由兩顆 B100 GPU Chiplets 利用先進封裝技術製作而成 / 圖取自 Nvidia 2024 GTC Youtube 直播

與競爭對手的比較

在對比中，Nvidia 的 Blackwell（B200）與其他競爭產品相比，在技術節點、耗能、晶體管數量及大小方面均展示出其顯著的優勢。例如，B200 使用了 4NP 節點，而耗能達到 1000W，晶體管數量為 2080 億，顯著超越了其他競爭者。在運算吞吐量比 AMD 的旗艦晶片 MI300X 高多達 4 倍.

然而，我認為 Nvidia 面臨一個挑戰是如何進一步降低晶片成本和面積。從表二可以看出，儘管 B200 只使用了 2 個 Chiplets，但其面積卻是使用 12 個 Chiplets 的 MI300X 的 1.5 倍以上。這也反映了 Nvidia 和 AMD 專注在不同技術上的差異 (前者為大晶片架構，後者為小晶片架構)。

B200 與 AMD MI300X 以及其他 AI 晶片比較圖表 / 表二取自作者

B200 未來對 Nvidia 的效益

B200 為 Nvidia 踏入 Chiplet 的第一步，我期待 Nvidia 未來能夠繼續朝小型晶片的技術發展，從而降低成本和能耗，使得性價比更加突出。但還是不能忽略其如猛獸般的硬體效能，證明了 Nvidia 在 AI 硬體領域的領先地位，不僅讓投資者放心，也提高了市場認可度。

此外黃仁勳提到一個關鍵點：現有的 H100 伺服器可以輕鬆升級至 B200，這一點對那些已經投資大量 H100 運算中心的公司來說極具吸引力。這種升級方式類似於電腦玩家升級自己桌面電腦一樣，只需更換主機板上的 CPU/GPU，即可使周邊元件支援新的晶片。B200 與現有的 H100 資料中心周邊元件相容，實現了無縫升級，這將大幅推動 B200 的快速推廣和部署。

揭秘 Nvidia Blackwell GPU — 跨越性能的五倍飛越

小晶片 (Chiplet) 技術﹑與AMD 的比較以及 B200 的意義

Nvidia 加入 Chiplet 行列

與競爭對手的比較

B200 未來對 Nvidia 的效益

參考資料

Written by Eric