超級運算霸主之戰，似乎有了一些變數

最近更新時間： 17 November, 2020

作者
宇多田

文章來源
虎嗅網

2020 年 4 月，以近 70 億美元被輝達（NVIDIA, NVDA-US）最終收購的以色列頂級數據中心網路技術公司 Mellanox ，在長達半年多的 “ 沉默 ” 後，在 11 月迎來了兩件足以引起業內轟動的大事。首先，陪 Mellanox 走了 21 年，並一手促成這筆交易的創辦人兼執行長Eyal Waldman宣布離職，並留下了一句頗為瀟灑的話：

“ 在達成這筆交易時，我就知道我要離開了。你知道我用幾十年創建一家公司並做出所有決策，不是用來做第二名的。 ”

其次，就在今天， Mellanox 作為輝達 GPU 家族的一部分，被輝達融入了新的網路連接架構產品——NVIDIA Mellanox 400G InfiniBand。

此後，它將以 “ GPU 伴侶 ” 的身份，率先打入數據中心市場的最精銳部隊——超級電腦市場。

▲NVIDIA Mellanox 400G InfiniBand產品的架構組成。簡單來說，就是一個用以連接其他服務器與輝達產品的組件

Nvidia A100 GPU 無人能敵

輝達在今天的全球超級計算大會上，再次刷新了自己最強大 GPU 產品線——企業級加速器 A100 的性能紀錄。

新一代的 A100 GPU 將高頻寬內處理器提升至 80GB ，比上一代擴大一倍。這意味著，每秒超過 2TB 的中央處理器，會讓數據在中央處理器與 GPU 之間流通得更加迅速，以便 “ 承受 ” 研究人員建立更大規模人工智慧模型和數據帶來的壓力。

“ 現在要在 AI 和高性能計算（HPC）的研究成果上繼續突破上限，科學家們必須要構建更大更複雜的模型，那麼便需要比以往更大的中央處理器容量與更高的頻寬。 ” 輝達應用深度學習研究副總裁 Bryan Catanzaro 指出。

▲輝達在英國劍橋的超級運算中心部署了由若干塊 A100 80GB 組成的 DGX 系統

有效率地串連晶片

實際上，除了改變晶片產品的架構，把成百上千塊晶片用最高效的形式 “ 連 ” 起來，當然也能解決科學家們每秒百億＊億次的超大計算需求，而收購的 Mellanox 的用意便在於此。

如果你見過位於無錫的中國超級電腦 “ 太湖之光 ” ，就會發現 “ 這台電腦 ” 其實是一個由成百上千台黑色機櫃組成的電腦集群，可以填滿一間約 1,000 平方公尺的屋子。它既可以被稱為 “ 高性能電腦群 ” ，也可以被看做是一個不小規模的數據中心。當然，這些黑色機櫃的性能，要比普通伺服器強大太多，由 4 萬多塊不同種類的晶片組成，僅串連它們就是一項極為艱鉅的任務，用時兩年，總投入超過了 18 億人民幣。

而NVIDIA Mellanox 400G InfiniBand 的作用，便是將超級電腦中上萬塊 CPU 、 GPU 以及其他種類晶片串連在一起。在發揮性能最大化的同時，每塊晶片的數據傳輸效率也不能有太多損耗。

“ 之前 CPU 與 GPU 之間的互聯，都是通過輝達的 NVlinks（一種總線及其通訊協議），但這個東西互聯的效率沒有特別好，不能簡單擴展到上千塊晶片互聯的超級運算場景。 ” 參與研發過 TPU，芯英科技聯合創辦人楊龔軼凡告訴我們， Mellanox 擅長的便是先前輝達最大的短板之一，

“ 一台超級電腦，各品牌晶片之間的高效配合，極為重要。之前輝達的NVlinks只能和IBM（IBM-US）的 CPU 互聯。而收購 Mellanox 後，輝達增強了用晶片構建超級運算系統的可擴展性，可以讓 GPU 與其他品牌和種類的晶片進行連接。 ” 換句話說，輝達找到了 “ 讓自己產品輕鬆插進包括英特爾（Intel, INTC-US）在內，所有伺服器晶片接口 ” 的方法。

超級運算市場，不可忽視的晶片礦脈

輝達的這次全系列產品，無一例外都是 “ 燒錢大坑 ” ——超級電腦市場。舉個例子，在 2020 年 6 月頒布的全球超級電腦 Top500 榜單上，排名第二的美國橡樹嶺國家實驗室超級電腦 Summit，在每個節點配備了 2 個 IBM 的 Power9 CPU 和 6 個輝達的 Tesla V100 。這樣的節點有 4356 個，總耗資 2 億美元。

而在 2019 年 3 月，美國能源部阿貢實驗室公開宣布，將耗資 5 億美元搭建新一代超級電腦 Aurora 。這台將在 2021 年交付的超級電腦，並非追求一味追求計算速度，而是需要針對人工智慧等新技術應用採用新的設計思路。那麼這筆巨額政府合約的主要受益者是誰？外界猜測是美國最大的 CPU 生產商英特爾與著名超級運算系統集成商 Cray。

但不可忽視的是，隨著超級運算系統被用在人工智慧研究領域的次數越來越多，額外裝載的加速晶片 GPU ，逐漸成為搭建超級電腦的必須品。因此，輝達也在全球許多超級運算項目中獲得了頗為豐厚的收益，包括美國技術最強大的國家實驗室——橡樹嶺實驗室、阿貢實驗室，都是輝達最好性能產品的首批饕客。

▲美國迄今最強的超級電腦Summit（巔峰），在最新的 Top500 榜單中排名第 2 。

超級電腦之間的競爭，都被視為國家之間技術實力的競爭

儘管這是一個狹隘的衡量標準，但這些超級電腦群的確在很多軍事與科學任務中發揮著極為重要的作用，譬如武器設計與密碼破譯，再譬如模擬氣候變化，研究與診斷新冠病毒。很多前所未有的材料與化學實驗，不太可能在雲端執行，因此部署高性能伺服器便顯得格外重要。

“ 沒有人願意燒很多錢去做一些幾十年沒成果的新技術研究，但是這些研究卻很有必要，那麼這些新技術的運算就需要超級電腦來支援。 ” 一位業內人士告訴我們。

而這場競爭中，中國與美國理所當然是最為強勁的參賽選手，也是最願意砸錢做超級運算系統的兩個科技大國。2020 年 6 月，儘管 Top500 的榜首之位，被日本神戶理研計算中心耗資 10 億美元的超級運算系統 Fugaku 奪走，但在這 500 個超級電腦中，中國擁有其中 226 個系統，而美國則佔據 114 個。

因此，如果按照每台超級電腦單價上億美元來計算，這是一個令人垂涎的市場。而政府一次又一次創下記錄的巨額訂單，對商業公司產生著越來越大的吸引力；此外，毫無疑問，由於超級電腦運作的都是難度最高的技術研發任務，它們的存在，是未來技術下沉到工業和消費級市場的源動力。

國家之間的超級電腦之戰從幾十年前就已打響。一開始，大多數超級電腦使用的微處理器都是從英特爾和 AMD（Advanced Micro Devices, AMD-US）的 PC 晶片演變而來，然而，就是在過去 5 年裡，數據量開始如爆炸般成長，新技術應用層出不窮，因此最強大的超級電腦已經開始加大專業晶片的使用力度，而輝達，便是最大的受益者之一。不過有意思的是，日本 Fugaku 打敗中國和美國最強電腦的 “ 源動力 ” ，竟然是富士通的 48 核 A64FX SoC，這應該是榜單上第一個由 ARM 處理器提供動力的超級運算系統（雖然不想把輝達和ARM的收購聯繫起來，但這好歹是個開始）。

“ 未來超級運算市場，目前現在的共識是 HPC+ AI 。也就是說，未來 AI 是超級運算的典型應用，而且量級很大。所以輝達，想要作為未來霸主，保持在這個市場的領先地位。當然，高性能計算市場，一切都沒那麼容易。 ”

《虎嗅網》授權轉載

【延伸閱讀】

週餘

篇