大模型時代即將終結？AI 產業何去何從？Altman 說了什麼？

2023 年 4 月 19 日，雖然在這個月幾乎每週都至少有一家科技大公司入局訓練大模型，但 OpenAI 卻突然改變了方向聲稱，大模型時代已經要結束了。

為什麼大模型時代即將終結？

上週末在麻省理工學院，OpenAI 的 CEO 在演講中警告稱：我們已經處在大模型時代的尾聲，並表示如今的 AIGC 發展中，將數據模型進一步做大，塞進更多數據的方式，已經是目前人工智慧發展中最後一項重大進展，並且還聲稱目前還不清楚未來的發展方向何去何從。

消息傳出，立即引發很多外界的質疑，OpenAI 本身已經是大模型技術領域最前端的研究機構，為何會說出這種能讓研究方向 180 度掉頭的論調？

在如今的產生式 AI 背後的技術，稱其為大模型甚至已經不夠準確，這些模型所需的參數數量已經是天文數字，稱其為「巨型模型」或許更加準確。

OpenAI 最早的語言模式是 GPT-2 ，於 2019 年公布，發布時就有 15 億個參數，此後隨著 OpenAI 研究人員發現擴大模型參數數量能有效提升模型完善程度，真正引爆 AI 產業浪潮的 GPT-3 發布時，參數數量已經達到了 1,750 億個。

截至目前，OpenAI 並沒有公布最新迭代版本 GPT-4 所用的參數數量。但外界普遍估算其包括的參數量已經達到了 GPT-3 的二十倍 —— 3.5 兆個參數。

但人類網路歷史上被保留下來的各種高質量語料，已經在 GPT- 3 以及後續發布的 GPT- 4 的學習中被消耗殆盡。大模型參數數量仍然可以繼續膨脹下去，但對應數量的高質量數據卻越來越稀缺，因此成長參數數量帶來的邊際效益愈發降低。這如同 AI 產業的「摩爾定律」一般。

除了大模型本身的技術發展方向，Altman 提到的另一個問題：購買大量 GPU 以及建設數據中心的物理限制以及高昂的成本，或許才是更多 AI 大模型開發公司現在所面臨的切膚之痛：營運巨型數據服務中心成本高昂已經是產業公認，但如果是用於 AI 大模型訓練則更是貴上加貴，無論是對電力還是水力的消耗都極其巨大。

大模型時代數據中心

即使是 GPT- 4 或 New Bing，也多次因為算力不足不得不公開宣布短時間內暫停訪問。算力已經成為限制 AIGC 進一步拓展使用場景的關鍵桎梏。Altman 的說法的根據，或許也有很大一部分來源於 OpenAI 所面臨的現實原因。

水漲船高的 GPU 價格

在今年三月，輝達（NVIDIA, NVDA-US）專用於大模型參數計算、採用專用 Transformer Engine 架構的輝達 H100NVL 系列發布之後，從中嗅到商機的黃牛也開始借機炒價，售價已經飆升至四萬美元。但這些在當下大模型技術巨大的風口面前似乎都不值一提，目前 H100NVL 系列仍然處於一貨難求的狀態。馬斯克也在 Twitter 上驚呼「似乎每個人和他們的狗都在搶購 GPU」。

大模型時代 GPU價格

不過吐槽歸吐槽，即便是馬斯克也不得不為了自己新成立的 AI 公司而買買買：據《商業內幕》報導，馬斯克已經購入了一萬組輝達最新發布的 GPU 並運至數據中心。並在 Twitter 上聲稱將開發 TruthGPT 來挑戰 ChatGPT。

大模型時代 GPU

儘管 Altman 同時還在演講中表示「OpenAI 目前沒有在開發 GPT- 5 」。但在 AI 大模型發展狂奔的路上，沒有人願意真的成為「落後六個月」的那個。

高額的進入成本

根據分析機構 SemiAnalysis 估算，如果按照目前 ChatGPT 的運算處理效率，想要承擔 Google 搜尋目前在全球全部訪問流量，至少需要 410 萬張輝達 A100 GPU。即使只是訓練出目前 ChatGPT 能力的大模型，也需要超過 10,000 個 GPU 來完成，後續營營營運維修修護還需要更多。

這也是如今幾乎你能見到的每個大模型產品都需要「內測邀請碼」的原因：不僅訓練這些大模型燒錢，營運起來更加燒錢。

這種對於計算硬體極度迫切的需求，推動著輝達成為這個市場最大的壟斷者。如今輝達已經占據了計算卡 88% 的市場佔有率，其他選項 —— 例如 Google 開發的 Tensor TPU，甚至不提供對外售賣的選項。

但正如馬斯克「嘴上說暫停訓練半年，實際光速成立 AI 公司」一樣，在大幅地，這也只是 Altman 的一家之言。如今很多後來者的技術發展程度都還遠未到能說出「AI 發展不能靠無腦計算」的程度。但 Altman 所說的確實已經成為如今頭部大模型開發公司正在/即將要面對的棘手問題。

AI 產業也有摩爾定律？

「一味不計成本地堆砌硬體不是未來」已經成為越來越多業內人士的共識。

現在的 AI 發展階段，甚至很多地方都有著網路發展早期時代的即視感：AI 產業的發展也已經出現了「摩爾定律」，訓練大模型所需的大量 GPU 組成的硬體訓練集群，與世界上第一台電腦並沒有本質上的區別。

大模型時代機房

人工智慧也需要一次「半導體革命」，探索未來也需要更加高效的方式：或許對大模型參數數量的精簡，以及利用多個較小的模型實現處理能力的提升，會是大模型時代結束之後，AIGC 產業的下一個發展方向。

在 ChatGPT 發布之初，針對參數量過高以及關於道德倫理方面的問題，OpenAI 曾公開過一項新的研究：使用一種通過人類回饋來強化學習（RLHF）的技術，對模型數據進行微調。

經過超過一年的測試，OpenAI 由此產生了 InstructGPT，其模型參數量僅有 13 億，只不到原版 ChatGPT 的百分之一，但這個疊帶款不僅表現出更準確的回答能力，甚至在回答中關於事實核查以及負面內容的表現，要好於 ChatGPT 本身。

大模型時代 InstructGPT

AutoGPT 的火熱

此外，同樣近期大火的 AutoGPT：使用 GPT- 4 作為底層技術，加入了從網頁中抽取關鍵資訊的能力，根據返回的結果進一步執行命令，幫你自動完成任務處理。突破了只能處理文本相關內容任務的限制。

由此誕生的結果，就是用戶在 AutoGPT 的實際使用中都能明顯感受到，要智能的多的結果，甚至完完全全改變了原本 ChatGPT 常規的使用方式，比如 AutoGPT 能自動完成一整個網頁的代碼實現，甚至還有網友發現 AutoGPT 為了完成最初的任務目標，自行在招聘網站上發布了招聘廣告，吸引其他人來輔助完成。

大模型時代 AUTOGPT

AI 產業的未來？

這些在應用層面的創新，除了能為大模型技術探索更多的應用場景，也是在 AI 領域探索現有算力之下發展的可能。基於人類回饋即時修改結果的最直觀體驗，就是讓人工智慧變得更加聰慧，同時也是真正意義上能實現「一個人就是一個團隊」的技術。

總體來看，即使當下大模型技術對於 AIGC 的發展至關重要，但長遠來講，AI 絕不會永遠依賴大模型的參數提升以及堆砌算力來構建未來，開發更小更精準的模型，以及更加具體的應用場景，或許已經是下一個時代真正的方向。

屆時，或許是大模型時代的結束，卻是人工智慧時代真正的開始。

《36氪》授權轉載

【延伸閱讀】

週餘

篇

股市投資小副述文字一共二十個字小副述文字一共二十

基金ETF 小副述文字一共二十個字小副述文字一共二十

全球總經小副述文字一共二十個字小副述文字一共二十

理財商業小副述文字一共二十個字小副述文字一共二十

消費信用小副述文字一共二十個字小副述文字一共二十

保險稅制小副述文字一共二十個字小副述文字一共二十

房產生活小副述文字一共二十個字小副述文字一共二十