GPT-4 發布！和 GPT-3.5 差異在哪？GPT-4 可以做到哪些事情？

人工智慧會替代人類嗎？在 ChatGPT 出現之後，人類對於這個問題的答案已經越來越沒有信心。

而在 2023/03/14 夜里， OpenAI 低調發布了深度學習新的里程碑：GPT-4 ，一個比 ChatGPT 更強大的大模型！OpenAI 表示，GPT-4 雖然在許多現實世界場景中的能力依舊不如人類，但在各種專業和學術基準上已經和人類表現持平。

GPT-4 模型

GPT-4 是什麼？

GPT-4 是一個多模態大模型，具有更強大的創造性、更長的上下文處理能力，可支持圖像輸入，還可以自定義 GPT-4 的語言風格。在 OpenAI 短短 24 分鐘的發表會中，有這樣一個場景：在草稿本上用紙筆畫出一個非常粗糙的草圖，拍照並上傳，GPT-4 在 10 秒左右直接產生了網站代碼。

著名經濟學家朱嘉明表示：GPT-4 是 OpenAI 創造出的又一個重大科技事件，達到了 AI 歷史上前所未有的、不可逆轉的新高度。

過去兩年，OpenAI 重建了整個深度學習堆棧，並與微軟（Microsoft, MSFT-US）Azure一起從頭開始共同設計了一台超級電腦。一年前， OpenAI 訓練 GPT- 3.5 （即 ChatGPT）作為系統的第一次「試運作」，發現並修覆了一些錯誤並改進了理論基礎。

OpenAI 花了 6 個月的時間來叠代調整 GPT-4 ，取得了有史以來最好的結果，並且成為第一個能夠提前準確預測其訓練性能的大型模型。這意味著大模型的訓練方法將會從過去的純粹「暴力美學」進化出更高的可控性與預期性。

這次 OpenAI 並沒有公布論文，只有一份技術報告，並且不提供架構（包括模型大小）、硬體、訓練計算、數據集構建、訓練方法等細節。換句話說，其他 AI 公司不可能再像過去一樣，走一條模仿、覆現、超越的道路了。

壓力來到了 Google、百度（Baidu, BIDU-US）這邊了，尤其是還將於明天發布文心一言的百度。

GPT-4 比 ChatGPT 更強大

GPT-4 比以往任何時候都更具創造性和協作性。它可以承擔文本、音樂、圖像的產生、編輯任務，並能與用戶一起叠代創意和技術寫作任務，例如創作歌曲、編寫劇本或學習用戶的寫作風格等。

GPT-4 劇本

GPT-4 能夠處理超過 25,000 個單詞的文本，允許使用長格式內容創建、擴展對話以及文件搜尋和分析等用例。

GPT-4 文本分析

在簡單的談話中，ChatGPT 與 GPT-4 可能看不出太大差距。但是，當任務的複雜性達到足夠的閾值時，差異就會出現——GPT-4 比 GPT- 3.5 更可靠、更有創意，並且能夠處理更細微的指令。

GPT-4 複雜比較左邊是ChatGPT，右邊是GPT-4

為了解這兩種模型之間的區別， OpenAI 在各種基準測試中進行了測試，包括人類的模擬考試，比如 GRE。 OpenAI 並沒有針對這些考試進行專門培訓，但 GPT-4 的排名依然名列前茅。例如，它通過模擬律師考試，分數在應試者的前 10% 左右；相比之下，GPT- 3.5 的得分在倒數 10% 左右。

GPT-4 考試

GPT-4 在語言風格上也迎來了更新。與具有固定冗長語氣和風格的經典ChatGPT不同，開發人員（普通用戶也將會開放）現在可以在「系統」消息中通過描述來規定他們的AI風格和任務，也就是「自定義」能力。

GPT-4 語言風格

OpenAI 在為機器學習模型設計的傳統基準上評估了 GPT-4，大大優於現有的大型語言模型，以及大多數最先進的（SOTA）模型：

GPT-4 SOTA

許多現有的ML基準測試都是用英語編寫的。 OpenAI 使用 Azure Translate 將 MMLU 基準——一套涵蓋 57 個主題的 14,000 個多項選擇題——翻譯成多種語言。在測試的 24 種語言中，GPT-4 優於 GPT- 3.5 和其他LLM（Chinchilla、PaLM）的英語語言性能，包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言：

GPT-4 ML

OpenAI 表示內部也在使用 GPT-4 ，對支持、銷售、內容審核和寫程式等功能產生了巨大影響。

多模態大模型，支持圖片輸入

除了文本能力的增強，GPT-4 還帶來了新的能力——多模態，它可以接受圖像作為輸入並產生說明、分類和分析結果。

具體來說，它能在用戶輸入散布式文本與圖像後，自主產生文本輸出（自然語言、代碼等）。在包括帶有文本和照片的文件、圖表與螢幕截圖中，GPT-4 展示了與純文本輸入同樣強大的功能。此外，它還可以通過為純文本語言模型開發的測試時間技術實現進化，能運用少量鏡頭和思維鏈提示。

不過，GPT-4 的圖像輸入展示仍然只是研究「樣品」預覽，真正的成果尚未公開。

GPT-4 可以指出被加工圖片的「異常」之處：

GPT-4 圖片異常

GPT-4 還能讀懂「梗圖」，理解幽默：

GPT-4 梗圖

GPT-4 甚至可以直接閱讀並分析帶有圖片的論文：

GPT-4 圖片論文

OpenAI 在一組標準的學術視覺基準測試中對GPT-4 的表現進行評估，預覽了它的性能。然而， OpenAI 表示這些數字並不完全代表它的能力範圍，因為 OpenAI 不斷發現這個模型能夠解決新的、「令人興奮」的任務。 OpenAI 計劃很快發布更多的分析和評估數據，以及對測試時間技術影響的全面調查。

GPT-4 評估

花 6 個月時間訓練，但訓練數據只截止到 2021 年 9 月

GPT-4 是如何訓練出來的？

遵循GPT、GPT- 2 和GPT- 3 的研究路徑， OpenAI 的深度學習方法利用更多數據和更多計算來創建越來越複雜和強大的語言模型。

過去兩年， OpenAI 重建了整個深度學習堆棧，並與微軟Azure一起從頭開始共同設計了一台超級電腦。一年前，訓練 GPT- 3.5 作為系統的第一次「試運作」， OpenAI 發現並修覆了一些錯誤並改進了理論基礎。結果，GPT-4 訓練運作前所未有地穩定，成為能夠提前準確預測其訓練性能的第一個大型模型。

OpenAI 花了 6 個月的時間使用對抗性測試程式和 ChatGPT 的經驗教訓叠代調整 GPT-4 ，從而在真實性、可操縱性以及拒絕越界和敏感問題方面獲得了有史以來最好的結果。在 OpenAI 的內部評估中，與 GPT- 3.5 相比，GPT-4 響應被禁止內容請求的可能性低 82% ，產生事實響應的可能性高 40% 。

與以前的 GPT 模型一樣，GPT-4 基礎模型經過訓練可以預測文件中的下一個單詞，並且使用公開可用的數據（例如網路數據）以及已獲得許可的數據進行訓練。

儘管功能強大，但 GPT-4 與早期的 GPT 模型具有相似的局限。最重要的是，它仍然不完全可靠，會「幻覺」事實並出現推理錯誤。

GPT-4 的訓練數據截止到 2021 年 9 月，因此對之後發生的事件缺乏了解，並且不會從自己的經驗中學習。它有時會犯一些簡單的推理錯誤，這些錯誤似乎與其強大的跨領域功能不符，有時也會過於輕信用戶明顯錯誤的陳述；有時，它也會像人類一樣在解決難題時失敗，例如在產生的代碼中引入安全漏洞。

OpenAI 提醒，在使用語言模型輸出時應格外小心，特別是在高風險上下文中，使用符合特定用例需求的確切協議（例如人工審查、附加上下文的基礎或完全避免高風險使用）。

為此， OpenAI 納入了更多的人工回饋，包括 ChatGPT 用戶提交的回饋——這其中可能也包括你與 ChatGPT 的對話數據。 OpenAI 還與 50 多位專家合作，在 AI 安全和保障等領域獲得早期回饋。

GPT-4 回饋

雖然產生內容的可靠性仍是一個真問題，但 GPT-4 相對於以前的模型顯著減少了胡說八道。在 OpenAI 的內部對抗性真實性評估中，GPT-4 的得分比 OpenAI 最新的 GPT- 3.5 高 40% ：

GPT-4 得分

GPT-4 項目的主要焦點之一是構建可預測擴展的深度學習框架，主要原因是對於像 GPT-4 這樣非常大的訓練任務，進行大量的模型特定調整是不可行的。

OpenAI 開發了基礎設施和優化方法，能夠在多個規模下表現出非常可預測的行為。為了驗證這種可擴展性，OpenAI 通過對使用相同方法進行訓練但計算量少 10,000 倍的模型進行推斷，在內部代碼庫（不是訓練集的一部分）上準確預測了 GPT-4 的最終損失。

GPT-4 損失

現在 OpenAI 可以準確預測在訓練期間優化的指標（損失），開始開發方法來預測更多可解釋的指標。例如，OpenAI 成功預測了 HumanEval 數據集子集的通過率，從計算量減少 1,000 倍的模型推斷。

OpenAI 認為，準確預測未來的機器學習能力是安全的重要組成部分，但相對於其潛在影響而言，它並沒有得到足夠的重視。OpenAI 正在加大力度開發方法，為社會提供更好的未來系統預期指導，希望這成為該領域的共同目標。

如何嘗鮮 GPT-4？

目前有兩種辦法可以體驗 GPT-4 。

如果你是普通用戶，先前訂閱了 ChatGPT Plus，將會直接獲得 GPT-4 的訪問權限。不過，ChatGPT Plus 只能用美國信用卡開通。

OpenAI 將根據實踐中的需求和系統性能調整使用上限，但預計會受到嚴重的容量限制。

根據 OpenAI 看到的流量模式，OpenAI 可能會為更高容量的 GPT-4 使用引入新的訂閱級別；OpenAI 也希望在某個時候提供一些免費的 GPT-4 查詢，這樣那些沒有訂閱的人也可以嘗試一下。

如果你是開發者，要訪問 GPT-4 API（使用與 GPT- 3.5 -turbo 相同的 ChatCompletions API），需要像等待 New Bing 一樣加入 OpenAI 的候補名單。

OpenAI 自 2023/03/15 將開始邀請一些開發人員，並逐步擴大規模以平衡容量與需求。

OpenAI 也公布了定價策略——每 1,000 個 prompt tokens 0.03 美元，每 1,000 個 completion tokens 0.06 美元。預設速率限制為每分鐘 4 萬個 token 和每分鐘 200 個請求。

GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個tokens上下文（約 50 頁文本）版本的有限訪問，該版本也將隨著時間自動更新（目前版本 GPT-4-32k – 0314 ，支持到 6 月 14 日）。定價為每 1,000 個 prompt token 0.06 美元和每 1,000 個 completion token 0.12 美元。

此外，OpenAI 宣布開源其軟體框架 OpenAI Evals，用於創建和運作基準測試以評估 GPT-4 等模型。

OpenAI 使用 Evals 來指導 OpenAI 模型的開發，OpenAI 的用戶可以應用它來跟蹤模型版本的性能，並不斷發展產品集成。例如，Stripe 使用 Evals 來補充他們的人工評估，以衡量其基於 GPT 的文件工具的準確性。

由於所有代碼都是開源的，Evals 支持編寫新的類來實現自定義評估邏輯。然而，在 OpenAI 自己的經驗中，許多基準測試都遵循幾種「模板」的其中之一，因此 OpenAI 還包括了最有用的模板，包括一個「模型評估模板」—— OpenAI 發現 GPT-4 出人意料地能夠檢查自己的工作。

OpenAI 希望Evals成為分享和眾包基準測試的工具，代表著最廣泛的失敗模式和困難任務。作為一個示範，OpenAI 創建了一個邏輯謎題評估，其中包含 GPT-4 失敗的十個提示。Evals也與實施現有基準測試兼容；OpenAI 包括了幾個實施學術基準測試和幾個（小的子集）CoQA集成的筆記本作為示例。

GPT-4 結論

GPT-4 已經累積了部分商業客戶。比如，Stripe 使用 GPT-4 掃描商業網站並向客戶支持人員提供摘要，Duolingo 將 GPT-4 構建到新的語言學習訂閱層中。摩根史坦利正在創建一個由 GPT-4 驅動的系統，該系統將從公司文件中檢索資訊並將其提供給金融分析師。可汗學院正在利用 GPT-4 構建某種自動化導師。

GPT-4 將大模型推向了一個新的高度，甚至是「斷崖式」領先。包括 Google、百度在內的海內外科技公司，不可避免地將面對自家產品「發布即落後」的尷尬局面，而微軟則躺在 OpenAI 背後「賺麻了」。

《虎嗅網》授權轉載

【延伸閱讀】

週餘

篇