當 AI 的自信成為問題
您是否曾問過 ChatGPT 一個簡單的事實問題,卻得到一個看似頭頭是道、實則完全錯誤的答案?例如,當研究人員詢問一個先進的語言模型某位學者的生日時,模型在三次嘗試中給出了三個不同的錯誤日期,儘管提示要求「如果你知道才回答」 。這種現象被稱為「人工智慧幻覺」(AI Hallucination),即大型語言模型 (LLMs) 會自信地產生似是而非的虛假陳述 。
這種「幻覺」不僅僅是無傷大雅的小錯誤,它嚴重破壞了我們對這些強大工具的信任 。從學術研究到商業決策,如果我們無法依賴 AI 提供的資訊,其應用價值將大打折扣。但這些幻覺究竟從何而來?它們是模型中無法根除的「幽靈」,還是一個可以被理解和解決的問題?
一篇來自 OpenAI 和喬治亞理工學院研究人員的開創性論文《大型語言模型為何會產生幻覺》給出了深刻的答案 。他們的核心論點顛覆了許多人的直覺:
幻覺並非神秘的程式錯誤,而是當前 AI 訓練與評估體系下的必然產物 。
簡單來說,我們現有的機制正在無形中「獎勵」AI 進行猜測,而非誠實地承認「我不知道」。
本文將深入剖析這篇論文的核心觀點,跟著股感一起了解幻覺如何在 AI 的「成長」過程中被植入,又為何在層層優化後依然頑固存在,並最終探討論文提出的、可能引導我們走向更值得信賴 AI 的解決之道。
幻覺的源頭—預訓練階段的統計宿命
許多人認為,只要給 AI 餵養完全準確、乾淨的資料,幻覺問題就能迎刃而解。然而,該論文指出,問題遠比這更根本。即使在最理想的情況下——訓練資料庫中沒有一絲錯誤——現行的預訓練方法本身就會從統計層面上催生錯誤 。
生成錯誤的必然性:從「是否有效」看問題本質
要理解這一點,研究人員提出了一個巧妙的視角轉換 。他們將複雜的「生成一段有效文本」任務,簡化為一個更基礎的二元分類問題,稱為「是否有效 (Is-It-Valid, IIV)」。
想像一下,我們給模型看無數個句子,讓它判斷「這個句子是有效的 (+) 還是無效的 (-)」 。這個判斷任務顯然比從零開始「創造」一個有效句子要簡單 。論文通過嚴謹的數學推導,建立了兩者之間的關係:
(模型的生成錯誤率)≥ 2 ×(IIV 分類錯誤率)
這個公式的意義重大。它告訴我們,語言模型產生幻覺(一種生成錯誤),其根源與傳統機器學習中的分類錯誤並無二致 。這就將幻覺從一個神秘的黑箱問題,轉化為一個有數十年研究基礎、可以被清晰分析的統計問題 。
造成預訓練錯誤的三大統計因素
既然幻覺等同於分類錯誤,那麼所有導致分類器出錯的原因,也同樣會導致語言模型產生幻覺。論文重點分析了以下幾個因素 :
1. 知識的缺失:任意事實與「單例」問題
當數據中缺乏清晰、可學習的模式時,模型就會面臨「知識不確定性」(epistemic uncertainty) 。最典型的例子就是個人生日或任意指定的配對事實 。這些事實之間沒有邏輯關聯,模型唯一的學習方式就是死記硬背。
論文引入了一個關鍵概念:「單例率」(singleton rate) 。如果一個事實(例如,某位不知名人士的生日)在龐大的訓練數據中只出現過一次,它就是一個「單例」 。這些單例就像是數據海洋中的孤島,極難被模型牢固記住。研究證明,
模型在回答這類問題時的幻覺率,至少會等於訓練數據中相關事實的「單例率」 。
舉例來說,如果關於生日的訓練資料中,有 20% 的人物生日只被提及過一次,那麼一個經過標準預訓練的模型,在被問及這些人的生日時,預計至少會有 20% 的機率產生幻覺 。
2. 模型的能力限制:當工具不稱手
有時候,問題不在於數據,而在於模型本身 。如果模型的架構或設計使其難以捕捉某些類型的規律,錯誤就在所難免。這就像用一把直尺去畫一個完美的圓圈 。
論文用一個經典的例子說明:早期的 trigram 模型(一種一次只考慮前兩個詞來預測下一個詞的簡單模型)在處理需要長距離依賴的語法時,就常常出錯 。例如,它可能無法根據主語「She」或「He」來正確選擇「her mind」或「his mind」,導致生成錯誤率高達 50% 。
同樣,論文中提到的字母計數問題(例如,詢問 DeepSeek-V3 模型「DEEPSEEK」中有幾個「D」,模型卻給出「2」或「3」的錯誤答案)也反映了模型在表徵上的挑戰 。由於現代語言模型通常將單詞處理為「權杖」(tokens) 而非單個字母(例如,「DEEPSEEK」可能被拆分為「D」、「EEP」、「SEE」、「K」),這使得簡單的計數任務對它而言也變得十分困難 。
3. 垃圾進,垃圾出 (GIGO):訓練數據的原罪
這一點最為直觀。大型語言模型的訓練語料庫來源於廣泛的網路文本,其中不可避免地包含了大量的事實錯誤、偏見、過時資訊甚至是陰謀論 。模型在學習語言模式的同時,也會將這些「垃圾」資訊一併吸收,並在生成內容時加以複製 。這在分類和生成任務中的原理是相通的 。
幻覺為何揮之不去?—後訓練與評估機制的「共謀」
如果說預訓練為幻覺的產生埋下了種子,那麼後訓練 (post-training) 和現行的評估機制則為其茁壯成長提供了肥沃的土壤。後訓練階段(如指令微調、人類回饋強化學習 RLHF)的目標本應是減少幻覺,使其更符合人類的期望 。但論文尖銳地指出,我們用來「考核」AI 的方式,正在反向激勵幻覺的產生 。
AI 變身「考生」:二元評分下的最佳策略
論文提出了一個極具說服力的比喻:
語言模型就像一個參加標準化考試的學生 。
想像一場考試,答對一題得 1 分,答錯或留空不答都是 0 分 。在這種「二元評分」(binary grading) 體系下,當一個學生對某道題目不確定時,他的最佳策略是什麼?不是留白,而是猜測一個最可能的答案。因為只要猜對的機率大於零,猜測的期望得分就高於不答。
不幸的是,這正是當今絕大多數主流 AI 評估基準的運作方式 。無論是 MMLU-Pro、SWE-bench 還是 MATH,它們主要都以準確率 (accuracy) 或通過率 (pass-rate) 作為核心指標 。在這些評估中,模型回答「我不知道」或任何表示不確定的話語,都會被判為 0 分 。
因此,為了在這些重要的排行榜上取得好成績,模型被優化成了一個極端的「應試者」 。它學會了無論何時都要給出一個具體的、自信的答案,即使它對這個答案的信心微乎其微。論文將這種現象稱為一場「懲罰不確定性的流行病」(epidemic of penalizing uncertainty)。
一場不公平的競賽:誠實模型的困境
為了更清晰地說明這個問題,論文設計了一個思想實驗 。假設有兩個模型:
- 模型 A:一個「誠實」的模型。當它不確定時,會明確表示「我不知道」,從不產生幻覺 。
- 模型 B:一個「投機」的模型。它在確定的時候與模型 A 表現一致,但在不確定時,它會選擇猜測一個最可能的答案 。
在現行的二元評分基準下,
模型 B 的得分幾乎總會高於模型 A 。因為模型 B 的每一次猜測都有可能得分,而模型 A 的每一次「誠實」作答都註定是 0 分。
這就形成了一個惡性循環:模型開發者為了讓模型在排行榜上名列前茅,會無意識地選擇那些更傾向於「猜測」的訓練策略和模型變體。這導致幻覺這種猜測行為,儘管在實際應用中有害,卻在評估體系中得到了持續的獎勵和強化 。
破局之路:如何引導 AI 學會「誠實」?
面對這個根植於體系中的難題,論文認為,僅僅開發更多、更好的幻覺檢測工具是治標不治本的 。真正的出路在於一場「社會技術層面的緩解」(socio-technical mitigation),即
從根本上改革那些主導著 AI 發展方向的主流評估基準 。
停止懲罰不確定性:從改變評分規則開始
核心思想很簡單:我們必須停止懲罰 AI 的「誠實」。這意味著要修改現有評估的計分方式,為表示不確定性的回答提供合理的得分空間 。
引入「信心中介」:讓 AI 權衡風險
論文提出了一個具體且可操作的方案:在評估問題中引入明確的「信心中介」(confidence targets) 。這就像在考試說明中提前告知學生答錯會倒扣分一樣。
例如,可以在每個問題的提示中加入類似以下的說明:
「請僅在你對答案的信心超過 90% 時才回答。正確答案得 1 分,錯誤答案將被扣除 9 分,回答『我不知道』得 0 分。」
這個簡單的改變會帶來巨大的影響。在這種評分體系下,一個理性的模型會計算其回答正確的機率。只有當這個機率高於指定的閾值(本例中為 90%)時,回答問題的期望收益才會是正的 。否則,選擇回答「我不知道」以獲得 0 分,將是更明智的選擇。
這種方法的優點在於它的透明性和客觀性 。通過在提示中明確給出閾值,評估不再隱晦地偏好某種行為,而是為所有模型提供了一個公平的競技場。
追求「行為校準」:從說到做的誠實
最終的目標是實現「行為校準」(behavioral calibration) 。這意味著模型不僅僅是輸出一個信度的數字,而是其實際行動(是回答、拒絕回答還是給出一個更模糊但安全的答案)能夠與其內在的信心水平相匹配 。
當模型被告知信心閾值為 90% 時,它可能會選擇將一個不確定的答案「拿破崙出生於 1769 年 8 月 15 日」替換為一個它更有把握的答案「拿破崙出生於 18 世紀下半葉」。後者雖然資訊量較少,但卻是誠實且正確的。
結論:重新校準 AI 的未來:從「應試者」到「合作夥伴」
《大型語言模型為何會產生幻覺》這篇論文的貢獻在於,它將 AI 幻覺從一個令人困惑的技術故障,重新定義為一個源於統計原理和評估體系偏差的可解釋現象 。幻覺的產生有其統計上的必然性,而它的持續存在,則是因為我們現有的「考試制度」正在獎勵投機取巧的「考生」 。
要構建更值得信賴、更可靠的 AI,我們需要的不僅是更好的演算法,更是一場評估哲學的變革。通過修改主流評估基準,引入信心中介,獎勵而非懲罰對不確定性的誠實表達,我們可以重新校準 AI 的發展方向 。
這條路徑將引導 AI 從一個只會追求高分的「應試者」,轉變為一個能夠理解自身知識邊界、在關鍵時刻能夠說出「我不知道」的、真正可靠的智慧「合作夥伴」。這不僅是技術上的進步,更是確保人工智慧在未來能以更負責任、更有益的方式融入我們社會的關鍵一步。
【本文由 AI 協助產出】
【資料來源】
【延伸閱讀】