股票期貨

基金實務

投資策略

理財規劃

商業策略

宏觀經濟

驚世語錄

另類投資
記憶體股為什麼暴跌?Google TurboQuant 是什麼?記憶體還能買嗎?
收藏文章
很開心您喜歡 虎嗅網 的文章, 追蹤此作者獲得第一手的好文吧!
虎嗅網
字體放大


分享至 Line

分享至 Facebook

分享至 Twitter


記憶體股為什麼暴跌?Google TurboQuant 是什麼?記憶體還能買嗎?

最近更新時間: 26 March, 2026

 
展開

看過 HBO 神劇《矽谷群瞎傳》(Silicon Valley)的朋友,想必都對那個名為 Pied Piper(魔笛手)的虛擬公司念念不忘。在劇中,男主角 Richard Hendricks 發明了一種「中間壓縮演算法」,能以極高的壓縮率無損處理檔案,甚至因此改寫了整個網際網路的規則。

當時我們都以為這只是編劇的腦洞。直到 Google Research 正式發布了名為 TurboQuant 的 AI 壓縮演算法。

資料來源:Google Research

這原本只是一條枯燥的技術新聞,卻在社群網路上引發了病毒式傳播,不到 24 小時,就收穫了 1280 萬次瀏覽。原因無他,這項技術的設定簡直就是 Pied Piper 的翻版:

在不損失模型效能的前提下,將 AI 的「工作記憶」壓縮至少 6 倍。

市場的反應也極為真實,美股記憶體晶片類股盤中遭遇拋售,美光科技(Micron)、SanDisk 等龍頭企業股價齊齊收跌。

這不禁讓人好奇,一項純軟體層面的演算法創新,為什麼會讓賣硬體的先慌了神,而 Google 到底向目前的 AI 牌桌上扔了一張怎樣的底牌?

困在「記憶黑洞」裡的大模型

TurboQuant 的出現其實不單純只是為了好玩,更是為了解決一個讓整個 AI 產業頭疼已久的真實瓶頸。

眾所周知,現在的 AI 模型越來越大,對顯示記憶體(VRAM)的胃口也像無底洞一樣。尤其是在推論階段(也就是你和 AI 聊天的時候),AI 需要記住上下文資訊,這部分數據被稱為 KV Cache(鍵值快取)。

KV Cache(鍵值快取)

每處理一個詞,模型都要把它轉成一個高維度的向量再存進 GPU 顯示記憶體。對話越長,這份「數位備忘錄」膨脹越快,很快就把 GPU 顯示記憶體塞滿。這就是為什麼你的 AI 助手聊久了會「變笨」或者直接顯示錯誤,那就是因為「腦容量不夠了」。

更棘手的是,傳統的壓縮方法一直面臨一個兩難困境:壓縮數據時,需要額外儲存「量化常數」來告訴模型怎麼解壓。這些中繼資料聽起來很小,加起來卻能把壓縮帶來的收益全部抵消掉。

Google 的 TurboQuant 就是因此而誕生。

研究人員設計了一套兩階段的數學解法。第一階段叫 PolarQuant,把數據向量從傳統的直角座標系轉換成極座標系,拆分成「半徑」(表示大小)和「角度」(表示方向)。

這個幾何轉換的妙處在於:轉換後角度的分佈變得高度可預測,模型不再需要為每個數據塊單獨儲存昂貴的正規化常數,直接映射到固定的圓形網格上就行了,開銷為零。

PolarQuant

第二階段叫 QJL(Quantized Johnson-Lindenstrauss 轉換),充當數學層面的糾錯器。它把壓縮後殘留的誤差投影到低維度空間,再把每個誤差值壓縮成一個正負號位元(+ 1 或 – 1 )。

這個設計保證了 AI 在計算「注意力分數」時,壓縮版本的結果與高精度原版在統計意義上完全一致。所謂注意力分數,就是模型判斷上下文裡哪些詞最重要的關鍵步驟。

如果說以前 AI 記筆記是「逐字逐句抄寫」,那麼 TurboQuant 就像發明了一套「極簡速記符號」:該記的一個不漏,佔用的空間卻少了六倍。

這套方法還有一個對企業來說格外友好的特性:無需重新訓練模型。你現有的開源模型,或者自己微調過的模型,直接套上 TurboQuant 就能跑,不用額外的數據集,也不用重新跑一遍訓練流程。

光說不練假把戲,在「大海撈針」基準測試(Needle In A Haystack)裡,讓 AI 從 10 萬個詞裡找出一句藏好的話,TurboQuant 在 Llama- 3.1 – 8B 和 Mistral- 7B 上跑出了滿分召回率,同時把 KV Cache 的顯示記憶體佔用壓縮了至少 6 倍。

TurboQuant

在 LongBench 綜合評測套件(涵蓋問答、程式碼產生、長文摘要)上,TurboQuant 全面追平甚至超過了先前的最強基準方法 KIVI。

最硬核的數字來自輝達 H100 GPU 的實測: 4 位元( 4-bit )精度的 TurboQuant 在計算注意力邏輯上的速度,比未壓縮的 32 位元方案快了整整 8 倍。

TurboQuant速度

Google 的 DeepSeek ?

論文發布後的 24 小時內,社群已經開始動手驗證。

Apple Silicon MLX 框架的知名開發者 @Prince_Canuma 把演算法移植到了 Apple Silicon 的 MLX 框架,測試 Qwen3.5 – 35B 模型,上下文長度從 8500 到 64000 token 全覆蓋,每個量化等級都跑出了 100% 的精確匹配。

他還發現, 2.5 位元的 TurboQuant 能把 KV Cache 壓縮近 5 倍,準確率零損失。

TurboQuant壓縮

對於 TurboQuant 的發布,Cloudflare 執行長 Matthew Prince 甚至將其稱為 Google 的「DeepSeek 時刻」。

把時間撥回一年前,DeepSeek 以極低的成本訓練出了效能驚人的模型,徹底打破了矽谷大廠對高成本才能訓練出高性能 AI 的迷信。那次衝擊也讓整個產業意識到:光有大模型不夠,還得跑得起、跑得快。

TurboQuant 也是這種背景下的產物。如果這項技術能從實驗室走向大規模應用,它將帶來肉眼可見的商業價值。

同樣一張 H100 ,推論成本理論上可以直接打折超過 50% ;裝置端(端側)部署的門檻也會大幅降低,以前需要 32 位元精度才能跑的大模型,放在 Mac Mini 或者在地伺服器上也能運作,還不會有品質損耗。

市場的反應,已經很說明問題了。TurboQuant 發布當天,美股記憶體晶片類股盤中遭遇明顯拋售。SanDisk、美光科技等龍頭企業股價顯著收跌,記憶體晶片與硬體供應鏈相關指數單日跌幅超過 2% 。

究其原因,如果 AI 巨頭能用一套純軟體演算法把顯示記憶體需求砍掉六分之五,那些押注 AI 會持續瘋狂消耗高頻寬記憶體(HBM)的多方,就得重新盤算自己的部位了。

而這種防禦性反應背後,也表明過去兩年支撐記憶體股估值的核心邏輯之一,是 AI 對顯示記憶體的需求只會越來越大。TurboQuant 第一次在技術層面正式動搖了這個假設。

當然,雖然聽起來很美好,還是要潑一盆冷水。一方面,歷史上每次效率提升,往往反而帶動了總需求成長,經濟學上稱為「傑文斯悖論」。AI 跑得更便宜,可能意味著更多人更頻繁地使用它,最終消耗的算力反而更多。所以這場「顯示記憶體危機」到底會不會因此化解,還真不好說。

另一方面,TurboQuant 目前仍處於實驗室階段,根據最新消息,Google 計劃在下個月的 ICLR 2026 大會上正式展示這項技術,屆時還將同步亮相另一場頂會 AISTATS 2026 。

但從論文到大規模生產部署,中間隔著工程適配、不同架構的相容性測試、真實場景的效能驗證,每一關都不輕鬆。

TurboQuant 論文

論文地址:https://arxiv.org/abs/2504.19874

有網友直接開砲,這篇論文的底層研究其實早在去年四月就已公開,根本談不上橫空出世,眼前的輿論熱潮,多少有點追著舊聞起鬨的意思。

在他看來,如果記憶體股因為一篇演算法論文而大跌,恰恰暴露了市場裡有多少人根本沒搞清楚這件事的邊界,並把這波反應比作「Toyota 出了新油電混合引擎,石油股就該崩跌」。

X網友直接開炮

更重要的是,TurboQuant 解決的只是推論(Inference)階段的顯示記憶體瓶頸,訓練(Training)階段的顯示記憶體消耗依然是另一座大山。想從頭訓練一個主流量級的大模型,需要的算力資源依然是天文數字。

在《矽谷群瞎傳》裡,Pied Piper 的壓縮演算法最終改變了整個網際網路。而在現實中,TurboQuant 的野心沒那麼大,目標只是讓 AI 在有限的物理空間裡記得更多、算得更快、跑得更便宜。

現實終究不是好萊塢劇本,不必徹底改變網際網路,能和 AI 聊得更長、不再顯示錯誤,已經是很多人想要的了。

附上 TurboQuant 官方技術部落格:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

虎嗅網》授權轉載

【延伸閱讀】

 
週餘
 
 
分享文章
分享至 Line
分享至 Facebook
分享至 Twitter
收藏 已收藏
很開心您喜歡 虎嗅網 的文章, 追蹤此作者獲得第一手的好文吧!
虎嗅網
分享至 Line
分享至 Facebook
分享至 Twitter
[]