自從 ChatGPT 橫空出世以來,AI 領域再次引起了廣泛關注。最近,有關 AI 的討論絡繹不絕,其中不可避免地涉及到一些諸如「樣本、預訓練、大模型」等概念和術語。然而,要用淺顯易懂的方式向非專業人士解釋這些概念是相當具有挑戰性的。
但這對於自己和他人,都很有價值。正如愛因斯坦所言:
「If you can’t explain it simply, you don’t understand it well enough(如果你不能簡單地解釋,那就說明你理解不夠)」。
形象化解釋這些困難的名詞!
之前我曾寫了一篇名為《萬萬沒想到,枯燥的「機器學習」還可以這樣學!》的文章,受到了大家的歡迎。今天,我嘗試繼續運用形象化解釋的方法,把 AI 與人類學習和成長的類比,通過將 AI 與人們熟悉的事物進行比較的方式,簡要介紹 AI 相關的原理、進展和意義。
湧現 vs 咿呀學語、蹣跚學步
帶過小孩的家長都會有這樣一個感覺:突然有一天發現孩子會說話了、會走路了。
這個過程並非像「 0% 、 1% 、 2% …… 98% 、 99% 、 100% 」這樣逐個百分點緩慢提升,而是有一天突然發生了變化。
模型的「湧現」指的是在大量訓練數據和複雜模型結構的支持下,模型突然表現出較高的性能和新的能力。簡單來說,就是「量變引起質變」的過程。
當訓練樣本足夠大、算法迭代達到一定階段時,模型的能力會突然提高。能力「湧現」的前提,是大量不斷的輸入。
自孩子出生起,儘管他們聽不懂、不會說,但家長要不斷與孩子互動,跟他說話。在日積月累的過程中,有一天孩子的說話能力就會「湧現」出來。
模型的發展過程也類似。一開始可能什麼都不會,即使「能說會道」,也可能表現出「智障」或者「一本正經地胡說八道」。然而,在持續的大樣本訓練和算法不斷迭代的過程中,有一天它就能達到像 ChatGPT、GPT-4 那樣讓人驚艷的理解能力、推理能力和表達能力。
預訓練(Pre-Train)、精調(Fine-Tuning)vs讀萬卷書、行萬里路、與萬人談
孩子們會說話、會走路之後,人的學習才正式開始。一個人的學習成長,通常先經過基礎教育、廣泛的學習,再發展為專業的、深入某個領域的學習。不僅要廣泛涉獵,大量學習書本知識,還要進行實踐和與人交流。
在這個過程中,應用所學知識,獲取回饋,對大腦中的知識進行修正和提煉,即從「知識到智慧」,實現「知行合一」。掌握了基本的知識和技能後,人們需要找到自己的專長領域。
在學校里,碩士生、博士生和教授需要選擇一個細分領域進行深入研究。每個人,也都需要找到自己的產業和職業。對於 GPT 這樣的大型模型,它們的發展也是通過類似的過程。
首先進行「大規模數據集」進行「預訓練」,然後利用有標籤的樣本以及人類回饋,通過增強學習(Reinforcement Learning by Human Feedback,RLHF)進行微調和迭代。
模型的預訓練,指的是在大量無標籤數據上訓練模型以學習基本知識。這就像人在嬰兒階段以及從小學到高中階段進行大量學習一樣。不局限於某個領域,而是需要廣泛且大量地輸入資訊。
精調指的是在特定任務上,利用有標籤數據對模型進行微調,以便更好地適應特定任務。這就像人在閱讀了大量書籍後,還需要進行實踐,從實踐中獲得回饋並成長。許多偉人和名人,如毛澤東、列寧、馬斯克、查理·蒙格等,都非常熱愛閱讀,並樂於與人交流,在實際工作中大量實踐。只有這樣,才能獲得足夠多的知識,才能塑造出過人的智慧。
過擬合 vs 嬌生慣養
我們時常看到一些關於「孩子因為雞毛蒜皮之類的瑣事而做出傻事」的新聞,這通常是「嬌生慣養」的結果,與模型中的「過擬合」現象有相似之處。
所謂機器學習,就是讓機器從樣本中學習,從而「擬合」出規律,進而掌握技能。在訓練模型時,如果樣本過於單一或特徵選擇不當,就容易出現過擬合現象。
過擬合意味著模型將訓練樣本中的特殊情況誤認為是普遍情況。如此一來,在面對新的樣本時,模型就無法做出正確的處理。同樣,嬌生慣養(過擬合:over-fitting)導致的脆弱心智(模型)在面臨現實世界中的各種挫折時,往往無法正確應對(預測不準確、泛化能力差),從而很容易導致不幸的結果。
因此,我們應該讓孩子面對各種情況,並給予回饋,讓他們了解並適應真實世界。
大模型、小模型 vs 職業教育/基礎教育
人的教育有兩種類型,一種是從小就教他一門手藝。比如「做菜、開車、做鐵匠、木匠」等等,這樣他就成為了一個專才。另外,就先是漫長的基礎教育,再是高等、專業教育。先打好基礎,再選擇專業方向。模型跟人一樣,你給他輸入什麼,他就有什麼樣的輸出,他就有什麼樣的知識技能。在大模型之前,大家熟知的貓狗識別、指紋識別、人臉識別等等模型,就是做特定的事情,類似於職業教育。
這樣的模型可以稱為「小模型」,一方面是模型的 size 小,另外一方面是模型的能力範圍比較窄。GPT 這樣的模型之所以稱為大模型,既是因為訓練數據集規模大、訓練出的模型 size 大,也指的是模型有廣泛的能力,好像是「上知天文、下知地理」。讀萬卷書,就是大模型,發展出通用智能。只讀菜譜、只練廚技,就是小模型,發展特定技能。
大模型 vs 腦容量、字典、書籍
我們可以從以下三個方面,來形象化地理解大模型。
首先,以腦容量作為比喻。模型的大小就像動物的腦容量一樣,較大的腦容量通常意味著更高的智慧。擁有更多神經元和神經元間連接的大腦,才能夠儲存更多知識。
其次,以字典作為比喻。如果一個語言的字典僅包含十個字,那麽這個語言能表達的意義將非常有限。然而,如果字典中有數萬個字,那麽它就能表達更豐富的資訊。
最後,以書籍進行類比。為什麼大模型更具威力?
以 GPT- 3 為例,其模型有 40GB ,相當於 400 億個字節,粗略地估算相當於 200 億個字。假設一本書有 20 萬字,那麽這就相當於 10 萬本書。可以說, 10 萬本書基本上能夠涵蓋人類幾乎所有的知識,且不重複。(需要認識到的是,成千上萬年來,人類知識的記錄和傳承基本上就是通過語言和書籍形式進行的。)
因此可見,足夠大的模型,就能涵蓋足夠多的知識。
大模型,就有大智慧。
語言大模型 vs 作文能力的訓練
常規的語言模型能力相對有限,比如進行分詞、詞性判斷等,最多完成翻譯等任務。
GPT 作為「大語言模型(Large Language Model, LLM)」之所以如此強大,是因為一開始它並沒有特定的目的性,不是預設讓模型完成某一個任務,而是給模型廣泛地輸入和訓練。
在學生作文能力的培養上,有兩種方法。一種是以提升作文能力為目標,讓孩子閱讀各種作文技巧的書籍、參加各種作文培訓班。但這樣急於求成的方法,效果其實並不理想。
另一方面,有些家長鼓勵孩子從小養成閱讀的習慣,博覽群書。這樣一來,孩子的閱讀能力、知識面、思維能力都會得到很大提升,作文能力自然隨之提高。而且,由於閱讀速度、理解能力的成長,孩子在讀題、審題方面的速度和準確率也會提高,從而提升其他學科如數學、物理、化學等的成績。
更為重要的是,閱讀不僅能提高成績,還能塑造一個人的世界觀、氣質,並增強內心的力量。可以說,對一個人的一生都會產生深遠影響。因此,我們不應急功近利,而應培養「大模型」。有了大模型,各種能力自然而然就會呈現。
字符預測 vs 思維能力、寫作能力
人們常說,人如其文。一個人的文字能夠體現出其思考能力、表達能力等綜合素質。模型也是如此,ChatGPT 的能力體現在它的回答中,體現在一個個輸出的字中。
首先要說明的是,ChatGPT 在回答問題時,一個字一個字地慢慢往外蹦,並非因為網路速度的問題,而是因為模型就是以這種方式工作的:它根據目前的情境,不斷地推理出下一個應該輸出的字(將機率最高的字輸出)。因此,「準確預測下一個要輸出的字符」是模型能力的關鍵。
為了讓你更好地理解這個概念的重要性,我來舉一個例子。
假設有一部推理小說,故事情節跌宕起伏、線索錯綜複雜。小說的最後,有一句話:「兇手是______。」如果 AI 在讀到這裡時能輸出正確的字符,那麽就證明這個模型非常強大。表面上是字符,實際上是智能。
transformer 與 變形金剛
GPT 是「Generative Pre-trained Transformer」的縮寫,其中 Transformer 是一種深度學習架構,具體指的是一種基於自注意力(self-attention)機制的神經網路結構。這個概念至關重要,但的確難以理解。下面,嘗試解釋一下。
你可以「顧名思義」,用「變形金剛」這部電影來做類比。變形金剛就是把一輛汽車零件打散,然後再變成一個人。這個過程就像 Transformer 中的「編碼、解碼」的過程。將輸入序列(比如汽車)解碼成不同的部分(各個零件),並記憶零件之間的連接關係(通過自注意機制,self-attention),然後再根據相關資訊組裝成輸出序列(如人型機器人)。
在這個過程中,Transformer 可以捕捉輸入序列中的長距離依賴關係,從而實現更高效且準確的序列處理。
機器學習 vs 終身學習
人與人的最大差別就是學習能力。人要跟上社會發展,不僅要在學生時代好好學習,更重要的是在日常的工作和生活中不斷學習、終身學習。機器之所以這麽厲害、AI 之所以這麽強大,就是因為人家在不斷學習啊。
更何況,機器的記憶力、學習速度,可是人的成百上千倍。看看我們,一邊在擔憂「自己會不會被 AI 代替」,一邊整天慵懶地握著手機在玩遊戲、刷影片。
懶惰的人類,要努力了啊!
可解釋性 vs 人腦、道
科學技術發展到今天,人類對自己的大腦有了一定的了解,但完全談不上深入、透徹。同樣,對於利用深度神經網路技術打造出的 AI 模型,也存在「可解釋性」的問題。
儘管模型很強大,能識別出貓狗、能對答如流、能寫代碼、能畫畫,但即使是模型的開發者,也無法準確地說明,某個結果是如何具體產生的。可以說,人類用原理不明的大腦,開發出原理不明的大模型。
老子說,道可道非常道。對於 AI 來說,也是如此。
太簡單的模型,的確不會有強大的能力。
《虎嗅網》授權轉載
【延伸閱讀】