機器學習新篇章- deep learning，Facebook大腦就靠它了

最近更新時間： 06 February, 2015

作者
惜辰

文章來源
網易科技

國外媒體發表文章對Facebook人工智能實驗室負責人Yann LeCun進行評述，文章談及LeCun所研究的卷積神經網絡對人工智能產生深遠影響，潛力不容小覷。此外還介紹了他開發的書寫數字識別系統LeNets以及他對反向傳播算法的研究成果，並對深度學習的前景進行評析。

馬克•扎克伯格精心挑選了深度學習專家Yann LeCun擔任Facebook人工智能實驗室的負責人。該實驗室於去年年底成立，作為紐約大學任教已久的教授，Yann LeCun對深度學習（deep learning）的研究成績斐然，在IEEE世界計算智能大會中榮獲神經網絡先鋒獎。「深度學習」為人工智能的一種形式，旨在更密切地模仿人類大腦。最初，大多數人工智能研究人員公開表態對深度學習嗤之以鼻，但短短幾年後，它卻突然在整個高科技領域蔓延開來，橫跨Google、微軟（Microsoft, MSFT-US）、百度（Baidu, BIDU-US）再至Twitter。

這些高科技公司正在探索深度學習的一種特殊形態——卷積神經網絡，旨在打造可以自動理解自然語言以及識別圖像的Web服務。Google Android手機的語音識別系統就是基於神經網絡而開發的。百度利用神經網絡對一種新型的可視化搜索引擎進行研發。研究深度學習的學者不在少數，但它能獲得成功，LeCun功不可沒。微軟的機器學習專家Leon Bottou早期曾與LeCun合作，他說：「對於可視化卷積神經網絡，LeCun的付出遠甚於他人。」

People Circle Using Computer Robot Symbol Concept

面臨巨大懷疑，LeCun仍然力挺神經網絡。要讓神經網絡正常運作需要功能強大的電腦和龐大的數據集，但上世紀80年代LeCun剛剛接觸這一全新領域時，卻不具備這些支持條件。當時才剛剛步入電腦時代，科學家們對人工智能報以熱切的期望，但神經網絡受限於那時的條件，無力滿足科學家的願景，因而不被看好，要想在權威學術期刊發表與神經網絡相關的文章困難重重，時至90年代甚至是到21世紀初，這一狀況依舊沒有得到改善。

但LeCun仍然堅持不懈。深度學習的核心學者Geoffrey Hinton說：「他就像在黑暗中舉著火炬。」終於，如今電腦技術大步邁向前，為深度學習提供了必要的技術支持，其潛力亦得以開發。

LeCun的LeNets

在加入Facebook之前的二十多年，LeCun在貝爾實驗室中工作，這段時間內，他研發出了一個可以識別手寫數字的系統，並稱之為LeNet。貝爾實驗室作為世界上最著名的電腦研究實驗室，是晶體管、Unix操作系統和C語言的發源地。

LeNet能夠自動讀取銀行支票，它標誌著卷積神經網絡首次被應用於實踐中。Bottou表示：「卷積網絡原本像是個小玩具，LeCun將之應用於規模更廣的實際問題中。」

上個世紀70以及80年代，認知機（cognitron）和神經認知機(Neocognitron)這些早期的神經網絡模型能夠自主學習從數據中識別圖形，並且無需人類的過多提示。但這類模型都相當複雜，研究人員無法完全弄清楚如何使它們運行無誤。LeCun表示：「當時缺少一種監督學習算法，現在我們稱之為反向傳播算法（Back propagation）。」這種算法能有效地使錯誤率最小化。

卷積神經網絡

卷積網絡是由相互連通的卷積層組成，與大腦中處理視覺信息的視覺皮層十分類似。卷積網絡的不同之處在於，它們可以重複使用一張圖像中多個位置的相同過濾器。舉例而言，一旦卷積網絡學會了在某個位置識別人臉，那麼它也可以自動在其他位置識別人臉。這種原理也適用於聲波和手寫文字。

百度研究院負責人吳恩達（Andrew Ng）認為，這使人工神經網絡能夠快速接受培訓，因為“內存佔用空間小，不需要對圖像中每個位置的過濾器進行單獨存儲，從而使神經網絡非常適合於創建可擴展的深網（deep nets）”。這也令卷積神經網絡具有善於識別圖形的優點。

當卷積神經網絡接收到圖像（即輸入）時，它將其轉換為代表特徵的數字陣列，並對每個卷積層中“神經元”進行調整以識別數字中某些圖形。低級神經元能夠識別基本形狀，而高級神經元則能夠識別狗或人等更複雜的形態。每個卷積層與相鄰的層互通，當信息在網絡中傳播時，就會得出平均值。最後，網絡通過猜測圖像中是什麼圖形從而得出輸出結果。

如果網絡出錯，工程師可以對層與層之間的連接進行微調，以便得到正確答案。而神經網絡能夠自主進行微調，因而更勝一籌。這時反向傳播算法就開始發揮作用了。

反向傳播算法

反向傳播算法的原理是計算誤差，並根據誤差對卷積層所接收的強度進行更新。上個世界80年代中期，David Rumelhart、Geoffrey Hinton及Ronald Williams提出反向傳播算法，即同時為多重輸入計算誤差，並取平均值。然後通過網絡將平均誤差從輸出層到輸入層反向傳播。

LeCun對反向傳輸算法的構想與上述不同，他並未採取平均值，而是為每個樣本計算出誤差。他的這種方法成效不錯，速度更快。

據Bottou透露，LeCun得出這一辦法，實際上是陰錯陽差的結果。「當時我們在法國使用的電腦不夠力。」他們不得不想辦法，希望儘可能用最少的電腦配置快速地計算出誤差。這在當時似乎是蒙混過關的做法，但如今卻成為人工智能工具箱的重要部分，它就是隨機梯度下降算法（stochastic gradient descent）。

LeCun的LeNets已廣泛應用於世界各地的自動取款機和銀行，用以識別支票上的手寫字跡，但有人仍持懷疑態度。LeCun表示：「目前我們所獲得的進展還不足以說服電腦視覺領域承認卷積神經網絡的價值。」部分原因在於，雖然卷積神經網絡功能強大，但沒有人知道它為什麼這麼強大。目前還未能揭開這項技術謎一般的內在原理。

深度學習的前景

LeCun指出：「很少有某項技術能在問世20或25年後，雖然基本上未經改變，但在時間的考驗下被證實是最優異的，人們接受它的速度是驚人，我過去從未遇見過這樣的情況。」

目前使用最廣泛的卷積神經網絡幾乎完全依賴於監督學習（supervised learning）。這意味著，如果想讓神經網絡學會如何識別某一特定對象，就必須對幾個樣本進行標註。無監督學習（unsupervised learning）是指從未經標記的數據展開學習，這更接近人腦的學習方式。目前一些深度學習的研究者正在探索這一領域。

LeCun表示：「我們對大腦如何學習幾近完全陌生。人們已經知道神經元突觸能夠自我調整，但我們對大腦皮層的機理尚不明確。我們知道最終答案是無監督學習，但卻無力解答。」

反向傳播算法不太可能體現出人類大腦的運作機理，所以研究者正在探索其他算法。此外，卷積網絡在收集數據或計算平均值時，效果並非十全十美，所以當前研究者也盡力做出改進。LeCun表示：「卷積網絡會丟失信息。」

以人臉為例，系統如果學會識別眼睛和嘴唇之類的面部特徵，便能有效地識別出圖像中有人臉，但無力分辨出不同面孔之間的差異。它也無法很好地找出眼睛在臉上的準確位置。高科技公司和政府想要創建有關用戶或居民詳盡的數字檔案，以上所提及的缺陷將成為無法迴避的短板。

LeCun的研究也許不算完美，但當前卻是這一領域的尖端理論。（惜辰）

《網易（NetEase, NTES-US）科技授權轉載》

週餘

篇