愛伊米

理解神經網路的關鍵是理解 通用近似定理

通用近似定理很好地解釋了為什麼神經網路能工作以及為什麼它們經常不起作用。

此前,圖靈獎得主、深度學習先驅 Yann LeCun 的一條推文引來眾多網友的討論。

在該推文中,LeCun 表示:「深度學習並不像你想象的那麼令人印象深刻,因為它僅僅是透過曲線擬合產生的插值結果。但在高維空間中,不存在插值這樣的情況。在高維空間中,一切都是外推。」

理解神經網路的關鍵是理解 通用近似定理

而 LeCun 轉發的內容來自哈佛認知科學家 Steven Pinker 的一條推文,Pinker 表示:「

通用近似定理很好地解釋了為什麼神經網路能工作以及為什麼它們經常不起作用

。只有理解了 Andre Ye 的通用近似定理,你才能理解神經網路。」

理解神經網路的關鍵是理解 通用近似定理

Pinker 所提到的 Andre Ye,正是接下來要介紹《

You Don’t Understand Neural Networks Until You Understand the Universal Approximation Theorem

》文章的作者。雖然該文章是去年的,但在理解神經網路方面起到非常重要的作用。

在人工神經網路的數學理論中, 通用近似定理(或稱萬能近似定理)指出人工神經網路近似任意函式的能力。通常此定理所指的神經網路為前饋神經網路,並且被近似的目標函式通常為輸入輸出都在歐幾里得空間的連續函式。但亦有研究將此定理擴充套件至其他型別的神經網路,如卷積神經網路、放射狀基底函式網路、或其他特殊神經網路。

此定理意味著神經網路可以用來近似任意的複雜函式,並且可以達到任意近似精準度。但它並沒有告訴我們如何選擇神經網路引數(權重、神經元數量、神經層層數等等)來達到我們想近似的目標函式。

1989 年,George Cybenko 最早提出並證明了單一隱藏層、任意寬度、並使用 S 函式作為激勵函式的前饋神經網路的通用近似定理。兩年後 1991 年,Kurt Hornik 研究發現,啟用函式的選擇不是關鍵,前饋神經網路的多層神經層及多神經元架構才是使神經網路有成為通用逼近器的關鍵。

最重要的是,該定理解釋了為什麼神經網路似乎表現得如此聰明。理解它是發展對神經網路深刻理解的關鍵一步。

更深層次的探索

緊湊(有限、封閉)集合上的任何連續函式都可以用分段函式逼近。以 - 3 和 3 之間的正弦波為例,它可以用三個函式來近似——兩個二次函式和一個線性函式,如下圖所示。

然而,Cybenko 對這個分段函式描述更為具體,因為它可以是恆定,本質上透過 step 來擬合函式。有了足夠多的恆定域 (step),我們就可以在給定的範圍內合理地估計函式。

理解神經網路的關鍵是理解 通用近似定理

基於這種近似,我們可以將神經元當做 step 來構建網路。利用權值和偏差作為「門」來確定哪個輸入下降,哪個神經元應該被啟用,一個有足夠數量神經元的神經網路可以簡單地將一個函式劃分為幾個恆定區域來估計。

對於落在神經元下降部分的輸入訊號,透過將權重放大到較大的值,最終的值將接近 1(當使用 sigmoid 函式計算時)。如果它不屬於這個部分,將權重移向負無窮將產生接近於 0 的最終結果。使用 sigmoid 函式作為某種處理器來確定神經元的存在程度,只要有大量的神經元,任何函式都可以近乎完美地近似。在多維空間中,Cybenko 推廣了這一思想,每個神經元在多維函式中控制空間的超立方體。

通用近似定理的關鍵在於,它不是在輸入和輸出之間建立複雜的數學關係,而是使用簡單的線性操作將複雜的函式分割成許多小的、不那麼複雜的部分,每個部分由一個神經元處理。

自 Cybenko 的初始證明以後,學界已經形成了許多新的改進,例如針對不同的啟用函式(例如 ReLU),或者具有不同的架構(迴圈網路、卷積等)測試通用近似定理。

不管怎樣,所有這些探索都圍繞著一個想法——神經網路在神經元數量中找到優勢。每個神經元監視特徵空間的一個模式或區域,其大小由網路中神經元的數量決定。

神經元越少,每個神經元需要監視的空間就越多,因此近似能力就會下降

。但是,隨著神經元增多,

無論啟用函式是什麼,任何函式都可以用許多小片段拼接在一起。

泛化和外推

有人可能指出,通用近似定理雖然簡單,但有點過於簡單(至少在概念上)。神經網路可以分辨數字、生成音樂等,並且通常表現得很智慧,但實際上只是一個複雜的逼近器。

神經網路旨在對給定的資料點,能夠建模出複雜的數學函式

。神經網路是個很好的逼近器,

但是,如果輸入超出了訓練範圍,它們就失去了作用

。這類似於有限泰勒級數近似,在一定範圍內可以擬合正弦波,但超出範圍就失效了。

外推,或者說在給定的訓練範圍之外做出合理預測的能力

,這並不是神經網路設計的目的。

從通用近似定理,我們瞭解到神經網路並不是真正的智慧

,而是隱藏在多維度偽裝下的估計器,在二維或三維中看起來很普通。

定理的實際意義

當然,通用逼近定理假設可以繼續向無窮大新增神經元,這在實踐中是不可行的。此外,使用神經網路近乎無限的引數組合來尋找效能最佳的組合也是不切實際的。然而,該定理還假設只有一個隱藏層,並且隨著新增更多隱藏層,複雜性和通用逼近的潛力呈指數增長。

取而代之的是,機器學習工程師依據直覺和經驗決定了如何構造適合給定問題的神經網路架構,以便它能夠很好地逼近多維空間,知道這樣一個網路的存在,但也要權衡計算效能。