當前位置: 華文星空 > 知識

如何理解「深度學習和重整化群可以建立嚴格對映」?這一結論對領域有何影響?

2015-05-11知識

這兩篇文章我在它們剛出來不久的時候看過。關於怎麽理解這一結論(並不嚴格),現在已經有了許多答案。直觀地看,重正化群作為一種粗粒化的方法,與深度學習網絡各層提取資訊有些類似之處,現在已經有很多答案提到對這一問題的理解,我就不再繼續贅述。

不過我想簡單地從生物物理和復雜系統的角度說說這一結論可能產生的影響,可能顯得有些腦洞大開,但其實我自己最近一段時間一直在做相關的問題,所以這個也並沒有那麽腦洞大開。先一句話總結一下我的結論: 這個研究對某些特殊情況下深度學習的工作原理進行了解釋,但這一解釋對深度學習技術本身的發展可能並沒有太大的作用,反而可能對我們理解大腦的工作原理有一定的意義。

我本來以為這只是我自己一個人的看法,然後在網上搜尋的時候突然發現早就有其他人有類似的看法,我還是先參照其他人在閱讀了這兩篇論文之後的觀點吧:

For example, the finding appears to support the emerging hypothesis that parts of the brain operate at a 「critical point,」 where every neuron influences the network as a whole. In physics, renormalization is performed mathematically at the critical point of a physical system, explained Sejnowski, a professor at the Salk Institute for Biological Studies in La Jolla, Calif. 「So the only way it could be relevant to the brain is if it is at the critical point.」
——Deep Learning Relies on Renormalization, Physicists Find

有興趣的朋友可以去閱讀上面的兩個連結中的詳細內容。這裏我僅對這個觀點具體的意思進行一個比較簡單的闡述:

  • 臨界現象是一種物理現象,它最早在一些相變的過程中被發現和研究,而重正化群提供了一種在臨界點附近進行分析的方法。
  • 臨界現象中有許多有趣的性質,例如在臨界點附近隨著體系尺寸的增大,關聯長度也會增大,同時對擾動的弛豫時間變得無限長等等,這些性質在簡單的物理體系中只有在臨界點附近才存在,但是這些性質對生物體系來說卻是非常自然的。鳥群、昆蟲群、細菌團簇、我們的大腦都表現得就如同處在臨界點附近(大家可以參考:Physics - Viewpoint: The Critical Brain,Physics - Viewpoint: Insect Swarms Go Critical)。以昆蟲的運動為例,一種昆蟲的體長不過是毫米級,蟲間距也是這一數量級,但在一個昆蟲群體中,蟲與蟲之間的關聯長度卻可以達到半米長左右,這是它們體長的數百倍,這種現象即為生物體系中的臨界現象。生物體系似乎是在臨界點附近被組織起來的,這種臨界現象對生物系統的好處在於它可以維持群體的存在和穩定,但又讓群體不至於過於剛性,它保證了生物系統適應各種不同的環境(面對各種來自不同方向的天敵,在整個群體中產生反應,這也類似一個無監督學習的過程)。對大腦而言,這種「臨界性」正反映了某種穩定性(記憶)和可塑性(學習)的平衡。
  • 大腦中的臨界性從被發現到現在已經有了十多年的歷史(J Beggs, D Plenz 2003),而這些關於深度學習與重正化群進行聯系的方法,讓深度學習的演算法真的(或者似乎是真的)從臨界性的角度建立起了某種與生物體系的聯系,這種可以與重正化群對應起來的深度學習方法,很可能就是(或者某種意義上接近於)我們大腦在解決某些問題時的原理。
  • 「臨界性」對我們的大腦在解決問題時究竟可以提供哪些幫助呢?首先的一種解釋就是從類似自組織臨界的角度來說的,大腦類似於處在臨界態的沙堆,一些較小的擾動就可能形成較大範圍的雪崩現象,大腦的訊號發放也會出現類似的情況,如果記錄一小塊區域內的神經訊號發放,大多數時候只能觀察到局部的激發,但仍然有時候可以觀察到一大片的神經元被啟用,並且被啟用的區域的尺寸統計分布是滿足冪律分布的。這就非常類似於地震、雪崩,因此認為大腦是處在臨界態。關於這個問題還有一些新聞報道,如:「

    譯言網 | 無序的天才:大腦中如何產生混沌?

    」「

    大腦雪崩現象有助於儲存記憶

    」就簡單介紹了有關的生物背景。

    另一層解釋則更類似於傳統研究相變的思路,直接從關聯函數出發,因為觀察到雪崩現象(以及雪崩事件的統計)並不能嚴格地匯出大腦裏神經元的連通狀態,甚至連關聯的情況也不能得到。從物理學的角度來說,我們顯然更希望直接測量大腦(或者大腦裏面某個區域內)的「關聯函數」,如果我們發現如前面我所補充的,發現關聯長度與體系尺寸成正比,這也就說明了大腦是是處在「臨界態」的。

    如圖,現在我們可以對大腦中的一些漲落關聯進行研究 (Ariel Haimovici, Enzo Tagliazucchi, Pablo Balenzuela, and Dante R. Chialvo Phys. Rev. Lett. 110, 178101)。如果說全腦的上圖是對大腦中的一些 Cluster 進行的 scaling。按我的理解,盡管可能大腦中存在一些長程的相互作用,但針對某些具體的 Cluster,這種效應應該是相對比較小的。從中可以看到某種尺度不變性(所選擇的 cluster size 與關聯長度粗略地成正比)。

    在這個意義上,我們可以再看看其他物理學家對「臨界的大腦」這一問題的看法:

    Furthermore, a brain not only has to remember, but also has to forget and adapt. In a subcritical brain, memories would be frozen. In a supercritical brain, patterns change continuously so no long-term memory would be possible. To be highly susceptible, the brain itself has to be in an in-between, critical state.
    ——Dante Chialvo. Nature Physics 6, 744–750 (2010) doi:10.1038/nphys1803

    因此在我看來,這類研究真正的意義在於——它可能暗示了生物系統(大腦)解決這一問題的某種方案,需要註意的是:這種方案並不是最適合電腦的,正如

    @齊鵬

    所提到的,在實際套用中,工業界通常會選擇一個各層次形如 100-400-400-400-10 的 over-complete 網絡來解決問題,這種方法是適合電腦的方案,但並不是重正化群,更不太可能是大腦的解決方案。在經過了長期的前進演化之後,大腦透過把自己調整到某個臨界態,能夠在很多自然界的約束條件下找到最佳化的解決方案(例如大腦運轉時消耗的能量就遠低於電腦),並且能具有超強的適應力。

    另外一個值得一提的問題在於——為什麽關註的是無監督學習,這裏可以參考

    Facebook AI Director Yann LeCun on His Quest to Unleash Deep Learning and Make Machines Smarter

    訪談中的觀點(中文轉譯版節選自【中國電腦學會通訊】上發表的轉譯稿):

    但從研究的角度來看,我們一直感興趣的是如何恰當地做好無監督學習。我們現在已經擁有了可以套用到實際的無監督學習技術,只是問題在於,我們只要收集更多數據,有監督學習就能勝過無監督學習。這就是為什麽在現階段的產業中,深度學習的套用基本上都是有監督的。但將來未必是這種方式。

    歸根結底,在無監督學習方面,大腦遠好於我們的模型,這意味著我們的人工智能學習系統對許多生物機理學習的基本原理還沒有掌握。


    But from a research point of view, what we’ve been interested in is how to do unsupervised learning properly. We now have unsupervised techniques that actually work. The problem is that you can beat them by just collecting more data, and then using supervised learning. This is why in industry, the applications of Deep Learning are currently all supervised. But it won’t be that way in the future.
    The bottom line is that the brain is much better than our model at doing unsupervised learning. That means that our artificial learning systems are missing some very basic principles of biological learning.

    從這個意義上,我相信這個研究的意義就在於,它可能真的暗示了某種在臨界點附近實作其功能的生物系統的工作機理。從這個意義上,類似

    Information-based fitness and the emergence of criticality in living systems

    的方法如果被用到這一問題上,可能會有某些類似的結論。