2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

 羅宋湯的味道 2019-10-09
世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

LSTM的發(fā)明人、著名深度學(xué)習(xí)專家Jürgen Schmidhuber詳細(xì)論述了近30年前,即1990~1991年之間他和團(tuán)隊(duì)進(jìn)行的許多研究。他們的早期思想為當(dāng)今的許多深度學(xué)習(xí)前沿研究奠定了基礎(chǔ),包括 LSTM、元學(xué)習(xí)、注意力機(jī)制和強(qiáng)化學(xué)習(xí)等。

近日,LSTM 的發(fā)明人、著名深度學(xué)習(xí)專家 Jürgen Schmidhuber 發(fā)表了一篇長文,詳細(xì)論述了近 30 年前,即 1990~1991 年之間他和團(tuán)隊(duì)進(jìn)行的許多研究。

Jürgen 表示,深度學(xué)習(xí)革命背后的許多基本思想,是在 1990~1991 年不到 12 個月的時間里,在慕尼黑理工大學(xué) (TU Munich) 產(chǎn)生的,而這些思想為當(dāng)今的許多深度學(xué)習(xí)前沿研究奠定了基礎(chǔ),包括 LSTM、元學(xué)習(xí)、注意力機(jī)制和強(qiáng)化學(xué)習(xí)等。

Jürgen 稱這一年為 “奇跡之年”。盡管當(dāng)時他們發(fā)表的工作幾乎無人問津,但四分之一個世紀(jì)后,基于這些想法的神經(jīng)網(wǎng)絡(luò)不斷得到改進(jìn),其應(yīng)用出現(xiàn)在智能手機(jī)等 30 多億設(shè)備、每天被使用數(shù)十億次,在全世界消耗大量的計算資源。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

在 AI 領(lǐng)域,深度學(xué)習(xí)三巨頭 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 人盡皆知,Jürgen Schmidhuber 的知名度卻遠(yuǎn)不及三人,盡管他發(fā)明的 LSTM 被認(rèn)為是教科書級別的貢獻(xiàn)。他是被圖靈獎遺忘的大神。在Hinton等三巨頭獲圖靈獎之時,Jürgen卻得到了很大的呼聲:“為什么Jürgen沒有得圖靈獎?”

Jürgen Schmidhuber 是瑞士 Dalle Molle 人工智能研究所的聯(lián)合主任,他 1997 年提出的 LSTM 現(xiàn)在被廣泛應(yīng)用在谷歌翻譯、蘋果 Siri、亞馬遜 Alex 等應(yīng)用中,可謂是深度學(xué)習(xí)領(lǐng)域最商業(yè)化的技術(shù)之一。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

Jürgen Schmidhuber

除了 LSTM 之外,Jürgen Schmidhuber “引以為傲” 的還有他在 1992 年提出的 PM(Predictability Minimization)模型。他堅持認(rèn)為現(xiàn)在大火的 GAN 就是 PM 的變種,兩者的區(qū)別就在于方向是反的,為此,Jürgen 還和 GAN 的提出者 Ian Goodfellow 有過線上線下激烈的交鋒,引起業(yè)界廣泛討論。

至于對深度學(xué)習(xí)三巨頭 Hinton、Bengio 和 LeCun,Jürgen Schmidhuber 也打過幾輪口水仗,認(rèn)為三人在自己的圈子里玩,對深度學(xué)習(xí)領(lǐng)域其他更早期先驅(qū)人物的貢獻(xiàn)則只字不提。

是否人們對 Jürgen Schmidhuber 的貢獻(xiàn)認(rèn)知過少?這篇文章詳述了 Jürgen 和他的團(tuán)隊(duì)在 “奇跡之年” 做出的許多研究,提出的許多思想,非常值得一看。

本文的目錄如下:

  • 第 0 節(jié):深度學(xué)習(xí)的背景:神經(jīng)網(wǎng)絡(luò)
  • 第 1 節(jié):第一個非常深的神經(jīng)網(wǎng)絡(luò),基于無監(jiān)督預(yù)訓(xùn)練 (1991)
  • 第 2 節(jié):將神經(jīng)網(wǎng)絡(luò)壓縮 / 蒸餾成另一個 (1991)
  • 第 3 節(jié):基本的深度學(xué)習(xí)問題:梯度消失 / 爆炸 (1991)
  • 第 4 節(jié):長短時記憶網(wǎng)絡(luò):有監(jiān)督深度學(xué)習(xí) (1991 年以來的基本想法)
  • 第 5 節(jié):通過對抗生成神經(jīng)網(wǎng)絡(luò)的人工好奇心 (1990)
  • 第 6 節(jié):通過最大化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)度的人工好奇心 (1991)
  • 第 7 節(jié):用于無監(jiān)督數(shù)據(jù)建模的對抗網(wǎng)絡(luò) (1991)
  • 第 8 節(jié):端到端可微快速權(quán)重:讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)編程神經(jīng)網(wǎng)絡(luò) (1991)
  • 第 9 節(jié):通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)序列注意力 (1990)
  • 第 10 節(jié):分層強(qiáng)化學(xué)習(xí) (1990)
  • 第 11 節(jié):用循環(huán)神經(jīng)世界模型做規(guī)劃和強(qiáng)化學(xué)習(xí) (1990)
  • 第 12 節(jié):將目標(biāo)定義作為額外的 NN 輸入 (1990)
  • 第 13 節(jié):作為 NN 輸入 / 通用值函數(shù)的高維獎勵信號 (1990)
  • 第 14 節(jié):確定性策略梯度 (1990)
  • 第 15 節(jié):用網(wǎng)絡(luò)來調(diào)整網(wǎng)絡(luò) / 合成梯度 (1990)
  • 第 16 節(jié):在線遞歸神經(jīng)網(wǎng)絡(luò)的 O (n^3) 梯度 (1991)
  • 第 17 節(jié):深層神經(jīng)熱交換器 (1990)
  • 第 18 節(jié):博士論文 (1991 年)
  • 第 19 節(jié):從無監(jiān)督預(yù)訓(xùn)練到純粹監(jiān)督學(xué)習(xí) (1991-95 和 2006-11)
  • 第 20 節(jié):20 世紀(jì) 90 年代 FKI 人工智能技術(shù)報告系列
  • 第 21 節(jié):結(jié)束語
  • 0、深度學(xué)習(xí)的背景:神經(jīng)網(wǎng)絡(luò)

人腦大約有 1000 億個神經(jīng)元,每個神經(jīng)元平均與其他 1 萬個神經(jīng)元連接。有些是輸入神經(jīng)元,將數(shù)據(jù) (聲音、視覺、觸覺、疼痛、饑餓) 喂給其他神經(jīng)元。其他的是控制肌肉的輸出神經(jīng)元。大多數(shù)神經(jīng)元隱藏在思考發(fā)生的位置。你的大腦顯然是通過改變連接的強(qiáng)度或權(quán)重來學(xué)習(xí)的,這些強(qiáng)度或權(quán)重決定了神經(jīng)元之間的相互影響的強(qiáng)度,而這些神經(jīng)元似乎編碼了你一生的經(jīng)歷。人工神經(jīng)網(wǎng)絡(luò) (NNs) 與之類似,它能比以前的方法更好地學(xué)習(xí)識別語音、手寫文字或視頻、最小化痛苦、最大化樂趣、駕駛汽車,等等。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

當(dāng)前的商業(yè)應(yīng)用大多集中在監(jiān)督學(xué)習(xí),使神經(jīng)網(wǎng)絡(luò)模仿人類教師。在許多試驗(yàn)中,Seppo Linnainmaa 于 1970 年提出的梯度計算算法,今天通常稱為反向傳播或自動微分的反向模式,以逐步削弱某些神經(jīng)網(wǎng)絡(luò)連接和加強(qiáng)其他連接的方式,使神經(jīng)網(wǎng)絡(luò)行為越來越像老師。

今天最強(qiáng)大的神經(jīng)網(wǎng)絡(luò)往往都非常深,也就是說,它們有許多層神經(jīng)元或許多后續(xù)的計算階段。然而,在 20 世紀(jì) 80 年代,基于梯度的訓(xùn)練并不適用于深度神經(jīng)網(wǎng)絡(luò),只適用于淺層神經(jīng)網(wǎng)絡(luò)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

這個問題在循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 中表現(xiàn)得最為明顯。與更有限的前饋神經(jīng)網(wǎng)絡(luò) (FNN) 不同,RNN 具有反饋連接。這使得 RNN 功能強(qiáng)大,通用的并行序列計算機(jī)可以處理任意長度的輸入序列 (例如語音或視頻)。原則上,RNN 可以實(shí)現(xiàn)在筆記本電腦上運(yùn)行的任何程序。如果我們想要構(gòu)建一個通用人工智能 (AGI),那么它的底層計算基礎(chǔ)必須是類似于 RNN 的東西 ——FNN 從根本上是不夠的。RNN 與 FNN 的關(guān)系就像普通計算機(jī)與計算器的關(guān)系一樣。

特別是,與 FNN 不同,RNN 原則上可以處理任意深度的問題。然而,20 世紀(jì) 80 年代早期的 RNN 在實(shí)踐中未能學(xué)習(xí)到深層次的問題。我想克服這個缺點(diǎn),實(shí)現(xiàn)基于 RNN 的 “通用深度學(xué)習(xí)”。

1、第一個非常深的神經(jīng)網(wǎng)絡(luò),基于無監(jiān)督預(yù)訓(xùn)練 (1991)

我克服上面提到的深度學(xué)習(xí)問題的第一個想法是,通過對一組分層的 RNN 進(jìn)行無監(jiān)督預(yù)訓(xùn)練來促進(jìn)深度 RNN 中的監(jiān)督學(xué)習(xí) (1991),從而得到了第一個 “非常深的神經(jīng)網(wǎng)絡(luò)”,我稱之為Neural Sequence Chunker。換句話說,chunker 學(xué)習(xí)壓縮數(shù)據(jù)流,使得深度學(xué)習(xí)問題不那么嚴(yán)重,可以通過標(biāo)準(zhǔn)的反向傳播來解決。盡管那時的計算機(jī)比現(xiàn)在慢一百萬倍,但到 1993 年,我的方法已經(jīng)能夠解決以前無法解決的 “深度學(xué)習(xí)” 任務(wù),神經(jīng)網(wǎng)絡(luò)的層數(shù)超過了 1000 層。1993 年,我們還發(fā)布了一個后續(xù)版本的 Neural History Compressor。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

據(jù)我所知, Sequence Chunker 也是第一個由在不同時間尺度上運(yùn)行的 RNN 組成的系統(tǒng)。幾年后,其他人也開始發(fā)表關(guān)于多時間尺度的 RNN 的研究。

這項(xiàng)工作發(fā)表十多年后,一種用于更有限的前饋神經(jīng)網(wǎng)絡(luò)的類似方法出現(xiàn)了,稱為深度置信網(wǎng)絡(luò) (DBN)。該論文的證明基本上就是我在 1990 年代早期為我的 RNN 堆棧使用的證明:每一個更高的層都試圖減少下面層中數(shù)據(jù)表示的描述長度 (或負(fù)對數(shù)概率)。

在上述基于無監(jiān)督預(yù)訓(xùn)練的深度學(xué)習(xí)網(wǎng)絡(luò)之后不久,深度學(xué)習(xí)問題也通過我們的純監(jiān)督 LSTM 得以克服。

當(dāng)然,前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)開始得更早,早在 1965 年,Ivakhnenko 和 Lapa 就發(fā)表了第一個通用的、用于任意層數(shù)的深度多層感知器的學(xué)習(xí)算法。但是,與 Ivakhnenko 在 70 年代和 80 年代提出的深度 FNN 網(wǎng)絡(luò)不同,我們的深度 RNN 具有通用的并行訓(xùn)練計算架構(gòu)。到上世紀(jì) 90 年代初,大多數(shù)神經(jīng)網(wǎng)絡(luò)研究仍局限于相當(dāng)淺的網(wǎng)絡(luò),后續(xù)計算階段少于 10 個,而我們的方法已經(jīng)支持了 1000 多個這樣的階段。我想說的是,是我們讓神經(jīng)網(wǎng)絡(luò)變得如此之深,尤其是 RNN,它是所有網(wǎng)絡(luò)中最深、最強(qiáng)大的。

2、將神經(jīng)網(wǎng)絡(luò)壓縮 / 蒸餾成另一個 (1991)

我在上述有關(guān) Neural History Compressor 的論文中還介紹了一種將網(wǎng)絡(luò)層次結(jié)構(gòu)壓縮到單個深度 RNN 的方法,從而學(xué)會了解決非常深入的問題。將一個神經(jīng)網(wǎng)絡(luò)的知識轉(zhuǎn)移到另一個神經(jīng)網(wǎng)絡(luò)的一般原理是,假設(shè)教師 NN 已學(xué)會預(yù)測數(shù)據(jù),通過訓(xùn)練學(xué)生 NN 模仿教師 NN 的行為,它的知識可以壓縮到學(xué)生 NN 中。

我稱之為將一個網(wǎng)絡(luò)的行為 “collapsing” 或 “compressing” 到另一個。今天,這個概念已經(jīng)被廣泛使用,也被稱為將教師網(wǎng)絡(luò)的行為 “蒸餾”(distilling) 或 “克隆” 到學(xué)生網(wǎng)絡(luò)。

3、基本的深度學(xué)習(xí)問題:梯度消失 / 爆炸 (1991)

前文我們指出深度學(xué)習(xí)很難。但為什么很難呢?一個主要原因是,我喜歡稱之為 “基本深度學(xué)習(xí)問題”,由我的學(xué)生 Sepp Hochreiter 1991 年在他的畢業(yè)論文 [VAN1] 中提出和分析。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

作為論文的一部分,Sepp 實(shí)現(xiàn)了上述 (第 1 節(jié)) 的 Neural History Compressor 和其他基于 RNN 的系統(tǒng) (第 11 節(jié))。但是,他做了更多的工作:他的工作正式表明,深度神經(jīng)網(wǎng)絡(luò)遭受梯度消失或梯度爆炸問題:在典型的深度網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò)中,反向傳播的錯誤信號要么迅速縮小,要么超出界限。在這兩種情況下,學(xué)習(xí)都會失敗。這種分析引出了 LSTM 的基本原理 (第 4 節(jié))。

4、長短時記憶網(wǎng)絡(luò):有監(jiān)督深度學(xué)習(xí)

長短時記憶神經(jīng)網(wǎng)絡(luò) (LSTM) 克服了 Sepp 在其 1991 年的畢業(yè)論文中提出的基本深度學(xué)習(xí)問題。我認(rèn)為這是機(jī)器學(xué)習(xí)歷史上最重要的論文之一。它還通過我們在 1995 年的技術(shù)報告 [LSTM0] 中所稱的 LSTM 的基本原理為解決這個問題提供了重要的見解。這導(dǎo)致了下面描述的大量后續(xù)工作。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

明年,我們將慶祝 LSTM 首次投稿時未能通過同行評審 25 周年。在 1997 年主要的同行評審出版物 [LSTM1](現(xiàn)在是神經(jīng)計算歷史上引用最多的文章) 之后,LSTM 得到了進(jìn)一步的改進(jìn)。一個里程碑是帶有 forget gate [LSTM2] 的 “vanilla LSTM 架構(gòu)”——1999-2000 年的 LSTM 變體,現(xiàn)在每個人都在使用,例如,在谷歌的 Tensorflow 中。LSTM 的遺忘門實(shí)際上是一種端到端可微的快速權(quán)值控制器,我們在 1991 年也介紹了這種控制器。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

Alex 是我們第一次成功地將 LSTM 應(yīng)用于語音的主要作者 (2004)[LSTM14]。2005 年,第一個具有時間反向完全傳播功能的 LSTM 和雙向 LSTM 發(fā)布 [LSTM3](現(xiàn)在廣泛使用)。2006 年的另一個里程碑是用于同時對齊和識別序列的訓(xùn)練方法 “連接時間分類” 或 CTC。自 2007 年以來,CTC 成為基于 LSTM 的語音識別的關(guān)鍵。例如,在 2015 年,CTC-LSTM 組合顯著改善了谷歌的語音識別 [GSR15]。

在 21 世紀(jì)初,我們展示了 LSTM 如何學(xué)習(xí)傳統(tǒng)模型 (如隱馬爾可夫模型) 無法學(xué)習(xí)的語言 [LSTM13]。這花了一段時間;但到了 2016~2017 年,谷歌翻譯 [GT16] 和 Facebook 翻譯 [FB17] 均基于兩個連接 LSTM,一個用于輸入文本,一個用于輸出翻譯,性能比以前的翻譯模型要好得多。

2009 年,我的博士生 Justin Bayer 是一個自動設(shè)計類似 LSTM 架構(gòu)的系統(tǒng)的主要作者,該系統(tǒng)在某些應(yīng)用程序中表現(xiàn)優(yōu)于普通 LSTM。2017 年,谷歌開始使用類似的 “神經(jīng)架構(gòu)搜索”[NAS]。

這一切的基礎(chǔ)都是在 1991 年奠定的。

5、通過對抗生成神經(jīng)網(wǎng)絡(luò)的人工好奇心 (1990)

當(dāng)人類與世界互動時,他們學(xué)會預(yù)測自己行為的后果。他們也很好奇,設(shè)計實(shí)驗(yàn)得出新的數(shù)據(jù),從中他們可以學(xué)到更多。為了構(gòu)建好奇的人工智能體,我在 1990 年介紹了一種新型的主動無監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)。它基于一個極小極大博弈,其中一個神經(jīng)網(wǎng)絡(luò)最小化另一個神經(jīng)網(wǎng)絡(luò)最大化的目標(biāo)函數(shù)。我把這兩種無監(jiān)督的對抗性神經(jīng)網(wǎng)絡(luò)之間的決斗稱為對抗性好奇心 (Adversarial Curiosity)[AC19],以區(qū)別于人工好奇心 (Artificial Curiosity)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

6、通過最大化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)度的人工好奇心 (1991)

在這里,我重點(diǎn)介紹 1991 年 [AC91] [AC91b] 對對抗性好奇心 (Adversarial Curiosity) 的第一個重要改進(jìn)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

AC1990 世界模型 M 的誤差 (待最小化) 是控制器 C 的獎勵 (待最大化)。這在許多確定性環(huán)境中是一個很好的探索策略。然而,在隨機(jī)環(huán)境中,這可能會失敗。C 可能會學(xué)習(xí)把重點(diǎn)放在 M 總是由于隨機(jī)性或由于其計算限制而得到高預(yù)測誤差的情況上。

因此,正如 1991 年的論文指出的,在隨機(jī)環(huán)境中,C 的獎勵不應(yīng)該是 M 的誤差,而應(yīng)該是 M 的誤差在后續(xù)訓(xùn)練迭代中的一階導(dǎo)數(shù)的近似,即 M 的改進(jìn)。這一認(rèn)識指導(dǎo)了許多相關(guān)的后續(xù)工作。

7、用于無監(jiān)督數(shù)據(jù)建模的對抗網(wǎng)絡(luò) (1991)

1990 年我第一次研究對抗性生成網(wǎng)絡(luò)后不久,我介紹了一個非監(jiān)督對抗性極小極大值原理的變體。神經(jīng)網(wǎng)絡(luò)最重要的任務(wù)之一就是學(xué)習(xí)圖像等給定數(shù)據(jù)的統(tǒng)計量。為了實(shí)現(xiàn)這一點(diǎn),我再次在一個極小極大博弈中使用了梯度下降 / 上升的原理,在這個博弈中,一個神經(jīng)網(wǎng)絡(luò)最小化了另一個神經(jīng)網(wǎng)絡(luò)最大化的目標(biāo)函數(shù)。這兩個無監(jiān)督的對抗性神經(jīng)網(wǎng)絡(luò)之間的決斗被稱為可預(yù)測性最小化 (Predictability Minimization, PM)。(與后來的 GAN 相反,PM 是一個純粹的極大極小博弈)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

第一個使用 PM 的實(shí)驗(yàn)是在大約 30 年前進(jìn)行的,當(dāng)時其計算成本大約是現(xiàn)在的 100 萬倍。當(dāng)計算成本在 5 年后便宜了 10 倍時,我們可以證明,應(yīng)用于圖像的半線性 PM 變體會自動生成特征檢測器。

8、端到端可微快速權(quán)重:讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)編程神經(jīng)網(wǎng)絡(luò) (1991)

一個典型的神經(jīng)網(wǎng)絡(luò)比神經(jīng)元有更多的連接。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元激活變化快,而連接權(quán)值變化慢。也就是說,大量的權(quán)重?zé)o法實(shí)現(xiàn)短期記憶或時間變量,只有少數(shù)神經(jīng)元的激活可以。具有快速變化的 “快速權(quán)重”(fast weights) 的非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)克服了這一限制。

神經(jīng)網(wǎng)絡(luò)的動態(tài)連接或快速權(quán)值是由 Christoph v. d. Malsburg 于 1981 年提出的,其他學(xué)者對此進(jìn)行了進(jìn)一步的研究。然而,這些作者并沒有提出端到端可微分的系統(tǒng),通過梯度下降學(xué)習(xí)來快速操作快速權(quán)重存儲。我在 1991 年發(fā)表了這樣一個系統(tǒng),其中慢速神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制獨(dú)立的快速神經(jīng)網(wǎng)絡(luò)的權(quán)值。也就是說,我將存儲和控制分開,就像在傳統(tǒng)計算機(jī)中那樣,但是以完全的神經(jīng)方式 (而不是以混合方式)。后續(xù)的許多工作基于這一方法。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

我還展示了如何快速使用權(quán)重進(jìn)行元學(xué)習(xí)或 “學(xué)習(xí)如何學(xué)習(xí)”(learning to learn),這是我自 1987 年以來的主要研究課題之一。

順便一提,同年我們在 Deep RL (但沒有快速權(quán)重) 方面也做了相關(guān)工作,據(jù)我所知,這是第一篇標(biāo)題包含 'learn deep” 這個詞組的論文 (2005 年)。

如今,最著名的基于快速權(quán)重的端到端可微分神經(jīng)網(wǎng)絡(luò)實(shí)際上就是我們的原始 LSTM 網(wǎng)絡(luò),其遺忘門學(xué)會控制內(nèi)部 LSTM 單元自循環(huán)連接的快速權(quán)重。所有主要的 IT 公司現(xiàn)在都大量使用 LSTM,而這可以追溯到 1991 年。

9、通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)序列注意力 (1990)

與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,人類使用連續(xù)的目光移動和選擇性注意力來檢測和識別模式。這可能比傳統(tǒng)的高度并行的 FNN 方法更有效。這就是為什么我們在 30 年前提出了序列注意力學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。不久之后,我還明確地提到了 “內(nèi)部注意力焦點(diǎn)” 的學(xué)習(xí)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

因此,在那個時候,我們已經(jīng)有了兩種現(xiàn)在常見的神經(jīng)序列注意力類型:通過神經(jīng)網(wǎng)絡(luò)中的乘法單元來實(shí)現(xiàn)端到端可微分的 “軟” 注意力,以及在強(qiáng)化學(xué)習(xí)環(huán)境下的 “硬” 注意力。后來的大量后續(xù)工作都基于此。如今,許多人都在使用序列注意力學(xué)習(xí)網(wǎng)絡(luò)。

10、分層強(qiáng)化學(xué)習(xí) (1990)

傳統(tǒng)強(qiáng)化學(xué)習(xí)不能分層地將問題分解為更容易解決的子問題。這就是為什么我在 1990 年提出了分層 RL (HRL),使用端到端可微分的基于神經(jīng)網(wǎng)絡(luò)的子目標(biāo)生成器,以及學(xué)習(xí)生成子目標(biāo)序列的循環(huán)神經(jīng)網(wǎng)絡(luò)。RL 系統(tǒng)獲得形式 (start、goal) 的額外輸入。評估器 NN 學(xué)會預(yù)測從 start 到 goal 的獎勵 / 成本?;?RNN 的子目標(biāo)生成器也可以看到 (start, goal),并使用評估器 NN (的副本) 通過梯度下降來學(xué)習(xí)一系列成本最低的中間子目標(biāo)。RL 系統(tǒng)試圖使用這樣的子目標(biāo)序列來實(shí)現(xiàn)最終目標(biāo)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

11、使用循環(huán)神經(jīng)世界模型做規(guī)劃 (1990)

1990 年,我介紹了基于兩個 RNN 的組合 (分別稱為控制器 C 和世界模型 M) 的強(qiáng)化學(xué)習(xí)和規(guī)劃。M 學(xué)習(xí)預(yù)測 C 行為的后果。C 學(xué)習(xí)使用 M 提前規(guī)劃幾個時間步驟,并選擇最大化預(yù)測累積獎勵的動作序列。基于此也有許多后續(xù)研究。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

12、將目標(biāo)定義作為額外的 NN 輸入 (1990)

今天的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中廣泛使用的一個概念是使用額外的目標(biāo)定義輸入模式來編碼許多任務(wù),以便神經(jīng)網(wǎng)絡(luò)知道下一步該執(zhí)行哪個任務(wù)。我們在 1990 年的許多工作中提出了這一概念。

具有端到端可微子目標(biāo)生成器的分層強(qiáng)化學(xué)習(xí) (Hierarchical RL) 也使用一個帶有任務(wù)定義輸入 (start, goal) 的神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)預(yù)測從 start 到 goal 的成本。(四分之一個世紀(jì)后,我以前的學(xué)生 Tom Schaul 在 DeepMind 提出了 “通用值函數(shù)逼近器”。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

后來的大量工作都是基于此的。例如,我們的 POWERPLAY RL 系統(tǒng) (2011) 也使用任務(wù)定義輸入來區(qū)分任務(wù),不斷地創(chuàng)造自己的新目標(biāo)和任務(wù),以一種主動的、部分不受監(jiān)督的或自我監(jiān)督的方式,逐步學(xué)習(xí)成為一個越來越通用的問題解決者。具有高維視頻輸入和內(nèi)在動機(jī)的 RL 機(jī)器人 (如 PowerPlay) 在 2015 年學(xué)會了探索。

13、作為神經(jīng)網(wǎng)絡(luò)輸入的高維獎勵信號 / 通用價值函數(shù) (1990 年)

傳統(tǒng)的 RL 是基于一維獎勵信號的。然而,人類擁有數(shù)百萬種信息傳感器,可以感知不同類型的信息,如疼痛和快樂等。據(jù)我所知,參考文獻(xiàn) [AC90] 是第一篇關(guān)于 RL 的論文,涉及多維度、向量值的獎勵信號,這些信號通過許多不同的傳感器傳入,這些傳感器的累積值是可以預(yù)測的,而不僅僅是單個標(biāo)量的總體獎勵。比較一下后來的通用值函數(shù) (general value function,GVF)。與以往的 adaptive critics 不同,它是多維和周期性的。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

與傳統(tǒng)的 RL 不同,這些獎勵信號也被用作控制器 NN 學(xué)習(xí)執(zhí)行動作的信息輸入,以實(shí)現(xiàn)累積獎勵的最大化。

14、確定性策略梯度 (1990)

我在 1990 年發(fā)表的論文 “Augmenting the Algorithm by Temporal Difference Methods” 中,也結(jié)合了基于動態(tài)規(guī)劃的時域差分法來預(yù)測一個基于梯度的世界預(yù)測模型的累積獎勵,以計算單獨(dú)控制網(wǎng)絡(luò)的權(quán)重變化。四分之一個世紀(jì)后,DeepMind 將其變體稱為確定性策略梯度算法 (Policy Gradient algorithm, DPG)。

15、調(diào)整網(wǎng)絡(luò) / 合成梯度 (1990)

1990 年,我提出了各種學(xué)習(xí)調(diào)整其他 NNs 的 NNs。在這里,我將重點(diǎn)討論 “遞歸網(wǎng)絡(luò)中的局部監(jiān)督學(xué)習(xí)方法”。待最小化的全局誤差度量是 RNN 輸出單元在一段時間內(nèi)接收到的所有誤差的總和。在常規(guī)反向傳播中,每個單元都需要一個堆棧來記住過去的激活,這些激活用于計算誤差傳播階段對權(quán)重變化的貢獻(xiàn)。我沒有使用堆棧形式的無限存儲容量,而是引入了第二種自適應(yīng) NN,該算法可以學(xué)習(xí)將 RNN 的狀態(tài)與相應(yīng)的誤差向量相關(guān)聯(lián)。這些局部估計的誤差梯度(而非真實(shí)梯度)被用于調(diào)整 RNN。

與標(biāo)準(zhǔn)的反向傳播不同,該方法在空間和時間上都是局部的。四分之一個世紀(jì)后,DeepMind 將其稱為 “合成梯度”(Synthetic Gradients)。

16、在線遞歸神經(jīng)網(wǎng)絡(luò)的 O (n^3) 梯度 (1991)

1987 年發(fā)表的固定大小的存儲學(xué)習(xí)算法用于完全循環(huán)連續(xù)運(yùn)行的網(wǎng)絡(luò),它要求每個時間步長進(jìn)行 O (n^4) 計算,其中 n 是非輸入單元的數(shù)量。我提出了一種方法,該方法計算完全相同的梯度,需要固定大小的存儲,其順序與之前的算法相同。但是,每個時間步長的平均時間復(fù)雜度只有 O (n^3) 。然而,這項(xiàng)工作并沒有實(shí)際意義,因?yàn)閭ゴ蟮?RNN 先驅(qū) Ron Williams 首先采用了這種方法。

順便說一句,我在 1987 年也犯了類似的錯誤,當(dāng)時我發(fā)表了我認(rèn)為是第一篇關(guān)于遺傳編程 (GP) 的論文,也就是關(guān)于自動進(jìn)化的計算機(jī)程序。直到后來我才發(fā)現(xiàn),Nichael Cramer 早在 1985 年就已經(jīng)提出了 GP。從那以后,我一直在努力做正確的事情。至少我們 1987 年的論文 [GP1] 似乎是第一篇在 GP 上使用循環(huán)和可變大小代碼的論文,也是第一篇在 GP 上使用邏輯編程語言實(shí)現(xiàn)的論文。

17、深度神經(jīng)熱交換器 (1990)

神經(jīng)熱交換器 (Neural Heat Exchanger) 是一種用于深度多層神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)方法。它的靈感來自物理熱交換器。輸入 “加熱”,同時通過許多連續(xù)的層進(jìn)行轉(zhuǎn)換,目標(biāo)從深層管道的另一端進(jìn)入并 “冷卻”。與反向傳播不同,該方法完全是局部的。這使得它的并行實(shí)現(xiàn)變得微不足道。自 1990 年以來,它是在各大學(xué)的不定期演講中首次提出的,與亥姆霍茲機(jī)器 (Helmholtz Machine) 關(guān)系密切。同樣,實(shí)驗(yàn)是由我的學(xué)生 Sepp Hochreiter 進(jìn)行的。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

18、博士論文 (1990)

我在 TUM 的博士論文發(fā)表于 1991 年,總結(jié)我自 1989 年以來的一些早期工作,包括第一個強(qiáng)化學(xué)習(xí) (RL) 神經(jīng)經(jīng)濟(jì)(Neural Bucket Brigade),學(xué)習(xí)算法,具有端到端微分子目標(biāo)生成器的分層 RL(HRL),通過兩個稱為控制器 C 和世界模型 M 的 RNN 的組合進(jìn)行 RL 和規(guī)劃,序列注意力學(xué)習(xí) NN,學(xué)會調(diào)整其他 NN 的 NN (包括 “合成梯度”),以及用于實(shí)施好奇心的無監(jiān)督或自我監(jiān)督的生成對抗網(wǎng)絡(luò)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

當(dāng)時,其他人的神經(jīng)網(wǎng)絡(luò)研究受到統(tǒng)計力學(xué)的啟發(fā)。我在 1990-91 年的工作體現(xiàn)了另一種面向程序的機(jī)器學(xué)習(xí)觀點(diǎn)。

庫爾特?哥德爾 (Kurt Godel) 在 1931 年創(chuàng)立了理論計算機(jī)科學(xué),他用基于整數(shù)的通用編碼語言表示數(shù)據(jù) (如公理和定理) 和程序 (如對數(shù)據(jù)進(jìn)行操作的證明生成序列)。他展示了數(shù)學(xué),計算和人工智能的基本極限。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

正如我在 1990 年以來經(jīng)常指出的,NN 的權(quán)值應(yīng)該被看作是它的程序。一些人認(rèn)為深層神經(jīng)網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)觀測數(shù)據(jù)的有用的內(nèi)部表示,但我一直傾向于認(rèn)為,神經(jīng)網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)程序 (參數(shù)),并計算此類表示。受 G?del 的啟發(fā),我構(gòu)建了神經(jīng)網(wǎng)絡(luò),其輸出是其他 NN 的程序或權(quán)重矩陣,甚至是可以運(yùn)行和檢查自己的權(quán)重變化算法或?qū)W習(xí)算法的自引用 RNN。與 G?del 的工作不同的是,通用編程語言不是基于整數(shù),而是基于實(shí)數(shù)值,因此典型 NN 的輸出就其程序而言是可微分的。也就是說,一個簡單的程序生成器(有效的梯度下降過程)可以在程序空間中計算一個方向,在該方向上可以找到更好的程序,尤其是更好的程序生成程序。自 1989 年以來,我的許多工作都充分利用了這一事實(shí)。

19、從無監(jiān)督預(yù)訓(xùn)練到純粹監(jiān)督學(xué)習(xí) (1991-1995 年和 2006-2011)

如第一節(jié)所述,我的第一個非常深的深度學(xué)習(xí)網(wǎng)絡(luò)是 1991 年的 RNN 堆棧,它使用無監(jiān)督的預(yù)訓(xùn)練來學(xué)習(xí)深度大于 1000 的問題。但是,此后不久,我們發(fā)表了更多克服深度學(xué)習(xí)問題的通用方法,無需進(jìn)行任何無監(jiān)督的預(yù)訓(xùn)練,將無監(jiān)督的 RNN 棧替換為純監(jiān)督的長短時記憶網(wǎng)絡(luò) (LSTM)。也就是說,由于 LSTM 不需要無監(jiān)督的訓(xùn)練,無監(jiān)督訓(xùn)練已經(jīng)失去了重要性。事實(shí)上,從無監(jiān)督的訓(xùn)練到純粹的監(jiān)督學(xué)習(xí)的轉(zhuǎn)變早在 1991 年就開始了。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

在 2006 年到 2010 年之間也發(fā)生了類似的轉(zhuǎn)變,這次是針對不太常用的前饋神經(jīng)網(wǎng)絡(luò) (FNNs),而不是遞歸神經(jīng)網(wǎng)絡(luò) (RNNs)。同樣,我的小實(shí)驗(yàn)室在這個轉(zhuǎn)變中起到了中心作用。2006 年,F(xiàn)NNs 中的監(jiān)督學(xué)習(xí)是通過對 FNN 堆棧的無監(jiān)督預(yù)訓(xùn)練來實(shí)現(xiàn)的。但在 2010 年,我們的團(tuán)隊(duì)和我的博士后 Dan Ciresan 證明,深度 FNNs 可以通過簡單的反向傳播進(jìn)行訓(xùn)練,在重要的應(yīng)用中完全不需要無監(jiān)督的預(yù)訓(xùn)練。我們的系統(tǒng)在當(dāng)時廣泛使用的圖像識別基準(zhǔn) MNIST 上創(chuàng)下了新的性能記錄。一位評論者稱這是 “喚醒了機(jī)器學(xué)習(xí)社區(qū)”。今天,很少有商業(yè) DL 應(yīng)用仍然基于無監(jiān)督的預(yù)訓(xùn)練。

我在瑞士人工智能實(shí)驗(yàn)室 IDSIA 的團(tuán)隊(duì)進(jìn)一步完善了上述關(guān)于 FNNs 中純粹監(jiān)督式深度學(xué)習(xí)的工作 (2010),將傳統(tǒng)的 FNNs 替換為另一種 NN 類型,即 convolutional NNs 或 CNNs。這是一個實(shí)際的突破,并在 2011 年 5 月 15 日至 2012 年 9 月 10 日期間連續(xù) 4 次在重要計算機(jī)視覺比賽中獲勝。

20、20 世紀(jì) 90 年代 FKI 人工智能技術(shù)報告系列

事后看來,許多后來被廣泛使用的 “現(xiàn)代” 深度學(xué)習(xí)的基本思想,都是在柏林墻倒塌后不久的、不可思議的 1990-1991 年,在慕尼黑大學(xué) (TU Munich) 發(fā)表的:無監(jiān)督或自我監(jiān)督、數(shù)據(jù)生成、對抗網(wǎng)絡(luò) (認(rèn)為好奇心和相關(guān)概念,見第 5 節(jié));深度學(xué)習(xí)的基本問題 (梯度消失 / 爆炸) 及其解決方案 (a) 針對深度 (周期性) 網(wǎng)絡(luò)的無監(jiān)督預(yù)訓(xùn)練 (第 1 節(jié)) 和 (b) 通向 LSTM 的基本簡介 (第 4 節(jié))。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

我們當(dāng)時還引入了序列注意力學(xué)習(xí) NN,這是另一個流行的概念。再加上前面提到的所有其他東西,從分層強(qiáng)化學(xué)習(xí) (第 10 節(jié)) 到使用循環(huán)神經(jīng)網(wǎng)絡(luò)的世界模型進(jìn)行規(guī)劃 (第 11 節(jié)) 等等。

當(dāng)然,人們不得不等待速度更快的計算機(jī)來將這些算法商業(yè)化。然而,到 2010 年中期,我們的算法被蘋果,谷歌,F(xiàn)acebook,亞馬遜,三星,百度,微軟等公司大量使用,每天在數(shù)十億臺計算機(jī)上運(yùn)行。

大多數(shù)上述結(jié)果實(shí)際上是首次發(fā)表是在慕尼黑工業(yè)大學(xué)的 FKI 技術(shù)報告系列,為此,我手工畫了很多插圖,本文的插圖就是其中一些。FKI 系列現(xiàn)在在人工智能的歷史中起著重要作用,因?yàn)樗肓藥讉€重要概念:用于非常深的神經(jīng)網(wǎng)絡(luò)的無監(jiān)督預(yù)訓(xùn)練、將一個 NN 壓縮 / 蒸餾成另一個、長短期記憶、通過神經(jīng)網(wǎng)絡(luò)使學(xué)習(xí)進(jìn)度最大化的好奇心 (Artificial Curiosity)、端到端快速權(quán)重和學(xué)會編程其他神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)、通過 NN 學(xué)習(xí)序列注意力、將目標(biāo)定義命令作為額外的 NN 輸入、分層強(qiáng)化學(xué)習(xí)等等。

特別是,其中一些概念現(xiàn)在已經(jīng)在整個 AI 研究領(lǐng)域被廣泛使用:使用循環(huán)神經(jīng)世界模型進(jìn)行規(guī)劃、作為額外的 NN 輸入的高維獎勵信號 / 通用值函數(shù)、確定性策略梯度、NN 既具有生成性又具有對抗性、人工好奇心和相關(guān)概念。1990 年代以后的引人注目的 FKI 技術(shù)報告描述了大幅壓縮 NN 以提高其泛化能力的方法。

21、結(jié)束語

深度學(xué)習(xí)是在官方語言不是英語的地方被發(fā)明的。第一個具有任意深度的神經(jīng)網(wǎng)絡(luò)始于 1965 年的烏克蘭 (當(dāng)時是蘇聯(lián))。五年后,現(xiàn)代反向傳播方法在芬蘭出現(xiàn) (1970)?;镜纳疃染矸e神經(jīng)網(wǎng)絡(luò)架構(gòu)是在 20 世紀(jì) 70 年代的日本發(fā)明的,到 1987 年,卷積網(wǎng)絡(luò)與權(quán)重共享和反向傳播相結(jié)合。無監(jiān)督或自我監(jiān)督的對抗網(wǎng)絡(luò)起源于慕尼黑 (1990 年),慕尼黑也是 20 世紀(jì) 80 年代第一批真正的自動駕駛汽車的誕生地。基于反向傳播的深度學(xué)習(xí)的基本問題也誕生于慕尼黑 (1991)。第一個克服這個問題的 “現(xiàn)代” 深度學(xué)習(xí)網(wǎng)絡(luò)也是如此,它們通過 (1) 無監(jiān)督的預(yù)訓(xùn)練;和 (2) 長短時記憶 [LSTM] 克服這個問題,LSTM “可以說是最具商業(yè)價值的人工智能成果”。LSTM 是在瑞士進(jìn)一步發(fā)展起來的,這也是第一個在圖像識別競賽獲勝的基于 GPU 的 CNN (2011 年),也是第一個在視覺模式識別中超越人類的神經(jīng)網(wǎng)絡(luò) (2011 年),以及第一個有超過 100 層、非常深的前饋神經(jīng)網(wǎng)絡(luò)。

世界欠他一個圖靈獎!LSTM之父回憶深度學(xué)習(xí)的“奇跡之年”

當(dāng)然,深度學(xué)習(xí)只是 AI 的一小部分,主要局限于被動模式識別。我們將其視為通過元學(xué)習(xí)或 “l(fā)earning to learn 算法”(1987 年發(fā)表) 研究更一般的人工智能的副產(chǎn)品,具有人工好奇心和創(chuàng)造力的系統(tǒng)發(fā)明了自己的問題并設(shè)定自己的目標(biāo) (1990 年),演化計算 (1987 年) 和 RNN 進(jìn)化 & 壓縮網(wǎng)絡(luò)搜索,在現(xiàn)實(shí)的部分可觀測的環(huán)境中的強(qiáng)化學(xué)習(xí) (RL) 智能體,通用人工智能,最優(yōu)通用學(xué)習(xí)機(jī)器,如 G?del machine (2003-),對運(yùn)行在通用計算機(jī)上的程序的最優(yōu)搜索,如 RNN,等等。

當(dāng)然,AI 本身只是一個更宏偉計劃的一部分,它將宇宙從簡單的初始條件推向越來越深不可測的復(fù)雜性。最后,即使這個令人敬畏的過程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計算的一小部分。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多