黃仁勛對話 Transformer 八子:大模型的起源、現在和未來

摘要

GTC 第三天,英偉達創始人與 Transformer 模型的提出者們進行了一場圍爐夜話。

隨著新一波 AI 浪潮席卷而來,英偉達突破 2 萬億美元市值成為最炙手可熱的科技公司,今年 GTC 大會儼然成為年度最受關注的科技行業盛會。

四天的數百場主題分享中,英偉達創始人黃仁勛和 Transformer 八子的對談,無疑是最受關注的場次之一。因為某種意義上,雙方正是這波 AI 浪潮的奠基人。

谷歌大腦團隊 2017 年發表了一篇名為《注意力就是你所需要的一切(Attention is all you need)》的論文,主要目的是解決自然語言處理領域,使用傳統的 RNN(循環神經網絡)模型不能解決并行計算,從而導致算法效率低下的問題。

這篇文章提出的新的處理架構就是 Transformer 模型,也是今天大模型的基石,而當時這篇文章的八位聯名作者今天也被稱為 Transformer 八子。幾年后八子陸續離開谷歌,今天已經成為 Essential AI、Character.AI 等硅谷重要 AI 公司的創始人或技術核心。

Transformer 八子

  • Ashish Vaswani,EssentialAI 聯合創始人兼 CEO
  • Noam Shazeer,Character.AI 首席執行官兼聯合創始人
  • Jakob Uszkoreit,Inceptive 聯合創始人兼首席執行官
  • Llion Jones,SakanaAI 聯合創始人兼首席技術官
  • Aidan Gomez,Cohere 聯合創始人兼首席執行官
  • Lukasz Kaiser,OpenAI 技術人員
  • Illia Polosukhin,NEAR Protocol 聯合創始人
  • Niki Parmar,EssentialAI 聯合創始人(因家庭原因未出席)

八子在文章中提出了可以解決并行計算問題的新架構,并預言了隨著訓練規模的提升 AI 會展現出更強大的智能。但這一切需要更龐大的算力支持,而過去十年一直投入研發 GPU 和加速計算的英偉達,則為八子的構想提供了算力這個最關鍵的燃料。

于是,就有了 GPT 的誕生以及今天日新月異加速發展的 AGI 浪潮。而在這樣的一個時間節點上,黃仁勛和八子這些時代開拓者再次對話,也就有了更多看點。

以下是黃仁勛的開場獨白和他與八子的對話原文,由極客公園整理編譯。

黃仁勛開場

計算機處理器誕生于我出生的第一年(與我出生無關)。IBM System 360 定義了現代計算機的范疇,包括中央處理單元、I/O 子系統、多任務處理、硬件與軟件的分離、整個系列的兼容性以及向后兼容性,以保護軟件工程師的投資。這個描述到 80 年代末、90 年代初,個人電腦革命將計算機推向了高速發展,使計算機變成了我們所熟知的形態。每年性能的邊際成本下降,每 10 年計算成本降低約 10 倍。在過去的 20 年里,PC 革命使計算成本降低了 10,000 倍,比歷史上任何其他商品都要多。你能想象 20 年后,生活中的一切都變得更加便宜,汽車的價格從 2 萬美元降至 1 美元嗎,也許是 Uber。

英偉達創始人黃仁勛|圖片來源:NVIDIA GTC

但計算成本的大幅下降停止了,雖然每年仍有略微的改進,但變化的速度已經放緩。我們開始追求加速計算,這并不容易,因為需要將問題公式化,轉化為并行算法,這是一個非常困難的科學領域。我們相信,如果能夠加速代表 99% 運行時間的 1% 代碼,那么將獲得巨大的好處,可以實現一些之前認為不可能的事情,或者將需要大量金錢或能量的事情變得更加成本效益和節能。

在公司歷史的整個過程中,我們一直在研究加速計算,不斷地加速應用領域。盡管人們認為我們是一家電腦游戲公司,但我們也在追求其他領域的加速計算。我們最初在計算機圖形和游戲中找到了這種情況,這推動了技術的創新和市場的發展。2012 年,我們首次意識到人工智能與 Nvidia GPU 的潛力,引發了我們對這個領域的興趣。

我們堅信,如果我們能夠加速代表 99% 運行時間的 1% 代碼,那么在某些應用領域,我們將獲得巨大的好處,實現巨大的差異。

我們可以將一些不可能的事情變為可能,將需要花費大量金錢的事情變得具有成本效益,或者將需要消耗大量能量的事情變得更加節能。因此,我們將這一概念稱為加速計算,并在公司歷史的整個持續時間內不斷進行研究。

我們可以在一個接一個的應用領域加速發展。盡管人們認為我們是一家電腦游戲公司,但我們也在其他領域不斷追求進步。我們認識到計算機圖形和游戲的價值,因為它們不僅是龐大的市場,還推動了技術創新。這種罕見的情況是由從未被滿足的龐大市場與技術革命的潛力交匯而成。我們最初在計算機圖形和游戲中找到了這種情況,引發了我們對這個領域的興趣。

幾年后,一些驚人的事情發生了,導致了今天的局面。我將馬上告訴你那件事。這一切導致了生成式人工智能的出現?,F在,當你聽到生成式人工智能時,當然會感到不可思議。

事實上,軟件不僅可以識別一張貓的圖片并保存貓,還可以根據「貓」這個詞生成一張貓的圖片。它可以根據一些條件提示,如在毛伊島的陽光明媚的海岸上,站在沖浪板上,喝著麥芬酒,戴著滑雪帽,無論你添加什么樣的提示,生成式人工智能都能夠生成出來。我們已經開發出一種軟件程序,能夠理解像素的含義,識別像素,并從像素的含義中生成內容。這種能力具有深遠的變革意義,促使了今天的局面。

這是新的工業革命的開端,我有充分的理由。在這個新的工業革命中,我們正在創造一些以前從未存在過的東西。就像以前的工業革命一樣,最后一次,水進入工廠,能量被應用到水上。那個被稱為發電機的裝置開始運轉,并創造出了我們今天所依賴的那些看不見但價值非凡的東西。

水進入建筑物,基本上是將其轉化為能量,將其燒開,那么你會得到什么?你會得到電。這種電的魔力無處不在,它創造了我們所熟知的工業革命。

一種新的設施創造了一種新的、具有巨大價值的產品。雖然生成式人工智能是一種全新類型的軟件,軟件本質上也是需要被創造的。令人驚奇的計算機科學必須去塑造它。但在那之后,它就可以進行大規模生產了。一個裝有我們稱之為 GPU 的機器設備的建筑,本質上就是一個發電機,一個內部裝有機器設備的大型建筑。

你給它原材料數據,你給它能量,然后這個驚人的東西就出現了。數字進去,數字出來,而出來的數字能夠做出令人驚奇、難以置信的事情。

當然,它們可以被應用。它們可以用于醫療保健和藥物設計,用于交通和降低汽車成本,以及用于制造業和工業,我們所熟知的每一個行業都將受益于這種新產品、這種新的生產物。因此,這是一個行業從未見過的全新產品。

它將在世界上從未見過的 AI 工廠和設施中進行生產,并且 AI 將被每個行業使用。你會怎么稱呼這種情況呢?一個新的工業革命?這一切在此之前都不存在,但我們正在親眼見證著未來十年的發展。你絕對不能錯過接下來的這十年,會誕生令人難以置信的能力。這一切始于一些研究人員的努力。

所以今天我們邀請了機器語言模型「Transformer」的發明者、創造者們,是那篇名為《注意力就是一切(Attention is All you need)》的論文的作者。好的,現在讓我們歡迎 Ashish Vaswani,EssentialAI 聯合創始人兼 CEO;Noam Shazeer,Character.AI 首席執行官兼聯合創始人;Jakob Uszkoreit,Inceptive 聯合創始人兼首席執行官;Llion Jones,SakanaAI 聯合創始人兼首席技術官;Aidan Gomez,Cohere 聯合創始人兼首席執行官;Lukasz Kaiser,OpenAI 技術人員;Illia Polosukhin,NEAR Protocol 聯合創始人,我們還有一位同事和朋友 Niki Parmar,EssentialAI 聯合創始人,因為家庭緊急情況無法出席,我們的心和思緒都與她在一起。

首先,我要說他們實際上從未同時出現在同一個房間里。我知道在家工作這件事有點失控了。但顯然,這并沒有阻止創新和發明。我們將會討論 Transformer 的重要性和意義,以及它不可思議的變革能力,對行業的影響。我們今天享受的一切都可以追溯到那一刻。我們能夠從數據中學習,從龐大的數據序列中學習,以及空間數據,但是能夠從大量數據中學習,找到關系和模式。創建這些龐大的模型真的是非常具有變革性的。

我們都同意,互相打斷、互相反駁甚至站起來進行白板討論并非不禮貌。我們需要一個白板,今天沒有禁區?;氐狡瘘c,工程師們,我們需要問題來激發靈感。

黃仁勛和 Transformer 八子|圖片來源:NVIDIA GTC

回顧當年,Transformer 是怎么被創造的?

黃仁勛:你們當時面臨的問題或挑戰是什么,導致了這個想法的產生?Illia Polosukhin:因為那個時候,模型在處理時間方面是不夠的。

黃仁勛:當時存在循環神經網絡(RNNs)和具有注意力機制的 RNNs,但在一次讀取一個詞和一次讀取一個詞之間存在差異。

Jakob Uszkoreit:我們生成的訓練數據比我們能夠訓練的最先進的架構要快得多。因此,實際上有相似的架構,只是使用了一些 n-grams 或其他特征,因為它們在訓練上更快,這是規模的問題。大量的訓練數據基本上總是超過了當時更先進、更強大的網絡。我們意識到了這一點。因此,修復這個問題似乎是有價值的。

Noam Shazeer:早在 2015 年,我們就已經看到了這些縮放定律。你可以看到,讓模型變得更大,它就變得更聰明。這個問題就像世界歷史上最好的問題一樣簡單。你只需要預測下一個 token,而模型將會變得越來越聰明,能夠執行數百萬種不同的任務。我們的目標只是擴展它并使其更強大。

Illia Polosukhin:對于電力行業的人們來說,現在我們只需要等待它擴展。

Ashish Vaswani:在攻讀研究生期間,特別是在 Transformer 出現時,我不斷被提醒兩個教訓。第一個是當時我在進行機器翻譯方面的工作時,我意識到學習語言規則并不重要,因為梯度下降對于模型來說是一個更好的老師。第二個是我從苦澀的教訓中明白,通用架構的可擴展性最終會獲得成功。

今天的 token 是明天計算機行動的體現,它們開始模仿我們的活動,并自動化我們的工作。Transformer 自我注意,并使梯度下降變得更快。這是一種重復的主題,每次我們創建規則樣本時都會體現。

Noam Shazeer:沒錯,這就是我們正在做的事情。所有的深度學習都是如此,我們正在構建一個形狀類似 GPU 的 AI 模型,它的形狀類似于超級計算機。

在這里,這就像是世界歷史上最好的問題。它是如此簡單。你只是在預測下一個 tokens,它將變得如此聰明,能夠做出數百萬種不同的事情,而你只是想要擴展它并使其變得更好。黃仁勛:現在,你們在解決什么問題?

Lukasz Kaiser:機器翻譯。八年前,它看起來是如此困難,就像你不得不收集數據,也許會翻譯,也許會有點錯誤。當時這是非?;A的水平?,F在這些模型,你根本不需要任何數據。所以你只需學會翻譯這種語言,那種語言。模型就能翻譯了。

黃仁勛:什么樣的靈感讓你們想到了「Attention Is All You Need」?

Llion Jones:酷,是我想出了這個標題。我們當時嘗試做切除,扔掉模型的一部分,只是為了看看會變得多糟糕。令我們驚訝的是,它開始變得更好,甚至包括扔掉所有的卷積。那時我腦海中的想法是,我就是和我的腦子在一起工作。這就是標題的來源。

 

Llion Jones,SakanaAI 聯合創始人兼首席技術官|圖片來源:NVIDIA GTC

黃仁勛:誰想出了 Transformer 這個名字?為什么叫做 Transformer 呢?

Jakob Uszkoreit:但它確實符合模型的功能,它實際上改變了它所操作的整個信號,而不是去處理邏輯。Llion Jones:我認為它成為一個如此通用的名稱的原因是,在論文中,我們集中討論了翻譯,但我們絕對意識到我們實際上正在嘗試創建一種非常通用的東西,它確實可以將任何東西轉化為其他任何東西。我不認為我們預測到這將會有多么成功。

黃仁勛當 Transformer 被用于圖像時,這是一個相當令人驚訝的嘗試。事實上,你們可以將圖像分塊并標記化每一部分。我認為這在架構上早就存在了。所以當我們構建張量到張量庫時,我們發現這不僅僅是針對語言的。其中包含了圖像、音頻、文本的組件,以及輸入和輸出方面的內容。所以 Lukasz Kaiser 說他正在處理這些事情,我們現在開始看到的這些模態正在匯聚在一起,其實自始至終都是如此。

Aidan Gomez:這些想法在很早之前就已經存在了,這些想法一直在醞釀,花了一些時間。我們的目標是我們有所有這些學術數據集,它們從圖像到文本,再從文本到圖像,從音頻到文本,從文本到文本。我們應該對所有內容進行訓練。這個想法真正推動了模型進行擴展,以模擬網絡?,F在我們許多人都在做類似的事情。

所以我認為北極星第一天就存在,所以看到這一切正在發生,是非常令人興奮滿足的。

黃仁勛:在這么多不同知識中,有翻譯的想法是普遍的。你們正在將它用于生物學?

Jakob Uszkoreit:我們可以將其稱為生物軟件,類似于計算機軟件,它起初是一個程序,然后編譯成可以在 GPU 上運行的形式?;旧?,生物軟件的生命始于對特定行為規范的需求,比如在細胞中生成大量特定蛋白質,然后通過深度學習將其轉譯成 RNA 分子。但實際上,一旦它們進入細胞,它們就會表現出這些行為。所以,這個概念不僅僅是將安全的英語翻譯成計算機代碼,而且涉及到藥物的規范,即完全轉化為實際的分子藥物。

黃仁勛:你們是否創建了一個生產所有這些的大型網絡實驗室?

Jakob Uszkoreit:如果你必須對自然進行實驗,你必須驗證。有大量極其有價值的基因組數據可以下載,主要是因為它基本上仍然是公開的,是公共資助的。但實際上,你仍然需要數據,這些數據明確地解釋了你試圖模擬的現象。例如,針對某種產品,比如 mRNA 疫苗中的蛋白質表達,這確實是相當大的傳輸。

在帕洛阿爾托,我們有一群機器人和網絡公司的人員以及實驗室的研究人員,他們以前是生物學家?,F在我們把自己看作是一種新事物的先驅者,努力工作并實際創建數據,并驗證設計這些數據的模型。

黃仁勛 :所以你說一開始就有一些關于普遍 Transformer 的早期想法。但你們所有人在這條路上都看到了一些重大的、你們認為是基于基本 Transformer 設計的,真正偉大的額外貢獻,主要是架構性的修復、增強和突破。

Aidan Gomez:我覺得在推理方面,已經有很多工作來加速這些模型,使它們更高效。但我仍然覺得有點不安,因為它與我們以前的形式非常相似。我認為世界需要比 Transformer 更好的東西。我想問一下在座的每個人,你認為接下來會發生什么?是令人興奮的一步嗎?因為我覺得現在與 6、7 年前的情況相似。

Llion Jones:人們可能會感到驚訝。但我認為重要的是要明顯、顯而易見地變得更好。因為如果只是稍微改進,那還不足以讓整個人工智能行業轉向新事物。所以盡管原始模型可能不是我們現在擁有的最強大的東西,但我們仍然固守在原來的模型上。

黃仁勛:但是每個人的工具集都是不同的,但你們想要改進的屬性是什么呢?是我想要改進生成能力,還是想要更快。

Jakob Uszkoreit:我不確定你是否喜歡這個答案,但他們現在使用的計算量太大了。我覺得他們浪費了很多計算資源。

黃仁勛:我們正在努力提高效率。謝謝你。

Jakob Uszkoreit 等人:但實際上,這是關于分配,而不是關于總量。我同意你的觀點。實際上,這真的是關于在問題上投入適量的努力和能量。你不想在一個容易的問題上投入太多,或者在一個困難的問題上投入太少,然后無法提供適當的解決方案。

Illia Polosukhin:所以現在一個真實的例子就是 2 加 2。如果你輸入這個模型,它會使用 1 萬億個參數。用戶群體完全自己有能力做到這一點。

我認為自適應計算是接下來必須解決的問題之一,這樣我們就知道在特定問題上要花費多少計算資源。

Illia Polosukhin,NEAR Protocol 聯合創始人|圖片來源:NVIDIA GTC

Aidan Gomez:我們中一些作者已經發布了跟進通用 Transformer 的論文,在解決了這個問題。

Lukasz Kaiser:這些想法在一年前就存在了,但現在已經普及到各個領域,甚至在 Transformer 出現之前就已經展開了。

Ashish Vaswani:我們最初的目標是模擬 token 的演變,實現線性生成?,F在這個過程也適用于圖像,擴散模型會迭代地進行改進和完善。

根本的問題是,哪些知識應該存在于模型內部,哪些應該存在于模型外部?例如,推理應該在外部使用符號系統進行,這是一個效率的論點。

Ashish Vaswani,EssentialAI 聯合創始人兼 CEO|圖片來源:NVIDIA GTC

Noam Shazeer:擁有 5000 億參數的模型每個 tokens 仍然只相當于一美元的百萬分之一。這是非常便宜的。我們可以利用這個來提升模型的智能。

我們有一些應用程序的價值是計算巨型神經網絡的效率的百萬倍以上。比如治愈癌癥之類的,當然很重要,但即使只是與任何人交談,與你的醫生、律師、程序員交談,你也需要支付 1 美元一個 tokens,或者更多。我們有一百萬個 tokens 來使用,我們可以用它來讓模型變得更聰明。有時候,恰到好處的詞語就能改變世界。

Ashish Vaswani:獲取正確的反饋對于提升模型智能至關重要。我們需要將任務分解為人類可以干預的步驟,并構建能夠通過觀察我們學習的模型。

現在「散是滿天星」,都在做什么?

黃仁勛 :你們能不能快速地談談現在的公司以及為什么決定創辦它?

Ashish Vaswani:我們非常興奮地致力于構建模型,這些模型最終可以以與人類相同的效率水平學習解決新任務。它們觀察我們的行為,理解我們的意圖和目標,并開始模仿我們的行為。這將徹底改變我們與計算機的互動方式和工作方式。這是在 2021 年的目標。

我離開的一個重要原因是,要使這些模型變得更智能,不能僅在實驗室的真空中培養它們。實際上,你必須把它們放到人們手中,因為你需要世界來注釋。確切地說,你希望世界與這些模型互動,從中獲得反饋,并使這些模型變得更智能。做到這一點的方法就是走出去,建立一些有用的東西。

Jakob Uszkoreit,Inceptive 聯合創始人兼首席執行官|圖片來源:NVIDIA GTC

黃仁勛 :學習確實需要絕對變量飛輪。

Noam Shazeer:當我在 2021 年發現這一切時,我當時最大的挫敗感是,這項令人難以置信的技術沒有普及到每個人手中。因為它有太多的用途,而且使用起來非常簡單。作為一個心急的人,我希望這項技術能夠被十億人使用,讓他們能夠開展各種各樣的活動。

讓我們盡可能快地建造一些東西,把它推廣出去,讓數十億人能夠使用它。首先,很多人只是為了娛樂、情感支持、陪伴或類似的東西而使用它等等。

Noam Shazeer,Character.AI 首席執行官兼聯合創始人|圖片來源:NVIDIA GTC

Jakob Uszkoreit:我已經稍微談到了生物軟件的一些內容,對我個人而言,在 2021 年,我共同創立了 Inceptive,主要是因為意識到這項技術可以對商業生活產生更直接的影響,甚至比之前的廣泛應用更為直接。在疫情期間,我的第一個孩子出生了,這無疑讓我對生命的脆弱有了新的認識。然后,在 AlphaFold 2 發布蛋白質結構預測結果幾周后,我對這一技術產生了濃厚的興趣。

而 AlphaFold 2 與 AlphaFold 1 之間的一個重大區別在于,他們開始使用了 Transformer,并用它替換了模型或架構的其余部分。因此,很明顯,這些技術已經可以在分子生物學領域發揮作用。幾周后,mRNA 新冠疫苗的有效性結果出來了,很明顯,mRNA 和 RNA 在一般情況下可以特別生存,你可以使用 RNA 做生命的任何事情。很長一段時間以來,RNA 在某種程度上一直被視為分子生物學的被忽視的親生子女。所以這似乎幾乎是一種道德義務,這必須發生。

黃仁勛 :我一直認為它是藥物設計。但我喜歡你把它看作蛋白質編程。

Llion Jones:我去年剛剛開始了一項新項目,現在還處于非常早期的階段,但我可以告訴你到目前為止我們都取得了哪些進展。

我是 Sakana AI 公司的共同創始人之一。Sakana 在日語中意為魚,日本人似乎很喜歡這個名字,我們選擇這個名稱是因為我們希望激發人們對魚群的聯想。我們的目標是實現自然啟發的人工智能。就像一群小魚一樣簡單,但當將許多簡單的元素聚集在一起時,它們就會變得相當復雜。然而,人們對我們所說的自然啟發并不完全理解。

我試圖向加入我們的研究人員傳達的核心思想是,只要不斷學習,就會取得成功。每當我們試圖手工操作某事時,嘗試自己工程化,但最終轉向使用計算機搜索空間時,我們總是會取得成功。深度學習革命就是一個例子,我們從手工工程化特征轉向學習它們,結果效果要好得多。我想提醒大家,除了梯度下降,我們還可以利用 Nvidia 提供的大量計算資源來進行其他工作。

今天或明天我們準備做一些公告。我很驚訝我們這么早就有東西要宣布,但我們即將開源一些研究成果。這與我們的品牌形象非常契合,因為目前流行的趨勢是模型融合,但這通常需要手工完成。我們并不是手工制作合并這些模型的算法。相反,我們利用了大量的計算資源,使用進化計算來搜索如何合并和堆疊層。結果非常令人滿意。

Aidan Gomez:我創建 Coherer 的原因與 Jones 非常相似。我看到了一項我認為能改變世界的技術。計算機開始向我們回應。它們獲得了一種新的模態。因此,我認為這應該改變一切,每一個產品,我們工作的方式,以及我們與所有建立在計算機之上的東西互動的方式。

有一種停滯感,以及我們這些了解情況的人所面對的技術與外界實際運用的情況之間存在的不一致。因此,我想要彌合這種差距。我與諾姆的做法有些不同,因為 Coherer 是為企業建造的。因此,我們為每家企業創建平臺,使其能夠將其集成到產品中,而不是直接面向消費者。但這正是我們想要推動這項技術的方式,使其更加普及,更加便宜,并幫助企業采用它。

Aidan Gomez,Cohere 聯合創始人兼首席執行官|圖片來源:NVIDIA GTC

Lukasz Kaiser:我沒有找到適合我的……

黃仁勛:我知道,但你繼續改變著世界,繼續吧。

Lukasz Kaiser:是的,我最終決定再次加入 OpenAI??ㄆ占{被問到為什么會回來,他說那里有錢,有時間。我加入的地方是 AI 最好的地方。公司里非常有趣。我們知道你可以利用大量數據和計算資源創建出優秀的東西,我仍然希望能夠招募更多的人,以及更多的計算資源。

Illia Polosukhin :我實際上是第一個中途離開的人。因為與阿什利的觀點相似,我堅信我們向著實現幾乎所有世界中的軟件化進步,而機器學習就是軟件的一部分。因此,最直接的方法是教會機器編碼,這樣你就能夠生成軟件并改變所有人的訪問方式。

現在這是在 2017 年。當時還有點早。我們的計算能力還不夠好。因此,我們試圖協調人們來生成更多的數據。作為一家初創公司,你實際上有能力將產品放在用戶面前,并激勵他們。

我們最終意識到我們需要一種新的基本原語,那就是可編程貨幣,因為可編程貨幣是讓我們能夠在規模上協調人們的工具。因此,我們最終建立了一個協議,這是一個區塊鏈,自 2020 年以來一直在運行。這個協議擁有世界上最多的用戶。在區塊鏈空間中,每天有數百萬用戶使用它,甚至他們自己都不知道他們在使用區塊鏈,但他們與可編程貨幣、可編程價值進行交互?,F在我們開始利用這一點,實際上將一些工具帶回來,以生成更多的數據。我認為從根本上來說,在這個群體中是毫無爭議的,但在其他地方可能會有爭議,那就是從 18 世紀起的版權技術需要改變。我們正處于一個新的敘事時代,我們現在所獎勵創作者的方式已經失效。唯一的方法是利用可編程貨幣和區塊鏈來創建價值。因此,我們正在致力于創建一種新穎的方式,讓人們可以貢獻數據,以使用那些超級酷的模型。

Lukasz Kaiser,OpenAI 技術人員|圖片來源:NVIDIA GTC

黃仁勛 :這確實非???。然后你們將建立一個全新的正反饋系統,完全符合我們正在做的一切。在此之上還有一個偉大的新經濟。我們有可編程的人類,有可編程的蛋白質,有可編程的貨幣。我喜歡這個想法。

當前一代的 GPT 模型擁有巨大的訓練數據集,大約有 10 萬億個 tokens,與互聯網上可自由抓取的內容相當。那么接下來呢?下一步需要探索哪些新的模型技術,比如推理、知識等等,你們有討論過嗎?

Illia Polosukhin:數據需要來自用戶的交互,這需要大規模的平臺來建立并跟蹤。人們需要從中獲得經濟價值來進行這些交互。在后臺,你可以將數據導入到所有這些模型中,以使它們變得更智能,并且可以更智能地處理它,使模型變得更好。

黃仁勛:你可以通過強化學習讓模型相互交互,從而逐步優化出一個令人想要與之互動的、令人滿意的預訓練模型。此外,你還可以利用合成數據生成技術來豐富數據集,從而幫助模型更好地學習和泛化。

Llion Jones:推理是下一個重要的發展方向。很多人已經意識到了這一點,并且正在致力于研究。但是目前很多工作都是手工設計的,我們在手工編寫提示信息,然后嘗試讓它們以我們認為合適的方式進行交互。當然,我們實際上應該搜索這個領域,學習如何將它們連接起來,打造出我們想要的功能強大的模型。

Jakob Uszkoreit:這是一個很好的思路。我們希望模型生成的內容能夠符合人類的消費需求,因此這些模型應該接受我們喜歡或可以接受的所有刺激作為訓練數據。因此,任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息,包括時序信息,都應該被納入到訓練數據中。

Lukasz Kaiser :是的,推理和學習之間的關系確實非常密切。如果你有一個能夠進行推理的模型,然后你只需要一點點數據。它就會進行一系列的推理,從中產生結果。為什么這個事物會如此發展?但是它可以投入大量計算來進行這樣的推理。然后,結果就出來了,它能夠從更少的數據中進行泛化,因為它在推理過程中進行了大量計算。這就像是一個思考的系統,就像人類一樣。

Illia Polosukhin:是的,然后你可以讓它自行發展,嘗試將它設計的東西融入其中,這樣它就能夠在繼續搜索推理時構建出最具影響力的數據。

Lukasz Kaiser:當我們弄清楚了之后,這將極大地減少數量。但數據的質量將變得更加重要,這就是人們與現實世界互動的地方。因此,我認為會出現一個新時代,仍然會有一些免費的預訓練模型,但重要的事情可能會是大型、高質量的事情。這可能會更容易讓人們接受。

Ashish Vaswani:我也認為,領域取得了很大進展,這就好比是將大規模的現實世界任務分解為更簡單的任務,這種逐步漸進的過程也很重要,因為我們的模型可能可以完成其中的一些任務,然后部署并獲取更多數據。一旦這個循環閉合了,它們就有權利去處理更復雜的任務,因為它們也可能在觀察它們正在做什么。

確實,這是一個很好的觀點。建立衡量進展和取得進步需要拆解或創建類似我們對某些電子郵件所做的,即自動化或交互的科學,與代碼生成的科學相比,這些都是不同的領域。成功的工程學需要良好的測量。

黃仁勛:你們想問對方的三個問題是什么?

Llion Jones :是的,你提到的這些早期模型在當時的研究領域確實起到了一定作用,但由于 Transformer 模型的出現,人們可能忘記了它們的存在。然而,這些早期模型所面臨的問題可能在一定程度上也存在于當前的模型中。因此,我同意你的觀點,未來可能會出現混合模型,結合了 Transformer 模型和早期模型的優勢。

Illia Polosukhin :Transformer 模型中的自注意力機制可以視為一種「遞歸步驟」,在每個步驟中,模型都會根據輸入中的不同部分來更新信息。這種遞歸性質使得模型能夠在每個步驟中對輸入進行增強和推理。然而,有趣的是,目前很少有人探索通過連接不同數量的遞歸步驟來訓練模型,這可能是一個值得研究的方向。通過探索遞歸性質,我們可能能夠擴展模型的推理能力,并使其能夠處理更復雜的任務。

確實,有時候并不需要固定數量的步驟,而是需要根據輸入的復雜程度來動態調整遞歸步驟的數量。這種動態調整可能會使模型更加靈活,能夠更好地處理不同類型的輸入和任務。另外,關于如何擺脫 tokens,這也是一個非常值得探索的問題。

Lukasz Kaiser:我個人認為,對于如何使用梯度下降來完全學習循環神經網絡(RNN)的訓練,我們尚未完全掌握?;蛟S這很簡單。我是說,長短期記憶網絡(LSTM)有一些誤差操作符,這使得早期的情況能夠工作。

那么,SSMs(Structured Self-Attentive Models)工作得更好,對嗎?這是因為它們的結構可能需要用不同的方式訓練,而不是用梯度下降。也許我們需要像人類一樣在一些服務中進行遞歸訓練,我們生活在時間中。我們會帶來一些生活時間,但這并不那么清楚。我們是否通過傳播進行訓練,可能不是。因此,也許有一種方法只是我們還沒有找到。

Illia Polosukhin :以及下降,為什么很難做到這一點。

黃仁勛:好的,伙計們,和你們共度時光真是太棒了。我真的希望你們偶爾能聚在一起。下次你們的互動會帶來多么驚人的魔力。所以我們有一個整個行業都感激你們所做的工作。

大家:同樣。謝謝。

最新文章

極客公園

用極客視角,追蹤你不可錯過的科技圈.

極客之選

新鮮、有趣的硬件產品,第一時間為你呈現。

張鵬科技商業觀察

聊科技,談商業。

国产精品揄拍一区二区,欧美aⅴ精品一区二区三区,久久九九99这里有精品10,999精品在线