我的位置：首頁 > 熱點 >

LeCun世界模型出場！Meta震撼發布首個「類人」模型，理解世界后補全半張圖，自監督學習眾望所歸

程序員客棧 2023-06-20 07:53:51

(相關資料圖)

新智元報道

編輯：編輯部

【新智元導讀】LeCun的世界模型終于來了，可謂是眾望所歸。既然大模型已經學會了理解世界、像人一樣推理，是不是AGI也不遠了？

長久以來，LeCun理想中的AI，一直是通往人類水平的AI，為此他提出了「世界模型」的構想。

而最近，LeCun在公開演講中，再次批評了GPT大模型：根據概率生成自回歸的大模型，根本無法破除幻覺難題。甚至直接發出斷言：GPT模型活不過5年。

今天，LeCun終于離自己的夢想又近了一步！

Meta震撼發布了一個「類人」的人工智能模型 I-JEPA，它可以比現有模型更準確地分析和完成缺失的圖像。

論文地址：https://arxiv.org/abs/2301.08243

劃重點：I-JEPA填充缺失片段時，用的就是有關世界的背景知識！而不是像其他模型那樣，僅僅通過查看附近的像素。

距離提出「世界模型」概念一年多，眼看著LeCun就要實現自己的星辰大海了。

今天，訓練代碼和模型已經開源。論文將于下周在CVPR 2023發表。

LeCun的世界模型來了

即使是如今最先進的AI系統，也始終無法突破一些關鍵限制。

為了突破這層桎梏，Meta的首席AI科學家Yann LeCun提出了一種新的架構。

他的愿景是，創造出一個機器，讓它能夠學習世界如何運作的內部模型，這樣它就可以更快速地學習，為完成復雜任務做出計劃，并且隨時應對不熟悉的新情況。

今天Meta推出的圖像聯合嵌入預測架構I-JEPA模型，是史上第一個基于LeCun世界模型愿景關鍵部分的AI模型。

I-JEPA就是通過創建外部世界的內部模型來學習。在補全圖像的過程中，它比較的是圖像的抽象表征，而不是比較像素本身。

在多個計算機視覺任務上，I-JEPA都表現出了強大的性能，并且比其他廣泛使用的CV模型計算效率高得多。

ImageNet線性評估：I-JEPA方法在預訓練期間不使用任何視覺數據增強來學習語義圖像表征，使用的計算量比其他方法更少

I-JEPA學習的表示形式可以用于許多不同的應用，而無需進行大量的微調。

比如，研究者在72小時內使用16個A100 GPU，就訓練出了一個632M參數的視覺Transformer模型。

在ImageNet上的low-shot分類任務上，它達到了SOTA，每個類降低到12個標記示例。

而其他方法通常需要2到10倍的GPU小時，并且使用相同數量的數據進行訓練時，錯誤率也更高。

通過自監督學習獲取常識

通常，人類只要通過被動觀察，就能學習到有關世界的大量背景知識。

根據推測，似乎這種常識信息正是實現智能行為的關鍵，比如獲取新概念、基礎和計劃的有效樣本。

將概念學習建模為學習一個線性讀數

Meta在I-JEPA（以及更普遍的聯合嵌入預測架構JEPA模型）上的工作，正是基于這樣一個事實。

研究者嘗試的是，設計出一種學習算法，捕捉關于世界的常識背景知識，然后將其編碼為算法可以訪問的數字表征。

為了達到足夠的效率，系統必須以自監督的方式學習這些表征——也就是說，直接從圖像或聲音等未標記的數據中學習，而不是從手動組合的標記數據集中學習。

在更高的層級上，JEPA旨在根據同一輸入（圖像或文本）的其他部分的表征，來預測輸入的部分表征。

因為它不涉及將圖像的多個視圖/增強的表征折疊到一個點上，所以JEPA有很大希望能夠避免在廣泛使用的方法（即基于不變性的預訓練）中出現的偏見和問題。

聯合嵌入方法可以避免表征崩潰

同時，通過在高度抽象的水平上預測表征，而不是直接預測像素值，JEPA有望能夠直接學習有用的表征，同時避免生成方法的局限性，正是基于這個原因，最近才產生了如此多令人興奮的大語言模型。

相比之下，一般的生成式模型是通過移除或扭曲輸入模型的部分內容來學習的。

例如，抹去照片的一部分，或者隱藏文本段落中的某些字，然后試著預測被破壞或丟失的像素或單詞。

但這種方法的一個顯著缺點是，盡管世界本身是不可預測的，模型卻試圖填補每一塊缺失的信息。

因而，這種方法可能會犯人永遠不會犯的錯誤，因為它們會過于關注不相干的細節，而不是捕捉更高級的可預測的概念。

一個眾所周知的例子就是，生成式模型很難生成正確的人手。

在自監督學習的通用架構中，系統會學習捕捉不同輸入之間的關系。

它的目標是，將高能量分配給不兼容的輸入，將低能量分配給兼容的輸入。

自監督學習的常見架構

這三種架構的區別是——

(a) 聯合嵌入（不變）架構會學習為兼容的輸入x、y輸出相似的嵌入，為不兼容的輸入輸出不相似的嵌入。

(b) 生成式架構會學習直接從兼容的信號x重建信號y，使用以附加變量z（可能是潛變量）為條件的解碼器網絡，以促進重建。

聯合嵌入預測架構

I-JEPA背后的原理是通過一種更類似于人類理解的抽象表征來預測缺失的信息。

為了引導I-JEPA產生語義表征，其中一個核心設計便是多塊掩碼策略。

具體而言，團隊證明了預測包含語義信息的大塊的重要性。這些大塊具有足夠大的規模，可以涵蓋重要的語義特征。

這種策略的優勢在于，它能夠減少不必要的細節，并提供更高層次的語義理解。

通過關注大塊的語義信息，模型可以更好地抓住圖像或文本中的重要概念，從而實現更強大的預測能力。

基于圖像的聯合嵌入預測架構（I-JEPA）使用單個上下文塊來預測來自同一圖像的表征

其中，上下文編碼器是一個視覺Transformer（ViT），它只處理可見的上下文patch。

預測器是一個窄的ViT，它接收上下文編碼器的輸出，并根據目標的位置token，來預測目標塊的表征。

目標表征對應于目標編碼器的輸出，其權重在每次迭代時，通過對上下文編碼器權重的指數移動平均進行更新。

在I-JEPA中，預測器可以被視為一個原始（且受限）的世界模型，它能夠利用已知的上下文信息來推斷未知區域的內容。

這種能力使得模型能夠對靜態圖像進行推理，從而建立一種對圖像中的空間不確定性的理解。

與僅關注像素級細節的方法不同，I-JEPA能夠預測未見區域的高層次語義信息，從而更好地捕捉圖像的語義內容。

預測器學習建模世界語義的過程

對于每個圖像，藍色框之外的部分被編碼并作為上下文提供給預測器。而預測器則輸出了代表藍色框內預期內容的表征。

為了理解模型捕捉的內容，團隊訓練了一個隨機解碼器，將I-JEPA預測的表征映射回像素空間，從而展示了在藍色框內進行預測時模型的輸出。

顯然，預測器能夠識別出應該填充部分的語義信息（狗頭頂部、鳥的腿、狼的腿、建筑物的另一側）。

給定一幅圖像，隨機采樣4個目標塊，隨機采樣一個范圍尺度的上下文塊，并刪除任何重疊的目標塊。這種策略下，目標塊相對語義化，上下文塊信息量大，但很稀疏，因而處理效率高

簡而言之，I-JEPA能夠學習對象部分的高級表征，而且也不會丟棄它們在圖像中的局部位置信息。

更高的效率，更強的性能

在預訓練上，I-JEPA的計算更加高效。

首先，它不需要應用更加計算密集的數據增強來生成多個視圖，因此不會帶來額外的開銷。

其次，其中的目標編碼器只需對圖像的一個視圖進行處理，而上下文編碼器也只需對上下文塊進行處理。

實驗證明，I-JEPA能夠在不使用人工視圖增強的情況下，學習到強大的現成語義表征。

此外，在ImageNet-1K線性探測和半監督評估中，I-JEPA的表現也優于像素重建和token重建方法。

在預訓練過程中，以GPU小時數為函數的基準，在ImageNet-1k上進行線性評估的性能

在語義任務上，I-JEPA與之前依賴于人工數據進行增強的預訓練方法相比，表現更加出色。

與這些方法相比，I-JEPA在低級視覺任務（如物體計數和深度預測）上實現了更好的性能。

通過使用更簡單、更靈活的歸納偏置模型，I-JEPA可以用在更廣泛的任務上。

低樣本分類準確率：對ImageNet-1k進行半監督評估，使用1%的標簽（每個類別大約有12張帶標簽的圖像）

AI向人類智能更進了一步

I-JEPA展示了架構在學習現成圖像表征方面的潛力，而且還不需通過人工制作的知識作為額外的輔助。

推進JEPA以從更豐富的模態中學習更通用的世界模型，將會是一樣特別有意義的工作。

例如，從短的上下文中，對視頻進行長程的空間和時間預測，并將這些預測基于音頻或文本提示進行條件化。

I-JEPA預測器表征的可視化：第一列包含原始圖像，第二列包含上下文圖像，綠色邊界框包含來自預測器輸出解碼的生成模型的樣本。預測器正確捕捉了位置的不確定性，以正確的姿態產生了高級對象的部分，丟棄精確的低級細節和背景信息

團隊表示，期待著將JEPA方法擴展到其他領域，如圖像-文本配對數據和視頻數據。

未來，JEPA模型會在視頻理解等任務中可能具有令人興奮的應用。而這也將是應用和擴展自監督方法來學習世界模型的重要一步。

預訓練模型

單GPU訓練

在單GPU設置中，實現從main.py開始。

例如，要使用配置configs/in1k_vith14_ep300.yaml在本地計算機上的GPU 0、1和2上運行I-JEPA預訓練，請輸入以下命令：

python main.py \--fname configs/in1k_vith14_ep300.yaml \--devices cuda:0 cuda:1 cuda:2

注意：ViT-H/14配置應在16個A100 80G顯卡上運行，有效批大小為2048，才能復現結果。

多GPU訓練

在多GPU設置中，實現從main_distributed.py開始，除了解析配置文件外，還允許指定有關分布式訓練的詳細信息。

對于分布式訓練，需要使用流行的開源submitit工具，并提供SLURM集群的示例。

例如，要使用configs/in1k_vith14_ep300.yaml中指定的預訓練實驗配置在16個A100 80G顯卡上進行預訓練，請輸入以下命令：

python main_distributed.py \--fname configs/in1k_vith14_ep300.yaml \--folder $path_to_save_submitit_logs \--partition $slurm_partition \--nodes 2 --tasks-per-node 8 \--time 1000

網友評論

對于LeCun領銜的這項新工作，網友們紛紛表示贊賞。

真是開創性的工作，吹爆了。自回歸模型的繼任者就在這里！

我相信，聯合嵌入架構是人工智能的未來，而不是生成式的。但我就是很好奇，為什么我們不進一步研究多模態（如ImageBind，而不僅僅是文本-圖像對），并且用像編碼器這樣的感知器來代替VIT編碼器？

很簡潔的工作。在我的理解中，它類似于掩蔽自動編碼器，但在潛在空間中定義時會丟失功能，而不是輸入/像素空間。不過，如果要詳細看懂，我還需要更多細節。

我的大腦只能看懂論文的10%，但如果I-JEPA真的能創建圖3中的目標圖像，那就太神奇了，最重要的是：它和AI生成的MMORPG是相關的！

這個項目即將開源，網友也對Meta對于開源社區的貢獻表示贊賞。

參考資料：

https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

該作品系作者結合新聞時事、法律法規及互聯網相關知識整合，作品內圖片源于網絡。僅供交流學習，若侵犯到您的權益，煩請聯系客服告知，我們核實后將立即刪除。標簽：

最近更新

LeCun世界模型出場！Meta震撼發布首個「類人」模型，理解世界后補全半張圖，自監督學習眾望所歸新智元報道編輯：編輯部【新智元導讀】LeCun的世界模型終于來了，可謂

農民工欠薪是否屬于勞動糾紛（公司拖欠工資需要承擔什么法律責任）天天信息農民工欠薪是否屬于勞動糾紛拖欠農民工工資是不是屬于勞動糾紛，在

全球熱點評！集資詐騙2020萬會判什么刑？集資詐騙是犯罪嫌疑人以高回報率和假證明文件為誘餌，以非法占有他人財

世界實時：倉單生效必須具備哪些要件 1、保管人須在倉單上簽字或者蓋章保管人在倉單上簽字或者蓋章表明保管

申請專利實施強制許可的程序有哪些? 最新專利權以外的任何單位或者個人，可以向中國專利局申請實施專利強制許可

熱點評！搶注商標法院能否處理？一、搶注商標法院能否處理?可以處理，商標被別人搶注了可以提出商標權

全球速讀：在我國政府信息公開公民有權申請？在日常生活當中，信息對于任何一個人來說都非常重要，如果掌握到關鍵的

全球速遞！有夏之居_對于有夏之居簡單介紹 1、有夏之居品牌誕生于安徽省合肥市，專用權期限2020年03月21日至2030

房屋拆遷補償協議需要公證嗎|世界觀察房屋拆遷補償協議需要公證嗎必須公證。這里需要說明的是，拆遷房屋拆遷

鮭魚立克次氏體檢疫技術規范巢式聚合酶鏈式反應法_關于鮭魚立克次氏體檢疫技術規范巢式聚合酶鏈式反應法簡述小伙伴們，你們好，今天小夏來聊聊一篇關于鮭魚立克次氏體檢疫技術規范

跟別人的老婆同居是什么罪？環球視點得不到的東西總是那么香，當拿到了之后又總是人心惶惶的。假使一日你腦

代位權的行使方法代位權的行使方法債權人可以向人民法院請求以自己的名義代位行使債務人

哪些人可以作為拆遷安置的對象哪些人可以作為拆遷安置的對象拆遷安置的對象應當是被拆遷人。同時，對

沒衛生許可證怎么處罰沒衛生許可證怎么處罰食品衛生許可證，現在已經退出歷史舞臺了，已經沒

地役權是用益物權嗎-天天速訊一、地役權是用益物權嗎地役權是用益物權。地役權，是指為使用自己不動

天天熱推薦：父母支付首付款的贈與行為屬于什么案例：羅某父親老羅出資80萬元首付款為兒子羅某和媳婦項某貸款購買房屋

祝福語老師同學簡短_祝福語老師 1、^o^所有話語都無法描繪對您的敬意，所有的文字都無法道盡對您的謝意

設立有限公司的出資方式_環球觀焦點有限公司這一名詞在日常生活中并不少見，根據我國公司法的規定，股東對

全球微動態丨夫妻個人債務與共同債務怎樣區分在夫妻離婚的時候，對夫妻個人債務與共同債務的區分就會被提到一個高度

主債務履行期屆滿后簽訂的保證合同的效力一、主債務履行期屆滿后簽訂的保證合同的性質根據擔保法第二十五條和二

全球新消息丨建設工程施工合同糾紛訴訟主體的確定是怎么樣的？建設工程施工合同糾紛案件當事人比較復雜。在處理該類案件中，較為常見

遇到醫療事故如何對待處理遇到醫療事故如何對待處理一、遇到醫療事故如何處理1、住院病人及家屬

公司倒閉欠供應商貨款應該如何應對關注公司倒閉欠供應商貨款應該如何應對如果是有限公司破產，以注冊資金為債

離婚財產分割一方沒錢怎么辦? 離婚財產分割是離婚過程中的重要環節，像房產這種家庭重要財產，分割的

侵占罪的犯罪構成有什么內容熱門推薦：電信詐騙詐騙罪交通肇事罪盜竊罪合同詐騙罪重婚罪判幾年非法

焦點熱門:抗體委托生產合同范本甲方:_________乙方:_________地址:_________地址:_________郵編:_________

醫療事故調解方式是如何的醫療事故調解的方式醫療事故是指醫療機構及其醫務人員在醫療活動中，違

2020婚姻法規定離婚共同財產分割的原則是什么離婚共同財產分割的原則新《婚姻法》第三十九條確立了婚姻法分割財產的

iOS 17淘汰iPhone 8、X等：蘋果老機型貶值率激增_世界熱議快科技6月17日消息，一些被iOS17淘汰的老機型，最近正在瘋狂貶值，這情

今日視點：安徽省農業農村廳原副廳長、一級巡視員楊增權接受監察調查新華社合肥6月19日電安徽省紀委監委19日發布通報，安徽省農業農村廳原

15037178970

婚姻法

知識糾紛

律師最新回復

2022-08-30 09:48:22

律師回答區

高樓住宅玻璃炸裂應該找誰處理

回復：可以建議您先找一下物業，由物業處置
2022-11-14 09:48:30

律師回答區

退休職工漲工資最新消息退休人員漲工資注意事項有哪些？
2022-11-17 17:08:56

律師回答區

跳跳糖是毒品嗎？
2022-11-18 11:21:04

律師回答區

建筑勞務公司是什么意思
2022-11-18 12:16:14

律師回答區

民事權利包括哪些

成人欧美一区二区三区视频xxx_中文字幕国产一区_性做久久久久久久久_五月天一区二区_欧美做爰一区二区三区_自拍偷拍1

LeCun世界模型出場！Meta震撼發布首個「類人」模型，理解世界后補全半張圖，自監督學習眾望所歸

最近更新

婚姻法

知識糾紛

律師最新回復

公司法

LeCun世界模型出場！Meta震撼發布首個「類人」模型，理解世界后補全半張圖，自監督學習眾望所歸