企业介绍
企业简介
企业文化
资质证书
产品介绍
明星产品
零添加特级生抽
零添加糯米米醋
零添加陈酿料酒
酱油
特级减盐生抽
特级减盐金标生抽
特级面条鲜
特级红烧酱油
特级金标生抽
特级味极鲜
盘中餐食用油
浓香压榨纯花生油
金尊小榨纯葵花仁油
浓香小榨菜籽油
复合调味料
珍鲜蚝油
财升蚝油
姜葱料酒
火锅料
枸杞红枣火锅底料(清汤)
枸杞红枣火锅底料(辣汤)
草本特制火锅底料(清汤)
资讯中心
企业新闻
媒体报导
投资者关系
拉斯维加斯官网首页入口
投资相关信息
普法专栏
健康饮食
减盐食谱
**私房菜
Las Vegas official website拉斯维加斯
Las Vegas official website
联系拉斯维加斯
生成模型,到底能不能理解世界,或者說拉斯維加斯遊戲官網,它們能否促進對世界的理解?這是我們在推進 Generation Models Know Space 這項研究時,最核心的出發點。
過去在 3D 場景理解這個領域多玩龍之谷禮包,我們往往習慣于一種思維定勢:如果要讓模型懂空間,就必須給它顯式的 3D 數據多玩龍之谷禮包,比如點雲,或者在系統裡硬塞進復雜的幾何重建模塊拉斯維加斯遊戲官網。這就導致整個理解鏈路非常沉重,而且嚴重受限于高質量的三維標注數據。
但當我們觀察這兩年飛速發展的視頻生成模型時,我們意識到了一個常常被忽視的事實。當一個模型能夠自然地生成一段視角切換、包含復雜遮擋關系的視頻時,它其實已經在內部默默處理了深度拉斯維加斯遊戲官網、透視和物理距離。如果它不懂三維幾何,生成的畫面早就崩塌成了一堆混亂的像素。
所以 Motivation 變得非常清晰且直接:既然這些在大規模無標注視頻上訓練出的生成模型,為了造出逼真的畫面,已經偷偷掌握了物理世界的空間邏輯,我們為什麼還要舍近求遠,去重新教理解模型學幾何?
這篇論文提出了 VEGA-3D,旨在釋放深藏于生成大模型內部的 3D 先驗知識。研究表明,生成模型不僅是一個高超的“畫師”,更像是一個開箱即用的“空間知識庫”拉斯維加斯遊戲官網。它將物理規律與幾何結構壓縮進參數之中拉斯維加斯5357cc網站首頁!,由生成任務催生出的隱式空間表征,具有很強的遷移能力,並能夠直接服務于理解任務。
這不僅是一次技術路線的替換,更是一種研究範式的轉變。我們不再將“生成”和“理解”視作彼此平行的兩條軌道。尤其在具身智能場景下,當機器人需要在復雜物理空間中完成感知、推理與交互時,模型對三維環境的尺度感、幾何直覺和空間一致性的把握,往往正是關鍵瓶頸。而借助生成模型反哺理解拉斯維加斯官方網站首頁,,則為突破這一瓶頸提供了一條極具潛力的新路徑。
基于這一思路,來自華中科技大學與百度的聯合團隊設計了 VEGA-3D 框架,用于系統挖掘並利用生成模型中的空間先驗多玩龍之谷禮包,從而提升模型在場景理解、空間推理與具身任務中的表現多玩龍之谷禮包。
它把物理法則壓縮在了自己的參數裡拉斯維加斯遊戲,,這種為了生成而被迫建立的隱式空間表征極其強大,且可以直接遷移到理解任務中。在具體實現上,VEGA-3D 將視頻生成模型(如 Wan2.1)作為 “潛在世界模擬器”,通過自適應門控機制,將生成模型在中間去噪階段展現出的純粹 3D 結構先驗,與原有的語義特征進行優雅融合。
Figure 1 摒棄復雜的 3D 依賴和幾何監督,VEGA-3D 開創了生成先驗增強的新範式。
為什麼視頻生成模型能懂 3D?因為要生成一段符合常理、時間連貫的視頻,生成模型在內部必然學會了物體遮擋、相機運動帶來的視差以及交互物理法則拉斯維加斯遊戲官網。VEGA-3D 的核心創新就在于如何 “榨幹” 這股隱式力量:
摒棄了只用生成模型 “畫圖” 的常規思路,VEGA-3D 將凍結的視頻擴散模型引入視覺流。為了徹底激活其內部的幾何結構認知,研究團隊通過在其前向過程中注入特定水平的噪聲(Noise Injection),提取其在中間去噪階段和中間網絡層(如 DiT layer 20)的時空特征。此時的特征,完美平衡了底層紋理與高層抽象,蘊含著最純粹的 3D 結構先驗。
Figure 2 可視化證明,Wan2.1 在不同視角下展現出驚人的多視角幾何一致性。結合 VEGA-3D,大模型的注意力圖瞬間精準鎖定了目標物體,徹底告別 “空間盲區”拉斯維加斯遊戲官網。
連續的物理生成特征與離散的語義特征天然存在 “語義 - 幾何鴻溝”。如果簡單粗暴地相加,只會導致信號衝突。 VEGA-3D 獨創了自適應門控融合機制:對于每一個空間 Token,網絡會動態計算一個權重門控,讓模型在回答 “這是什麼”(依賴語義先驗)和 “它在哪裡”(依賴生成空間先驗)時,自適應地調節兩股特征的比例,實現真正的優勢互補。
評價一個模型是否真正理解真實物理世界,關鍵在于其能否在不同視角下保持幾何結構的一致性。為了揭示這一底層邏輯,我們對特征域進行了深入分析。
實驗表明,多視角一致性得分與下遊 3D 理解任務的歸一化綜合得分(NOS)呈現出極其顯著的正相關。傳統的判別式模型在應對 3D 任務時往往會遇到瓶頸:例如 DINOv3-Large 和 V-JEPA v2 的一致性得分分別為 61.90% 和 72.00%香料應用。即便是專門針對 3D 提取的判別模型 VGGT,其一致性得分也僅達到 77.21%。這說明傳統的降維壓縮過程不可逆地丟失了密集的物理與幾何細節。
相反,以 Wan2.1 為代表的視頻生成大模型展現出了降維打擊般的空間理解力。Wan2.1-VACE 和 Wan2.1-T2V 的多視角一致性得分分別飆升至驚人的 97.04% 和 96.88%。這意味著,為了 “不穿幫” 地生成連貫視頻,DiT 架構被迫在腦海中構建了極其魯棒的 3D 物體結構。當 VEGA-3D 將這股強大的隱式先驗釋放出來時,它為多模態大模型提供了一個堅實的 “空間錨點”,直接驅動了下遊性能的暴漲。
Figure 4 多視角一致性得分與下遊 3D 理解性能呈強正相關,DiT 架構的生成模型完勝傳統判別式模型
依靠這套機制,VEGA-3D 展現出了出色下遊任務統治力,並且這一切提升都不需要任何額外的 3D 標注數據:
空間推理無死角:在專門診斷模型視覺 - 空間技能的 VSI-Bench 上,引入 VEGA-3D 後的 Qwen2.5VL-7B 在相對距離、相對方向和路線規劃等子任務上獲得一致性暴漲。
賦能具身智能 (Embodied AI):更硬核的是,在 LIBERO 機器人仿真操作基準中,將生成先驗注入到 OpenVLA 視覺流後,機器人在復雜物體交互和長視野(Long-horizon)任務上的成功率突破原有瓶頸,平均成功率達到 97.3%。
Figure 5 3D 場景理解中拉斯維加斯遊戲官網, ScanRefer 和 ScanQA 數據集等空間定位與問答任務全面領先
VEGA-3D 不僅僅是一個性能卓越的系統,它更向整個社區傳遞了一個重要的設計思路:大模型 3D 空間推理的下一個突破口,也許不在于繼續堆疊海量且昂貴的 3D 數據多玩龍之谷禮包,而在于如何釋放生成式基礎模型體內早已沉睡的 “物理先驗”。作為一種高擴展性、數據高效的基礎設施,隨著未來視頻生成模型(如 Sora、Wan 等)的進一步進化,VEGA-3D 的上限將被無限拉高。