Video Difüzyon Modellerinin Gizli 3D Bilgisi: VEGA-3D ile Mekansal Öncülleri Açığa Çıkarmak

Giriş: Mekansal Körlük ve Yeni Bir Paradigma

Multimodal Large Language Models (MLLM'ler) son yıllarda görsel anlama yeteneklerinde kayda değer ilerlemeler kaydetti. Ancak bu modeller halen spatial blindness (mekansal körlük) sorunuyla mücadele ediyor. İnce geometrik muhakeme, fiziksel dinamiklerin anlaşılması ve üç boyutlu sahne içerisinde hassas konumlandırma görevlerinde performansları sınırlı kalıyor. Geleneksel yaklaşımlar bu açığı kapatmak için iki ana yöntem öneriyor: Birincisi, point cloud veya derinlik haritaları gibi explicit (açık) 3D modaliteleri doğrudan modele beslemek; ikincisi ise 2D görsel özellikleri 3D uzaya çıkarmak için karmaşık geometrik iskeleleme (geometric scaffolding) veya ek reconstruction modülleri kullanmak.

Her iki yaklaşımın da temel sınırlılıkları var. Açık 3D verileriyle çalışan sistemler, sınırlı ve pahalı 3D veri setlerine bağımlı kalıyor. Geometrik iskeleleme yöntemleri ise karmaşık pipeline'lar gerektiriyor ve genelleme zorlukları yaşıyor. İşte tam bu noktada "Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding" başlıklı çalışma, video üretim modellerinin (video generation models) içselleştirdiği implicit (örtük) mekansal öncülleri kullanarak yeni bir paradigma öneriyor.

Bu çalışmanın temel tezi şu: Zamansal olarak tutarlı (temporally coherent) videolar sentezlemek için eğitilen büyük ölçekli video difüzyon modelleri, 3D yapısal öncülleri ve fizik yasalarını örtük olarak öğrenmek zorunda kalır. Oklüzyon (bir nesnenin diğerinin arkasında kalması), kamera hareketine bağlı görünen hareket (apparent motion) ve fiziksel etkileşimlerin tutarlılığı gibi kısıtlamalar, bu modellerin latent temsillerinde (latent representations) geometrik tutarlılık ve derinlik bilgisi kodlamasına yol açar. VEGA-3D (Video Extracted Generative Awareness) framework'ü tam olarak bu potansiyeli açığa çıkarıyor.

Video Üretim Modelleri Neden 3D Bilir?

Video üretim modelleri sadece piksel düzeyinde görsel üretim yapmakla kalmaz; aynı zamanda birer Latent World Simulator (Gizli Dünya Simülatörü) olarak işlev görür. Bu modellerin (örneğin Wan2.1 veya Vmem) nasıl olup da 3D geometriye dair içsel bir anlayış geliştirdiğini anlamak için difüzyon sürecinin doğasına bakmak gerekir.

Bir video difüzyon modeli, farklı kamera açılarından tutarlı sahneler üretebilmek için nesnelerin 3D yapısını koruyan dahili temsillere sahip olmalıdır. Çalışmada sunulan multi-view consistency analizleri, bu modellerin farklı görüş açılarında yüksek korespondans skorları ve stabil PCA özellik görselleştirmeleri sergilediğini gösteriyor. Yani model, bir nesnenin ön yüzünü ve yan yüzünü ayrı ayrı üretebilmek için o nesnenin 3D geometrisini implicit olarak kodlamış durumda.

Burada önemli bir teknik detay var: Bu geometrik bilgi, modelin son çıktı katmanlarında değil, intermediate noise levels (ara gürültü seviyeleri) ve mid-denoising time adı verilen süreçteki ara temsillerde en yoğun şekilde bulunuyor. Son piksellerde bu bilgi yumuşatılmış (diffused) olabilirken, denoising sürecinin orta aşamalarında model hala yapısal kararlar vermekte ve 3D tutarlılığı korumaktadır. İşte VEGA-3D, bu ara seviyelerden spatiotemporal (uzamsal-zamansal) özellikleri çıkararak MLLM'lere besliyor.

VEGA-3D Mimarisi ve Özellik Füzyonu

VEGA-3D'nin mimarisi iki temel bileşen üzerine kurulu: Semantic encoder (genellikle CLIP benzeri kontrastif ön eğitimli görsel kodlayıcılar) ve Generative encoder (video difüzyon modelinin ara katmanlarından çıkarılan özellikler). Bu iki özellik uzayı arasında önemli bir distribution shift (dağılım kayması) bulunuyor. Semantic uzay, ayrımcı (discriminative) ve kategorik bilgilere odaklanırken, generative uzay geometrik ve fiziksel yapıyı kodluyor.

Bu sorunu çözmek için çalışmada token-level adaptive gated fusion mekanizması öneriliyor. Bu mekanizma, her token (görsel parça) için generative ve semantic özelliklerin nasıl harmanlanacağına dinamik olarak karar veriyor. Adaptif kapı (adaptive gate) sayesinde model, geometrik muhakeme gerektiren görevlerde generative öncülleri ağırlıklı kullanırken, semantik kategorizasyon gerektiren durumlarda semantic özellikleri koruyabiliyor.

Bu yaklaşımın en önemli avantajlarından biri plug-and-play yapıda olması. Mevcut MLLM'lere ek modüller veya karmaşık 3D reconstruction pipeline'ları eklemeden, sadece generative özellikleri entegre ederek performans artışı sağlanabiliyor. Bu da yöntemi pratik ve ölçeklenebilir kılıyor.

Deneysel Bulgular ve Performans Analizi

Çalışma, VEGA-3D'nin performansını 3D sahne anlayışı, mekansal muhakeme ve embodied manipulation (gövdeleşmiş manipülasyon) benchmark'larında kapsamlı şekilde test ediyor. Sonuçlar dikkat çekici: ScanRefer veri setinde Acc@0.25 metriğinde %63.2 başarı oranına ulaşılıyor. Bu, explicit 3D geometrik supervision olmadan elde edilen bir performans. Benzer şekilde Multi3DRefer (F1@0.25), Scan2Cap (BLEU-4@0.5), ScanQA (CIDER) ve SQA3D (EM) gibi farklı görevlerde de state-of-the-art modellere kıyasla üstün sonuçlar rapor ediliyor.

Özellikle ilginç olan bulgu, semantic ve generative özelliklerin komplementer (tamamlayıcı) doğası. Ablasyon çalışmaları gösteriyor ki bu iki özellik türü birbirinin yerini almak yerine sinerji oluşturuyor. Generative öncüller, baseline modellerinde dağınık (scattered) olan attention haritalarını keskinleştirerek hassas lokalizasyon sağlıyor. Figür 2'de görüldüğü üzere, mutfak masasının yanındaki nesneyi sorgulayan bir örnekte, VEGA-3D hedef nesneye odaklanmış bir attention haritası üretirken, temel model daha belirsiz bir dağılım gösteriyor.

Ayrıca LIBERO gibi robotik