Korelasyonlar Süperpozisyonun Geometrisini Nasıl Şekillendiriyor: Bag-of-Words Süperpozisyonu ve Yapıcı Girişim

Giriş

Derin öğrenme modellerinin iç işleyişini anlama çabası olan mekanistik yorumlanabilirlik (mechanistic interpretability) alanında, süperpozisyon (superposition) kavramı son yıllarda merkezi bir rol üstlenmiş durumda. Temel fikir, sinir ağlarının sahip oldukları boyuttan (dimension) daha fazla özelliği (feature) temsil edebilmek için bu özellikleri bir arada kodlamasıdır. Bu, aşırı tam bir temel (overcomplete basis) oluşturarak, boyut darboğazlarında (bottleneck) verimli temsiller elde etmeyi mümkün kılar. Ancak bu verimlilik, özellikler arası girişim (interference) pahasına gelir.

Geleneksel olarak, süperpozisyon idealize edilmiş senaryolarda incelenmiştir: özellikler seyrek (sparse), birbirleriyle korelasyonsuz ve nadiren birlikte aktive olan yapılardır. Bu bağlamda, süperpozisyon geometrik olarak girişimin minimize edildiği, ReLU gibi doğrusal olmayan aktivasyonların (non-linearities) zararlı gürültüyü filtrelediği bir düzen olarak anlaşılır. Özellikler genellikle düzenli çok yüzlüler (regular polytopes) şeklinde yerleştirilir, böylece çift yönlü iç çarpımlar (dot products) küçük tutularak negatif girişim baskılanır.

Ancak Imperial College London araştırmacıları Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal ve Pedro A.M. Mediano tarafından ICLR 2026'da sunulan "From Data Statistics to Feature Geometry: How Correlations Shape Superposition" başlıklı çalışma, bu geleneksel anlayışın gerçekçi veri dağılımlarında yetersiz kaldığını gösteriyor. Makale, korelasyonlu özellikler durumunda girişimin yalnızca baskılanması gereken bir gürültü değil, yapıcı bir rol üstlenebileceğini ortaya koyuyor. Bu yeni perspektif, büyük dil modellerinde (large language models) gözlemlenen ancak daha önce açıklanamayan döngüsel yapıların (cyclical structures) ve anizotropik kümelerin (anisotropic clusters) kökenini aydınlatıyor.

Ana Analiz: Bag-of-Words Süperpozisyonu ve Yeni Geometri

BOWS Çerçevesi ve Kontrollü Realizm

Araştırmacılar, Bag-of-Words Superposition (BOWS) adını verdikleri yeni bir çerçeve tanıtıyorlar. Bu çerçeve, internet metinlerinin ikili bag-of-words temsillerini (binary representations) süperpozisyonda kodlayan bir otoenkoder (autoencoder) mimarisi üzerine kurulu. BOWS'un kritik katkısı, gerçekçi korelasyon yapılarını korurken bilinen temel doğrulara (ground-truth) erişim imkanı sunması. Gelenekse toy model'lerden farklı olarak, bu yaklaşımda kelimelerin doğal eş oluşum (co-activation) istatistikleri korunur.

BOWS mimarisinde, boyutu d olan ikili bir bag-of-words vektörü, m boyutlu bir gizli temsile (latent representation) kodlanır (burada m < d). Bu kodlama sıkıştırma (compression) gerektirir ve süperpozisyonun ortaya çıkmasına zorlar. Araştırmacılar, bu kontrollü ortamda farklı koşulları sistematik olarak test edebilmişlerdir.

Yapıcı Girişim ve Lineer Süperpozisyon

Çalışmanın en temel bulgusu, korelasyonlu özellikler durumunda girişimin yapıcı (constructive) olabileceğidir. Geleneksel görüşte, özellik A ve özellik B aynı anda aktive olduğunda, bunların temsil vektörleri arasındaki iç çarpım zararlı bir çakışma (overlap) oluşturur ve ReLU aktivasyonu bu durumu sıfırlayarak filtrelemek zorundadır. Ancak BOWS deneyleri gösteriyor ki, eğer özellikler istatistiksel olarak ilişkiliyse (örneğin "Aralık" ve "Noel" kelimeleri gibi), bu girişim aslında sinyali güçlendirebilir.

Bu fenomen, araştırmacıların lineer süperpozisyon (linear superposition) olarak adlandırdıkları yeni bir rejimle formalize ediliyor. Lineer süperpozisyonda, özellikler doğrusal bir dekoder (linear decoder) kullanılarak yüksek doğrulukla (R² ≥ 1-ε) kurtarılabilir. Bu, doğrusal olmayan filtrelemeye (non-linear filtering) olan ihtiyacı ortadan kaldırmaz, ancak korelasyon yapısının geometriyi belirlediği bir düzene işaret eder. Özellikler, ko-aktivasyon kalıplarına göre düzenlenir; birlikte sık görülen kavramlar temsil uzayında birbirlerine yakın konumlanır.

Döngüsel Yapılar ve Semantik Kümeler

Bu yeni geometrik anlayış, gerçek dil modellerinde gözlemlenen ancak geleneksel süperpozisyon teorisiyle açıklanamayan yapıları hesaba katmayı mümkün kılar. Örneğin, yılın ayları ("Ocak", "Şubat", vb.) gibi kavramlar genellikle bir dairesel yapı (circular manifold) içinde organize olmuştur. BOWS çerçevesinde, bu tür döngüsel yapıların mevsimsel kelimelerle olan korelasyonlardan kaynaklandığı görülüyor. "Aralık" kelimesi "Noel" ve "kış" gibi kavramlarla yapıcı girişim kurarak, bu kümelerin geometrik olarak birbirine yakın yerleşmesini sağlıyor.

Benzer şekilde, anizotropik süperpozisyon (anisotropic superposition) olarak bilinen, ilgili özelliklerin kümelendiği (clustering) ancak farklı kümeler arasında minimum iç çarpımın sağlanmadığı yapılar da açıklanabilir hale geliyor. Bu düzen, seyrek otoenkoderlerin (sparse autoencoders veya SAE'ler) eğitiminde ve özellik öğreniminde önemli sonuçlar doğuruyor.

Ağırlık Çürümesi ve Kodlama Türleri

Çalışma, bu geometrik düzenlerin ortaya çıkışını şekillendiren teknik faktörleri de inceliyor. Özellikle weight decay (ağırlık çürümesi) olarak bilinen düzenlileştirme (regularization) tekniğinin, yapıcı girişim rejimini güçlendirdiği gözlemleniyor. Darboğazların (tight bottlenecks) sıkıştırma zorunluluğuyla birleşen ağırlık çürümesi, modelin veri istatistiklerini geometride daha verimli kodlamasını teşvik ediyor.

Makale ayrıca, varlık kodlaması (presence-coding) ve değer kodlaması (value-coding) özellikler arasında ayrım yapıyor. Bu ayrım, korelasyon yapısı olmadan da yapılandırılmış temsillerin var olabileceğini, ancak korelasyonların bu yapıları anlamlı semantik kümeler haline getirdiğini gösteriyor. Varlık kodlaması, bir özelliğin aktif olup olmadığını ikili olarak belirtirken, değer kodlaması özelliğin yoğunluğunu veya derecesini taşır. BOWS deneyleri, bu iki kodlama türünün süperpozisyon geometrisi üzerinde farklı etkiler yarattığını ortaya koyuyor.

Kendi Yorumum ve Özgün Çıkarımlar

Bu çalışma, mekanistik yorumlanabilirlik alanında paradigmatik bir kaymayı temsil ediyor. Daha önce süperpozisyonu anlamaya çalışırken geometrik optimizasyona odaklanıyorduk: özelliklerin birbirine ne kadar dik (orthogonal) olduğu, iç çarpımların nasıl minimize edildiği gibi. Ancak Prieto ve meslektaşlarının analizi, geometrinin aslında veri istatistiklerinin bir yansıması olduğunu, özellikle de özelliklerin eş oluşum matrisinin (co-activation patterns) temsil uzayının metriğini belirlediğini gösteriyor.

Bu bulgunun seyrek otoenkoderler (SAE'ler) için önemli pratik sonuçları var. Günümüzde SAE'ler, transformer modellerinin iç temsillerini yorumlanabilir özelliklere ayırmak için yaygın olarak kullanılıyor. Ancak bu çalışma, SAE'lerin eğitiminde kullanılan kayıp fonksiyonlarının (loss functions) ve düzenlileştirme stratejilerinin, verinin doğal korelasyon yapısıyla uyumlu olup olmadığını sorgulamamız gerektiğini ima ediyor. Eğer model içindeki süperpozisyon doğrusal (linear) bir rejimde çalışıyorsa, basitçe L2 cezaları (penalties) veya sparsity kısıtlamaları, yapıcı girişimi engelleyerek yanlış özellik ayırımına yol açabilir.

Ayrıca, bu bulgu bilgi düzenleme (knowledge editing) ve adversarial robustness çalışmaları için yeni perspektifler sunuyor. Eğer kavramlar geometrik olarak korelasyon yapılarına göre kümeleniyorsa, belirli bir kavramı düzenlemek (edit etmek), onunla yapıcı girişimde bulunan tüm komşu kavramları da etkileyecektir. Bu, "Aralık" kavramını değiştirmeye çalışırken "Noel" ve "kış" kavramlarının da istemeden değişebileceği anlamına gelir. Bu etki, model müdahaleleri (interventions) tasarlarken dikkate alınması