Sürekli Pekiştirmeli Öğrenmede Modüle Edici Maskeler: Durağan Temsiller ve Bileşik Görevlerin Geometrisi

Yaşam boyu öğrenme (lifelong learning), biyolojik öğrenmeye benzer şekilde yapay zeka sistemlerinin sürekli ve artımlı olarak bilgi edinmesini hedefler. Geleneksel derin öğrenme modelleri, yeni görevler üzerinde eğitildiğinde önceki bilgilerini kaybetme eğilimindedir; bu fenomene katastrofik unutma (catastrophic forgetting) adı verilir. Sürekli pekiştirmeli öğrenme (Lifelong Reinforcement Learning, LRL) bağlamında bu sorun daha da karmaşıktır. Sınıflandırma problemlerinde yalnızca girdi dağılımı değişirken, RL ortamlarında durum dağılımları (state distributions), geçiş dinamikleri ve ödül fonksiyonları (reward functions) görevden göreve farklılık gösterir. "Lifelong Reinforcement Learning with Modulating Masks" başlıklı çalışma, bu zorlu bağlamda sabit bir omurga (backbone) ağ üzerinde öğrenilen ayarlanabilir maskeler (modulating masks) yaklaşımını sunar. Yazarlar, bu yöntemi PPO (Proximal Policy Optimization) ve IMPALA (Importance Weighted Actor-Learner Architectures) ajanlarına uyarlayarak hem ayrık (discrete) hem de sürekli (continuous) eylem uzaylarında test etmişlerdir.

Maskelerin Mekanizması ve Bilgi Aktarımı

Modüle edici maskeler yaklaşımında, önceden eğitilmiş veya rastgele başlatılmış sabit bir ana ağ (backbone) dondurulur (frozen). Her yeni görev için, bu ağın ağırlıklarına veya aktivasyonlarına uygulanan ikili (binary