2026'nın şimdiye 🔥 kadar en sevdiğim makalesi On-Policy Distillation'u (yani Thinking Machines blog yazısını) aldılar, ancak politikanın hem öğretmen hem de öğrenci modeli olabileceğini gösterdiler. Amaç, öğretmeni altın bir yörüngeden koşullandırmak ve ardından aynı modelin koşullu logprobları üzerinde eğitim yapmaktır. Çılgın olan şu ki, öğretmeni her şeye koşullantırabilirsiniz!! Bu, sürekli öğrenme için çok heyecanlandığım bir köprü istri optimizasyonu/ICL + ağırlık optimizasyonu açısından tam bir pandora kutusunu açıyor Yazarlar: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology