DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

2026'nın şimdiye 🔥 kadar en sevdiğim makalesi On-Policy Distillation'u (yani Thinking Machines blog yazısını) aldılar, ancak politikanın hem öğretmen hem de öğrenci modeli olabileceğini gösterdiler. Amaç, öğretmeni altın bir yörüngeden koşullandırmak ve ardından aynı modelin koşullu logprobları üzerinde eğitim yapmaktır. Çılgın olan şu ki, öğretmeni her şeye koşullantırabilirsiniz!! Bu, sürekli öğrenme için çok heyecanlandığım bir köprü istri optimizasyonu/ICL + ağırlık optimizasyonu açısından tam bir pandora kutusunu açıyor Yazarlar: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

En İyiler

Sıralama

Takip Listesi