Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mein Lieblingspapier von 2026 bis jetzt 🔥
Sie haben On-Policy Distillation (d.h. den Blogbeitrag von Thinking Machines) übernommen, aber dann gezeigt, dass die Policy sowohl das Lehrer- als auch das Schüler-Modell sein kann.
Die Idee ist, den Lehrer von einer goldenen Trajektorie abhängig zu machen und dann auf den bedingten Logprobs desselben Modells zu trainieren. Der verrückte Teil ist, dass du den Lehrer buchstäblich auf alles konditionieren kannst!!
Das öffnet eine ganze Pandora-Box der Brückenoptimierung von Prompts/ICL + Gewichtoptimierung, auf die ich mich sehr freue für kontinuierliches Lernen.
Autoren: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Top
Ranking
Favoriten
