Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Моя любимая работа 2026 года на данный момент 🔥
Они взяли On-Policy Distillation (то есть пост в блоге Thinking Machines), но затем показали, что политика может быть как моделью учителя, так и моделью студента.
Идея заключается в том, чтобы условить учителя на основе золотой траектории, а затем обучаться на условных логарифмических вероятностях той же модели. Сумасшедшая часть в том, что вы можете буквально условить учителя на чем угодно!!
Это открывает целую коробку Пандоры для оптимизации подсказок/ICL + оптимизации весов, что меня очень радует в контексте непрерывного обучения.
Авторы: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology

Топ
Рейтинг
Избранное
