Моя любимая работа 2026 года на данный момент 🔥 Они взяли On-Policy Distillation (то есть пост в блоге Thinking Machines), но затем показали, что политика может быть как моделью учителя, так и моделью студента. Идея заключается в том, чтобы условить учителя на основе золотой траектории, а затем обучаться на условных логарифмических вероятностях той же модели. Сумасшедшая часть в том, что вы можете буквально условить учителя на чем угодно!! Это открывает целую коробку Пандоры для оптимизации подсказок/ICL + оптимизации весов, что меня очень радует в контексте непрерывного обучения. Авторы: @IdanShenfeld @MehulDamani2 Jonas Hübotter @pulkitology