Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Это действительно круто.
Это заставило меня глубже задуматься о персонализированном RL: в чем реальная цель персонализации модели в мире, где базовые модели могут быстро устаревать?
Реальность в AI такова, что новые модели выходят каждые несколько недель, каждая лучше предыдущей. И темп только ускоряется, как мы видим на Hugging Face Hub. Мы недалеко от того, чтобы лучшие базовые модели выходили ежедневно.
Здесь есть исследовательский пробел в RL, над которым почти никто не работает. Большинство исследований по персонализации LLM предполагает фиксированную базовую модель, но очень немногие задаются вопросом, что происходит с этой персонализацией, когда вы меняете базовую модель. Подумайте о переходе с Llama 3 на Llama 4. Все настроенные предпочтения, сигналы вознаграждения и LoRAs внезапно привязаны к модели вчерашнего дня.
Как пользователь или команда, вы не хотите заново обучать каждую новую модель вашим предпочтениям. Но вы также не хотите застрять на старой модели только потому, что она вас знает.
Мы могли бы назвать это "переносимостью модели RL": как можно дистиллировать, хранить и автоматически повторно применять трассу RL, сигнал вознаграждения или представление предпочтений, обученное на модели N, к модели N+1 без слишком большого участия пользователя? Мы решили эту задачу в SFT, где обучающий набор данных может быть сохранен и повторно использован для обучения будущей модели. Мы также каким-то образом решили версию этого в фазах RLHF, но в целом остается неясным, когда используется RL, развернутый в реальном мире.
Существуют некоторые связанные темы (RLTR для переносимых трасс рассуждений, P-RLHF и PREMIUM для модели-агностичных пользовательских представлений, HCP для переносимых протоколов предпочтений), но полный цикл, по-моему, недостаточно изучен.
Некоторые из этих вопросов касаются off-policy, но другие касаются возможностей против персонализации: какие из старых настроек/исправлений новая модель уже обрабатывает из коробки, а какие на самом деле специфичны для пользователя/команды и должны быть решены по умолчанию? То, что вы бы сохранили в навыке на данный момент, но что RL позволяет расширить за пределы уровня письменных рекомендаций.
Я, безусловно, пропустил какую-то работу, так что, пожалуйста, оставьте в комментариях любые хорошие работы, которые вы видели на эту тему.
Топ
Рейтинг
Избранное
