C'est vraiment cool. Cela m'a amené à réfléchir plus profondément sur le RL personnalisé : quel est le véritable intérêt de personnaliser un modèle dans un monde où les modèles de base peuvent devenir obsolètes si rapidement ? La réalité dans l'IA est que de nouveaux modèles sont lancés toutes les quelques semaines, chacun meilleur que le précédent. Et le rythme ne fait qu'accélérer, comme nous le voyons sur le Hugging Face Hub. Nous ne sommes pas loin de voir des modèles de base meilleurs apparaître quotidiennement. Il y a un manque de recherche en RL ici sur lequel presque personne ne travaille. La plupart des recherches sur la personnalisation des LLM supposent un modèle de base fixe, mais très peu se demandent ce qui arrive à cette personnalisation lorsque vous changez le modèle de base. Pensez à passer de Llama 3 à Llama 4. Toutes les préférences ajustées, les signaux de récompense et les LoRAs sont soudainement liés au modèle d'hier. En tant qu'utilisateur ou équipe, vous ne voulez pas réapprendre à chaque nouveau modèle vos préférences. Mais vous ne voulez pas non plus être bloqué sur un ancien juste parce qu'il vous connaît. Nous pourrions appeler cela "la transférabilité des modèles RL" : comment un trace RL, un signal de récompense ou une représentation de préférence entraînée sur le modèle N peut être distillé, stocké et réappliqué automatiquement au modèle N+1 sans trop d'implication de l'utilisateur ? Nous avons résolu cela dans SFT où un ensemble de données d'entraînement peut être stocké et réutilisé pour entraîner un modèle futur. Nous avons également abordé une version de cela dans les phases RLHF d'une certaine manière, mais il reste flou de manière plus générale lors de l'utilisation du RL déployé dans le monde réel. Il y a quelques fils connexes (RLTR pour les traces de raisonnement transférables, P-RLHF et PREMIUM pour les représentations utilisateur agnostiques au modèle, HCP pour les protocoles de préférence portables) mais la boucle complète semble sous-étudiée à mon avis. Certaines de ces questions concernent le hors politique, mais d'autres concernent les capacités par rapport à la personnalisation : lesquelles des anciennes personnalisations/corrections le nouveau modèle gère-t-il déjà par défaut, et lesquelles sont en fait spécifiques à l'utilisateur/équipe pour être résolues par défaut ? Que vous stockeriez dans une compétence pour l'instant mais que le RL permet d'étendre au-delà du niveau de guidance écrit. J'ai sûrement manqué certains travaux, alors n'hésitez pas à poster tout bon travail que vous avez vu sur ce sujet dans les commentaires.