Esto es realmente genial. Me hizo pensar más profundamente sobre el RL personalizado: ¿cuál es el verdadero objetivo de personalizar un modelo en un mundo donde los modelos base pueden volverse obsoletos tan rápidamente? La realidad en la IA es que nuevos modelos se lanzan cada pocas semanas, cada uno mejor que el anterior. Y el ritmo solo está acelerando, como vemos en el Hugging Face Hub. No estamos lejos de que mejores modelos base se lancen a diario. Hay una brecha de investigación en RL aquí en la que casi nadie está trabajando. La mayoría de la investigación sobre la personalización de LLM asume un modelo base fijo, pero muy pocos preguntan qué sucede con esa personalización cuando cambias el modelo base. Piensa en pasar de Llama 3 a Llama 4. Todas las preferencias ajustadas, señales de recompensa y LoRAs están de repente atadas al modelo de ayer. Como usuario o equipo, no quieres volver a enseñar cada nuevo modelo tus preferencias. Pero tampoco quieres quedarte atascado en uno más antiguo solo porque te conoce. Podríamos llamar a esto "transferibilidad del modelo RL": ¿cómo puede un rastro de RL, una señal de recompensa o una representación de preferencias entrenada en el modelo N ser destilada, almacenada y reaplicada automáticamente al modelo N+1 sin demasiada intervención del usuario? Lo resolvimos en SFT donde un conjunto de datos de entrenamiento puede ser almacenado y reutilizado para entrenar un modelo futuro. También abordamos una versión de eso en las fases de RLHF de alguna manera, pero sigue siendo poco claro en términos generales cuando se utiliza RL desplegado en el mundo real. Hay algunos hilos relacionados (RLTR para trazas de razonamiento transferibles, P-RLHF y PREMIUM para representaciones de usuario agnósticas al modelo, HCP para protocolos de preferencias portátiles) pero el ciclo completo parece estar poco estudiado para mí. Algunas de estas preguntas son sobre off-policy, pero otras son sobre capacidades versus personalización: ¿cuáles de las antiguas personalizaciones/arreglos maneja ya el nuevo modelo de forma predeterminada, y cuáles son realmente específicas del usuario/equipo que deben ser resueltas por defecto? Eso que almacenarías en una habilidad por ahora, pero que RL permite extender más allá del nivel de orientación escrita. Seguramente he pasado por alto algún trabajo, así que por favor publica cualquier buen trabajo que hayas visto sobre este tema en los comentarios.