Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esto es realmente genial.
Esto me hizo reflexionar más profundamente sobre la vida real personalizada: ¿cuál es el verdadero sentido de personalizar un modelo en un mundo donde los modelos base pueden quedar obsoletos tan rápido?
La realidad en la IA es que se publican nuevos modelos cada pocas semanas, cada uno mejor que el anterior. Y el ritmo solo se acelera, como vemos en el Hugging Face Hub. No estamos lejos de que mejores modelos base salgan cada día.
Aquí hay una laguna en la investigación real que casi nadie está trabajando. La mayoría de la investigación sobre personalización de LLM asume un modelo base fijo, pero muy pocos preguntan qué ocurre con esa personalización cuando cambias el modelo base. Piensa en pasar de Llama 3 a Llama 4. Todas las preferencias ajustadas, señales de recompensa y LoRAs están de repente ligados al modelo de ayer.
Como usuario o equipo, no quieres volver a enseñar a cada nuevo modelo tus preferencias. Pero tampoco quieres quedarte atascado en uno más antiguo solo porque te conozca.
Podríamos llamar a esto "transferibilidad del modelo RL": ¿cómo puede un rastreo RL, una señal de recompensa o una representación de preferencias entrenada en el modelo N ser destilado, almacenado y reaplicado automáticamente al modelo N+1 sin demasiada implicación del usuario? Lo resolvimos en SFT, donde se puede almacenar y reutilizar un conjunto de datos de entrenamiento para entrenar un modelo futuro. También abordamos una versión de eso en fases RLHF de alguna manera, pero sigue siendo poco claro en general cuando se usa RL desplegado en el mundo real.
Hay algunos hilos relacionados (RLTR para trazas de razonamiento transferible, P-RLHF y PREMIUM para representaciones de usuario independientes del modelo, HCP para protocolos de preferencia portátiles), pero el bucle completo me parece poco estudiado.
Algunas de estas preguntas son sobre la política fuera de la política, pero otras son sobre capacidades frente a personalización: ¿cuáles de las antiguas personalizaciones/soluciones ya gestiona el nuevo modelo de fábrica, y cuáles son realmente específicas de cada usuario/equipo para que se resuelvan por defecto? Que por ahora guardarías una habilidad pero que RL permita ir más allá del nivel de guía escrita.
Seguro que me he saltado algún trabajo, así que por favor publicad cualquier buen trabajo que hayáis visto sobre este tema en los comentarios.
Populares
Ranking
Favoritas
