Isto é realmente fixe. Fiquei a pensar mais profundamente sobre RL personalizado: qual é realmente o objetivo de personalizar um modelo num mundo onde os modelos base podem tornar-se obsoletos tão rapidamente? A realidade na IA é que novos modelos são lançados a cada poucas semanas, cada um melhor que o anterior. E o ritmo está apenas a acelerar, como vemos no Hugging Face Hub. Não estamos longe de modelos base melhores a serem lançados diariamente. Há uma lacuna de pesquisa em RL aqui que quase ninguém está a trabalhar. A maioria das pesquisas sobre personalização de LLM assume um modelo base fixo, mas muito poucos perguntam o que acontece a essa personalização quando se troca o modelo base. Pense em passar do Llama 3 para o Llama 4. Todas as preferências ajustadas, sinais de recompensa e LoRAs estão de repente ligadas ao modelo de ontem. Como utilizador ou equipa, não queres ter de ensinar cada novo modelo as tuas preferências. Mas também não queres ficar preso a um modelo mais antigo só porque ele te conhece. Poderíamos chamar a isto "transferibilidade de modelo RL": como pode um traço de RL, um sinal de recompensa ou uma representação de preferência treinada no modelo N ser destilada, armazenada e reaplicada automaticamente ao modelo N+1 sem muita intervenção do utilizador? Resolvemos isso no SFT onde um conjunto de dados de treino pode ser armazenado e reutilizado para treinar um modelo futuro. Também abordámos uma versão disso nas fases de RLHF de alguma forma, mas continua a ser pouco claro de forma mais geral ao usar RL implementado no mundo real. Existem alguns tópicos relacionados (RLTR para traços de raciocínio transferíveis, P-RLHF e PREMIUM para representações de utilizador agnósticas ao modelo, HCP para protocolos de preferência portáteis) mas o ciclo completo parece-me subestudado. Algumas destas questões são sobre off-policy, mas outras são sobre capacidades versus personalização: quais das antigas personalizações/correções o novo modelo já lida de forma nativa, e quais são realmente específicas do utilizador/equipa para serem resolvidas por padrão? Que armazenarias numa habilidade por agora, mas que o RL permite estender além do nível de orientação escrita. Certamente perdi algum trabalho, por isso, por favor, publiquem qualquer bom trabalho que tenham visto sobre este tópico nos comentários.