Isso é muito legal. Isso me fez pensar mais profundamente sobre o RL personalizado: qual é o verdadeiro sentido de personalizar um modelo em um mundo onde os modelos base podem se tornar obsoletos tão rapidamente? A realidade na IA é que novos modelos são lançados a cada poucas semanas, cada um melhor que o anterior. E o ritmo só está acelerando, como vemos no Hugging Face Hub. Não estamos longe de modelos base melhores serem lançados diariamente. Há uma lacuna de pesquisa no RL aqui que quase ninguém está trabalhando. A maioria das pesquisas de personalização em LLMs assume um modelo base fixo, mas pouquíssimos perguntam o que acontece com essa personalização quando você troca o modelo base. Pense em passar de Llama 3 para Llama 4. Todas as preferências ajustadas, sinais de recompensa e LoRAs de repente estão ligados ao modelo de ontem. Como usuário ou equipe, você não quer reensinar cada novo modelo suas preferências. Mas você também não quer ficar preso em um mais antigo só porque ele te conhece. Poderíamos chamar isso de "transferibilidade do modelo RL": como um rastreamento RL, um sinal de recompensa ou uma representação de preferência treinada no modelo N pode ser destilado, armazenado e automaticamente reaplicado ao modelo N+1 sem envolvimento excessivo do usuário? Resolvemos isso no SFT, onde um conjunto de dados de treinamento pode ser armazenado e reutilizado para treinar um modelo futuro. Também abordamos uma versão disso em fases de RLHF de alguma forma, mas isso continua sendo incerto de forma geral ao usar RL implantado no mundo real. Existem alguns threads relacionados (RLTR para traços de raciocínio transferível, P-RLHF e PREMIUM para representações de usuário independentes do modelo, HCP para protocolos de preferência portáteis), mas o loop completo me parece pouco estudado. Algumas dessas perguntas são sobre off-policy, mas outras são sobre capacidades versus personalização: quais das customizações/correções antigas o novo modelo já faz logo de cara, e quais são realmente específicas de usuário/equipe para serem resolvidas por padrão? Que você armazenaria uma habilidade por enquanto, mas que o RL permitisse ir além do nível de orientação escrita. Com certeza perdi algum trabalho, então por favor, postem qualquer trabalho bom que vocês viram sobre esse tema nos comentários.