Dette er skikkelig kult. Det fikk meg til å tenke dypere på personlig RL: hva er egentlig poenget med å personalisere en modell i en verden der basismodeller kan bli utdaterte så raskt? Realiteten i AI er at nye modeller sendes ut hver tredje uke, hver bedre enn den forrige. Og tempoet øker bare, som vi ser på Hugging Face Hub. Vi er ikke langt unna at bedre basismodeller slippes daglig. Det er et forskningsgap i virkeligheten her som nesten ingen jobber med. De fleste LLM-personaliseringsforskninger antar en fast basismodell, men svært få spør hva som skjer med den personaliseringen når du bytter grunnmodellen. Tenk på å gå fra Llama 3 til Llama 4. Alle de justerte preferansene, belønningssignalene og LoRA-ene er plutselig knyttet til gårsdagens modell. Som bruker eller team ønsker du ikke å lære opp dine preferanser på nytt hver nye modell. Men du vil heller ikke sitte fast på en eldre bare fordi den kjenner deg. Vi kan kalle dette «RL-modelloverføring»: hvordan kan et RL-spor, et belønningssignal eller en preferanserepresentasjon trent på modell N destilleres, lagres og automatisk påføres på nytt på modell N+1 uten for mye brukerinvolvering? Vi løste det i SFT, hvor et treningsdatasett kan lagres og gjenbrukes for å trene en fremtidig modell. Vi tok også tak i en versjon av dette i RLHF-fasene på en eller annen måte, men det er mer generelt uklart når man bruker RL i bruk i den virkelige verden. Det finnes noen relaterte tråder (RLTR for overførbare resonnementsspor, P-RLHF og PREMIUM for modelluavhengige brukerrepresentasjoner, HCP for portable preferanseprotokoller), men hele loopen virker lite utforsket for meg. Noen av disse spørsmålene handler om off-policy, men andre handler om kapabiliteter versus personalisering: Hvilke av de gamle tilpasningene/fiksene håndterer den nye modellen allerede rett ut av boksen, og hvilke er faktisk bruker-/teamspesifikke og kan løses som standard? Som du ville lagret i en ferdighet foreløpig, men som RL lar utover det skriftlige veiledningsnivået. Jeg har definitivt gått glipp av noe arbeid, så vennligst legg ut alt godt arbeid du har sett om dette temaet i kommentarfeltet.