Tämä on todella siistiä. Se sai minut pohtimaan syvällisemmin personoitua RL:ää: mikä on mallin personoinnin todellinen tarkoitus maailmassa, jossa perusmallit voivat vanhentua niin nopeasti? Tekoälyn todellisuus on, että uusia malleja lähetetään muutaman viikon välein, jokainen parempi kuin edellinen. Ja tahti vain kiihtyy, kuten näemme Hugging Face Hubissa. Emme ole kaukana paremmista perusmalleista, jotka ilmestyvät päivittäin. Tässä on tutkimusaukko RL:ssä, jota lähes kukaan ei käsittele. Suurin osa LLM:n personointitutkimuksesta perustuu kiinteään perusmalliin, mutta hyvin harva kysyy, mitä tälle personointille tapahtuu, kun vaihdat perusmallia. Ajattele siirtymistä Llama 3:sta Llama 4:ään. Kaikki viritetyt mieltymykset, palkintosignaalit ja LoRA:t ovat yhtäkkiä sidoksissa eiliseen malliin. Käyttäjänä tai tiiminä et halua opettaa jokaista uutta mallia uudelleen omia mieltymyksiäsi. Mutta et myöskään halua jäädä kiinni vanhempaan vain siksi, että se tuntee sinut. Tätä voisi kutsua "RL-mallin siirrettävyydeksi": miten RL-jäljitys, palkintosignaali tai mallilla N koulutettu preferenssiesitys voidaan tislata, tallentaa ja automaattisesti soveltaa malliin N+1 ilman liiallista käyttäjän osallistumista? Ratkaisimme tämän SFT:ssä, jossa koulutusaineisto voidaan tallentaa ja käyttää uudelleen tulevan mallin kouluttamiseen. Olemme myös jotenkin tarttuneet siihen versioon RLHF-vaiheissa, mutta yleisemmin se on epäselvää, kun käytetään RL:ää oikeassa maailmassa. On olemassa joitakin siihen liittyviä säikeitä (RLTR siirrettäville päättelyjäljille, P-RLHF ja PREMIUM malliriippumattomille käyttäjärepresentaatioille, HCP kannettaville mieltymysprotokollille), mutta koko silmukka vaikuttaa minusta alitutkitulta. Osa näistä kysymyksistä koskee politiikan ulkopuolista, mutta toiset liittyvät ominaisuuksiin verrattuna personointiin: mitkä vanhoista muokkauksista/korjauksista uusi malli hoitaa jo valmiina, ja mitkä ovat oikeasti käyttäjä- tai tiimikohtaisia, jotta ne olisi koskaan ratkaistu oletuksena? Se tallennetaan taitoon toistaiseksi, mutta se RL sallii ulottua kirjallisen ohjeistuksen tasoa pidemmälle. Olen varmasti jäänyt paitsi töistä, joten laita kommentteihin kaikki hyvät työt, joita olet nähnyt tästä aiheesta.