E foarte tare. M-a făcut să mă gândesc mai profund la RL personalizat: care este cu adevărat rostul personalizării unui model într-o lume în care modelele de bază pot deveni atât de repede învechite? Realitatea în AI este că modelele noi apar la fiecare câteva săptămâni, fiecare mai bun decât precedentul. Și ritmul este tot mai rapid, așa cum vedem pe hub-ul Hugging Face. Nu mai suntem departe de apariția zilnică a modelelor de bază mai bune. Există o lacună de cercetare în RL aici la care aproape nimeni nu lucrează. Majoritatea cercetărilor despre personalizarea LLM-urilor presupun un model de bază fix, dar foarte puțini întreabă ce se întâmplă cu acea personalizare când schimbi modelul de bază. Gândește-te să treci de la Llama 3 la Llama 4. Toate preferințele reglate, semnalele de recompensă și LoRA-urile sunt brusc legate de modelul de ieri. Ca utilizator sau echipă, nu vrei să reînveți fiecare model nou preferințele tale. Dar nici nu vrei să rămâi blocat pe unul mai vechi doar pentru că te cunoaște. Am putea numi asta "transferabilitate a modelului RL": cum poate fi distilată, stocată și reaplicată automat pe modelul N+1 o urmărire RL, un semnal de recompensă sau o reprezentare a preferințelor antrenate pe modelul N+1? Am rezolvat asta în SFT, unde un set de date de antrenament poate fi stocat și reutilizat pentru a antrena un model viitor. Am abordat și o versiune a acesteia în fazele RLHF, cumva, dar rămâne neclar în general când folosim RL desfășurat în lumea reală. Există unele fire conexe (RLTR pentru raționamentul transferabil, P-RLHF și PREMIUM pentru reprezentări de utilizator independente de model, HCP pentru protocoale portabile de preferință), dar bucla completă mi se pare puțin studiată. Unele dintre aceste întrebări sunt despre off-policy, dar altele sunt despre capabilități versus personalizare: care dintre vechile personalizări/remedieri gestionează noul model deja din start și care sunt de fapt specifice utilizatorului/echipei pentru a fi rezolvate implicit? Pe care ai stoca o abilitate deocamdată, dar că RL permite să depășească nivelul scris de ghidare. Cu siguranță am ratat ceva muncă, așa că vă rog să postați orice lucrare bună pe care ați văzut-o pe acest subiect în comentarii.