To je fakt super. Přimělo mě to hlouběji přemýšlet o personalizovaném skutečném životě: jaký má skutečný smysl personalizovat model ve světě, kde se základní modely mohou tak rychle stát zastaralými? Realita v AI je taková, že nové modely dorazí každých pár týdnů, každý lepší než ten předchozí. A tempo se jen zrychluje, jak vidíme na Hugging Face Hub. Nejsme daleko od toho, aby lepší základní modely začaly denně vycházet. V reálném životě je zde výzkumná mezera, na které téměř nikdo nepracuje. Většina výzkumu personalizace LLM předpokládá pevný základní model, ale jen málokdo se ptá, co se s touto personalizací stane, když vyměníte základní model. Představte si přechod z Llama 3 na Llama 4. Všechny vyladěné preference, odměnové signály a LoRA jsou najednou vázány na včerejší model. Jako uživatel nebo tým nechcete každý nový model znovu učit své preference. Ale také nechcete zůstat u staršího jen proto, že vás zná. Mohli bychom tomu říkat "přenositelnost RL modelu": jak může být RL trace, signál odměny nebo preference reprezentace trénovaná na modelu N destilována, uložena a automaticky znovu aplikována na model N+1 bez přílišné účasti uživatele? To jsme vyřešili v SFT, kde lze trénovací dataset uložit a znovu použít k trénování budoucího modelu. Nějak jsme se také pustili do verze tohoto ve fázích RLHF, ale obecně to zůstává nejasné při použití RL nasazeného v reálném světě. Existují některá související vlákna (RLTR pro přenositelné logické stopy, P-RLHF a PREMIUM pro modelově nezávislé uživatelské reprezentace, HCP pro přenosné preferenční protokoly), ale celý cyklus mi přijde nedostatečně prozkoumaný. Některé z těchto otázek se týkají off-policy, jiné se týkají schopností versus personalizace: které ze starých úprav/oprav už nový model zvládá hned po instalaci a které jsou skutečně specifické pro uživatele/tým, aby je někdy bylo možné vyřešit automaticky? Kterou byste zatím uložili do dovednosti, ale RL vám umožní přesahovat úroveň psaných pokynů. Určitě jsem něco vynechal, tak prosím napište do komentářů jakoukoli dobrou práci, kterou jste na toto téma viděli.