To jest naprawdę fajne. Zacząłem myśleć głębiej o spersonalizowanym RL: jaki jest prawdziwy sens personalizacji modelu w świecie, w którym modele bazowe mogą szybko stać się przestarzałe? Rzeczywistość w AI jest taka, że nowe modele pojawiają się co kilka tygodni, każdy lepszy od poprzedniego. A tempo tylko przyspiesza, co widzimy na Hugging Face Hub. Nie jesteśmy daleko od momentu, w którym lepsze modele bazowe będą się pojawiać codziennie. Istnieje luka badawcza w RL, nad którą prawie nikt nie pracuje. Większość badań nad personalizacją LLM zakłada stały model bazowy, ale bardzo niewielu pyta, co się dzieje z tą personalizacją, gdy zamieniasz model bazowy. Pomyśl o przejściu z Llama 3 do Llama 4. Wszystkie dostosowane preferencje, sygnały nagrody i LoRAs są nagle związane z modelem z wczoraj. Jako użytkownik lub zespół, nie chcesz uczyć każdego nowego modelu swoich preferencji od nowa. Ale także nie chcesz utknąć na starszym modelu tylko dlatego, że cię zna. Możemy to nazwać "transferowalnością modelu RL": jak można ślad RL, sygnał nagrody lub reprezentację preferencji wytrenowaną na modelu N destylować, przechowywać i automatycznie ponownie zastosować do modelu N+1 bez zbyt dużego zaangażowania użytkownika? Rozwiązaliśmy to w SFT, gdzie zestaw danych do treningu może być przechowywany i ponownie wykorzystywany do trenowania przyszłego modelu. Zajęliśmy się także wersją tego w fazach RLHF w jakiś sposób, ale pozostaje niejasne, ogólnie mówiąc, kiedy używając RL wdrożonego w rzeczywistym świecie. Istnieje kilka powiązanych wątków (RLTR dla transferowalnych śladów rozumowania, P-RLHF i PREMIUM dla reprezentacji użytkowników niezależnych od modelu, HCP dla przenośnych protokołów preferencji), ale pełna pętla wydaje się być niedostatecznie zbadana. Niektóre z tych pytań dotyczą off-policy, ale inne dotyczą możliwości w porównaniu do personalizacji: które z dawnych dostosowań/poprawek nowy model już obsługuje od ręki, a które są rzeczywiście specyficzne dla użytkownika/zespołu, aby mogły być rozwiązane domyślnie? To, co przechowasz w umiejętności na razie, ale RL pozwala na rozszerzenie poza poziom pisemnych wskazówek. Z pewnością pominąłem jakieś prace, więc proszę, zamieśćcie w komentarzach wszelkie dobre prace, które widzieliście na ten temat.