Bu gerçekten harika. Bu beni kişiselleştirilmiş RL üzerine daha derinlemesine düşünmeye itti: Temel modellerin bu kadar hızlı modası geçebildiği bir dünyada bir modeli kişiselleştirmenin gerçek anlamı nedir? Yapay zekadaki gerçek şu ki, her birkaç haftada bir yeni modeller gönderiliyor ve her biri bir öncekinden daha iyi. Ve tempo sadece hızlanıyor, Hugging Face Hub'da gördüğümüz gibi. Daha iyi baz modellerin günlük olarak çıkmasına çok uzak değiliz. Burada gerçek hayatta neredeyse kimsenin üzerinde çalışmadığı bir araştırma boşluğu var. Çoğu LLM kişiselleştirme araştırması sabit bir temel model varsayar, ancak çok azı temel modeli değiştirdiğinizde bu kişiselleştirmenin ne olduğunu sorar. Llama 3'ten Llama 4'e geçmeyi düşünün. Tüm ayarlanmış tercihler, ödül sinyalleri ve LoRA'lar aniden dünkü modele bağlanıyor. Bir kullanıcı ya da ekip olarak, her yeni modeli tercihlerinizi yeniden öğretmek istemezsiniz. Ama aynı zamanda sadece seni tanıdığı için eski birine takılmak istemezsin. Buna "RL model transferi" diyebiliriz: Model N üzerinde eğitilmiş bir RL izi, ödül sinyali veya tercih temsili nasıl damıtılabilir, depolanabilir ve çok fazla kullanıcı müdahalesi olmadan N+1 modeline otomatik olarak yeniden uygulanabilir? Bunu SFT'de çözdük; burada bir eğitim veri seti depolanıp gelecekteki bir modeli eğitmek için yeniden kullanılabiliyor. Ayrıca RLHF aşamalarında da bunun bir versiyonunu bir şekilde ele aldık ama gerçek dünyada RL kullanıldığında genel olarak belirsizliğini koruyor. Bazı ilgili konular var (RLTR aktarılabilir akıl yürütme izleri için, P-RLHF ve PREMIUM modelden bağımsız kullanıcı temsilleri için, HCP taşınabilir tercih protokolleri için) ama tam döngü bana az incelenmiş gibi görünüyor. Bu soruların bazıları politika dışı bir konuda, diğerleri ise yetenekler ve kişiselleştirme ile ilgili konular: yeni model eski özelleştirmelerden/düzeltmelerden hangilerini kutudan çıktığı gibi hallediyor ve hangileri aslında kullanıcı/takım özel, varsayılan olarak çözülemeyecek? Şimdilik bir beceride saklayacağınız ama gerçek hayatta yazılı rehberlik seviyesinin ötesine geçmesine izin verdiğiniz bir beceri. Kesinlikle bazı çalışmaları kaçırdım, bu yüzden bu konuda gördüğünüz iyi çalışmaları yorumlarda paylaşın lütfen.