Saya mempekerjakan insinyur riset dengan fokus pada RL dan infrastruktur pelatihan terdistribusi Kami menskalakan RL pada model parameter 1t DM saya terbuka