Ich stelle Forschungsingenieure mit Schwerpunkt auf RL und verteilte Trainingsinfrastruktur ein Wir skalieren RL auf einem Modell mit 1 Billion Parametern Meine DMs sind offen