Estou a recrutar engenheiros de pesquisa com foco em RL e infraestrutura de treinamento distribuído Estamos a escalar RL em um modelo de 1t parâmetros As minhas mensagens diretas estão abertas