creó una habilidad de código claude que realiza entrenamiento de RL en @PrimeIntellect de extremo a extremo das un nombre de conjunto de datos. se encarga de todo: función de recompensa, validación, evaluación, envío al hub, presentación del entrenamiento un aviso -> trabajo en ejecución. "Construye un entorno para cais/mmlu álgebra abstracta, usa Qwen/Qwen3-30B-Instruct-2507, 1000 pasos y envía el trabajo de entrenamiento." enlace en los comentarios