La forma de interpretarlo es que después del postentrenamiento tus pesos están más o menos equidistantes de todas las tareas que vio durante el preentrenamiento (el modelo ha visto todas las tareas y las ha acercado a él). Así que todo lo que hace este método es perturbar los pesos y ver qué perturbaciones acercan la red a pesos específicos de la tarea. Es como una Lora muy barata Esto también se relaciona con la observación de que el post-entrenamiento no añade conocimiento, sino que simplemente esculpe la distribución previa al entrenamiento
Yulu Gan
Yulu Gan13 mar, 23:41
Simplemente añadir ruido gaussiano a los LLMs (un solo paso—sin iteraciones, sin tasa de aprendizaje, sin gradientes) y ensamblándolos puede lograr un rendimiento comparable o incluso superior al GRPO/PPO estándar en tareas de razonamiento, programación, escritura y química matemática. A este algoritmo lo llamamos RandOpt. Para verificar que esto no se limita a modelos específicos, lo probamos en Qwen, Llama, OLMo3 y VLM. ¿Qué hay detrás de esto? Encontramos que en la comunidad de búsqueda gaussiana alrededor de LLMs preentrenados, los diversos expertos en tareas están densamente distribuidos — un régimen que denominamos Matorrales Neuronales. Papel: Código: Página web:
Perturbar pesos es realmente análogo a despliegues aleatorios a altas temperaturas. Creo que esto puede ser iterativo (como en GRPO). perturbar pesos con radio grande -> seleccionar mejores rendimientos -> seguir disminuyendo el radio Esto *debería* aumentar la precisión de las tareas @yule_gan lo has probado?
132