Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

La forma de interpretarlo es que después del postentrenamiento tus pesos están más o menos equidistantes de todas las tareas que vio durante el preentrenamiento (el modelo ha visto todas las tareas y las ha acercado a él). Así que todo lo que hace este método es perturbar los pesos y ver qué perturbaciones acercan la red a pesos específicos de la tarea. Es como una Lora muy barata Esto también se relaciona con la observación de que el post-entrenamiento no añade conocimiento, sino que simplemente esculpe la distribución previa al entrenamiento

Perturbar pesos es realmente análogo a despliegues aleatorios a altas temperaturas. Creo que esto puede ser iterativo (como en GRPO). perturbar pesos con radio grande -> seleccionar mejores rendimientos -> seguir disminuyendo el radio Esto *debería* aumentar la precisión de las tareas @yule_gan lo has probado?

132

Populares

Ranking

Favoritas