Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A forma de interpretar é que, depois do pós-treino, seus pesos ficam meio que equidistantes de todas as tarefas que ele viu durante o pré-treino (o modelo já viu todas as tarefas, então puxou o peso para si). Então, tudo o que esse método faz é perturbar os pesos e ver quais perturbações aproximam a rede de pesos específicos da tarefa. É tipo uma Lora muito barata
Isso também se conecta à observação de que o pós-treinamento não adiciona conhecimento, mas apenas esculpe a distribuição pré-treinamento

13 de mar., 23:41
Simplesmente adicionar ruído gaussiano aos LLMs (um passo — sem iterações, sem taxa de aprendizado, sem gradientes) e montá-los pode alcançar desempenho comparável ou até melhor que o GRPO/PPO padrão em tarefas de raciocínio matemático, programação, escrita e química. Chamamos esse algoritmo de RandOpt.
Para verificar se isso não se limita a modelos específicos, testamos em Qwen, Llama, OLMo3 e VLMs.
O que está por trás disso? Descobrimos que, na vizinhança de busca Gaussiana em torno de LLMs pré-treinados, especialistas em tarefas diversas são densamente distribuídos — um regime que chamamos de Bosques Neurais.
Papel:
Código:
Site:

Perturbar pesos é realmente análogo a rolamentos aleatórios em alta temperatura. Acho que isso pode ser iterativo (como o grpo).
perturbe pesos com raio grande -> selecione melhores desempenhos -> continue diminuindo o raio
Isso *deveria* aumentar a precisão das tarefas
@yule_gan você tentou isso?
132
Melhores
Classificação
Favoritos
