DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

A forma de interpretar é que, depois do pós-treino, seus pesos ficam meio que equidistantes de todas as tarefas que ele viu durante o pré-treino (o modelo já viu todas as tarefas, então puxou o peso para si). Então, tudo o que esse método faz é perturbar os pesos e ver quais perturbações aproximam a rede de pesos específicos da tarefa. É tipo uma Lora muito barata Isso também se conecta à observação de que o pós-treinamento não adiciona conhecimento, mas apenas esculpe a distribuição pré-treinamento

Perturbar pesos é realmente análogo a rolamentos aleatórios em alta temperatura. Acho que isso pode ser iterativo (como o grpo). perturbe pesos com raio grande -> selecione melhores desempenhos -> continue diminuindo o raio Isso *deveria* aumentar a precisão das tarefas @yule_gan você tentou isso?

132

Melhores

Classificação

Favoritos