一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

简单地向LLM添加高斯噪声（一步——没有迭代，没有学习率，没有梯度）并将它们集成，可以在数学推理、编码、写作和化学任务上实现与标准GRPO/PPO相当甚至更好的性能。我们称这个算法为RandOpt。为了验证这并不限于特定模型，我们在Qwen、Llama、OLMo3和VLM上进行了测试。这背后是什么？我们发现，在预训练LLM周围的高斯搜索邻域中，各种任务专家密集分布——我们称之为神经丛林。论文：代码：网站：