简单地向LLM添加高斯噪声(一步——没有迭代,没有学习率,没有梯度)并将它们集成,可以在数学推理、编码、写作和化学任务上实现与标准GRPO/PPO相当甚至更好的性能。我们称这个算法为RandOpt。 为了验证这并不限于特定模型,我们在Qwen、Llama、OLMo3和VLM上进行了测试。 这背后是什么?我们发现,在预训练LLM周围的高斯搜索邻域中,各种任务专家密集分布——我们称之为神经丛林。 论文: 代码: 网站: