热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
简单地向LLM添加高斯噪声(一步——没有迭代,没有学习率,没有梯度)并将它们集成,可以在数学推理、编码、写作和化学任务上实现与标准GRPO/PPO相当甚至更好的性能。我们称这个算法为RandOpt。
为了验证这并不限于特定模型,我们在Qwen、Llama、OLMo3和VLM上进行了测试。
这背后是什么?我们发现,在预训练LLM周围的高斯搜索邻域中,各种任务专家密集分布——我们称之为神经丛林。
论文:
代码:
网站:

热门
排行
收藏
