熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我為 OpenAI 的挑戰進行了 71 次快速實驗,總共 500 次,步驟為 13,000
1. 專家混合模型(Mixture of Experts)是絕對的贏家
(非常驚訝,因為對於小型 LLM 來說不應該如此)
> 專家數量最為重要。4(最佳)> 3 >> 2。
2. 不綁定的嵌入(UNTIED Embeddings)有效,綁定的則是災難
3. 深度卷積(Depthwise Convolution) - 死胡同
見解:
1. 4 專家 MOE + 漏鬆 ReLU -> -0.048 BPB,明顯的贏家
2. 不綁定的分解嵌入(bn128) -> -0.031 BPB,值得與 MOE 組合
3. MOE + QAT 組合 -> 保持量化質量以便提交
死胡同
1. 深度卷積 -> 每個變體都會受損,更大的卷積核傷害更大
2. 綁定的分解嵌入 -> 災難性的,特別是在小瓶頸時
3. 權重共享 -> 在質量上無法與 MOE 競爭
4. 卷積 + 任何組合 — 加劇了損害
下一步
1. 在 2000-5000 步驟下驗證 MOE 4e + 漏鬆,使用多個隨機種子
2. 測試 MOE 4e + 漏鬆 + 不綁定的 bn128 — 這兩個最大的贏家可能會疊加
3. 對最佳組合進行完整運行(13780 步驟),看看是否能超越 1.2244 BPB 的排行榜
71 次實驗,3 個 GPU,每次約 500 步驟。Vuk Rosić...



熱門
排行
收藏
