我為 OpenAI 的挑戰進行了 71 次快速實驗,總共 500 次,步驟為 13,000 1. 專家混合模型(Mixture of Experts)是絕對的贏家 (非常驚訝,因為對於小型 LLM 來說不應該如此) > 專家數量最為重要。4(最佳)> 3 >> 2。 2. 不綁定的嵌入(UNTIED Embeddings)有效,綁定的則是災難 3. 深度卷積(Depthwise Convolution) - 死胡同 見解: 1. 4 專家 MOE + 漏鬆 ReLU -> -0.048 BPB,明顯的贏家 2. 不綁定的分解嵌入(bn128) -> -0.031 BPB,值得與 MOE 組合 3. MOE + QAT 組合 -> 保持量化質量以便提交 死胡同 1. 深度卷積 -> 每個變體都會受損,更大的卷積核傷害更大 2. 綁定的分解嵌入 -> 災難性的,特別是在小瓶頸時 3. 權重共享 -> 在質量上無法與 MOE 競爭 4. 卷積 + 任何組合 — 加劇了損害 下一步 1. 在 2000-5000 步驟下驗證 MOE 4e + 漏鬆,使用多個隨機種子 2. 測試 MOE 4e + 漏鬆 + 不綁定的 bn128 — 這兩個最大的贏家可能會疊加 3. 對最佳組合進行完整運行(13780 步驟),看看是否能超越 1.2244 BPB 的排行榜 71 次實驗,3 個 GPU,每次約 500 步驟。Vuk Rosić...