一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我為 OpenAI 的挑戰進行了 71 次快速實驗，總共 500 次，步驟為 13,000 1. 專家混合模型（Mixture of Experts）是絕對的贏家（非常驚訝，因為對於小型 LLM 來說不應該如此） > 專家數量最為重要。4（最佳）> 3 >> 2。 2. 不綁定的嵌入（UNTIED Embeddings）有效，綁定的則是災難 3. 深度卷積（Depthwise Convolution） - 死胡同見解： 1. 4 專家 MOE + 漏鬆 ReLU -> -0.048 BPB，明顯的贏家 2. 不綁定的分解嵌入（bn128） -> -0.031 BPB，值得與 MOE 組合 3. MOE + QAT 組合 -> 保持量化質量以便提交死胡同 1. 深度卷積 -> 每個變體都會受損，更大的卷積核傷害更大 2. 綁定的分解嵌入 -> 災難性的，特別是在小瓶頸時 3. 權重共享 -> 在質量上無法與 MOE 競爭 4. 卷積 + 任何組合 — 加劇了損害下一步 1. 在 2000-5000 步驟下驗證 MOE 4e + 漏鬆，使用多個隨機種子 2. 測試 MOE 4e + 漏鬆 + 不綁定的 bn128 — 這兩個最大的贏家可能會疊加 3. 對最佳組合進行完整運行（13780 步驟），看看是否能超越 1.2244 BPB 的排行榜 71 次實驗，3 個 GPU，每次約 500 步驟。Vuk Rosić...