Jag gjorde snabba 71 experiment för 500 av 13 000 steg för OpenAI:s utmaning 1. Mix of Experts är en absolut VINNARE (mycket överraskande eftersom det inte borde vara för små LLM) > Expertantal är det viktigaste. 4 (bäst) > 3 >> 2. 2. OBUNDNA Inbäddningar fungerar, bundna är katastrofer 3. Djupkonvolution - ÅTERVÄNDSGRÄND Insikter: 1. 4-experts MOE + läckande ReLU -> -0,048 BPB, klar vinnare 2. Obundna faktoriserade inbäddningar (bn128) -> -0,031 BPB, värda att kombinera med MOE 3. MOE + QAT-kombinationen -> bevarar kvantiserad kvalitet för inlämning Återvändsgränder 1. Djupkonvolution -> varje variant gör ont, gör större kärnor mer ont 2. Bundna faktoriserade inbäddningar – > katastrofala, särskilt vid små flaskhalsar 3. Viktfördelning – > inte konkurrenskraftigt med MOE när det gäller kvalitet 4. Conv + vad som helst – förstärker skadan Nästa steg 1. Validera MOE 4e + läckande vid 2000-5000 steg, flera frön 2. Testa MOE 4e + läckande + oavgjort BN128 — de två största vinsterna kan staplas på varandra 3. Hela genomspelningen (13780 steg) av bästa kombo för att se om den slår 1,2244 BPB-topplistan 71 experiment, 3 GPU:er, ~500 steg vardera. Vuk Rosić...