Przeprowadziłem szybkie 71 eksperymentów na 500 z 13 000 kroków w wyzwaniu OpenAI 1. Mieszanka ekspertów to absolutny ZWYCIĘZCA (bardzo zaskakujące, ponieważ nie powinno tak być w przypadku małych LLM) > Liczba ekspertów ma największe znaczenie. 4 (najlepsze) > 3 >> 2. 2. Niezwiązane osadzenia działają, związane to katastrofa 3. Konwolucja głębokościowa - MARTWY KONIEC Wnioski: 1. 4-ekspert MOE + leaky ReLU -> -0.048 BPB, wyraźny zwycięzca 2. Niezwiązane osadzenia faktoryzowane (bn128) -> -0.031 BPB, warto połączyć z MOE 3. Kombinacja MOE + QAT -> zachowuje jakość kwantyzacji do zgłoszenia martwe końce 1. Konwolucja głębokościowa -> każda wariant szkodzi, większe jądra szkodzą bardziej 2. Związane osadzenia faktoryzowane -> katastrofalne, szczególnie przy małych wąskich gardłach 3. Współdzielenie wag -> niekonkurencyjne z MOE pod względem jakości 4. Kombinacje Conv + cokolwiek — potęgują szkody Kolejne kroki 1. Walidacja MOE 4e + leaky przy 2000-5000 krokach, wiele nasion 2. Test MOE 4e + leaky + niezwiązane bn128 — dwie największe wygrane mogą się zsumować 3. Pełne uruchomienie (13780 kroków) najlepszej kombinacji, aby sprawdzić, czy pokona 1.2244 BPB na liście liderów 71 eksperymentów, 3 GPU, ~500 kroków każdy. Vuk Rosić...