Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przeprowadziłem szybkie 71 eksperymentów na 500 z 13 000 kroków w wyzwaniu OpenAI
1. Mieszanka ekspertów to absolutny ZWYCIĘZCA
(bardzo zaskakujące, ponieważ nie powinno tak być w przypadku małych LLM)
> Liczba ekspertów ma największe znaczenie. 4 (najlepsze) > 3 >> 2.
2. Niezwiązane osadzenia działają, związane to katastrofa
3. Konwolucja głębokościowa - MARTWY KONIEC
Wnioski:
1. 4-ekspert MOE + leaky ReLU -> -0.048 BPB, wyraźny zwycięzca
2. Niezwiązane osadzenia faktoryzowane (bn128) -> -0.031 BPB, warto połączyć z MOE
3. Kombinacja MOE + QAT -> zachowuje jakość kwantyzacji do zgłoszenia
martwe końce
1. Konwolucja głębokościowa -> każda wariant szkodzi, większe jądra szkodzą bardziej
2. Związane osadzenia faktoryzowane -> katastrofalne, szczególnie przy małych wąskich gardłach
3. Współdzielenie wag -> niekonkurencyjne z MOE pod względem jakości
4. Kombinacje Conv + cokolwiek — potęgują szkody
Kolejne kroki
1. Walidacja MOE 4e + leaky przy 2000-5000 krokach, wiele nasion
2. Test MOE 4e + leaky + niezwiązane bn128 — dwie największe wygrane mogą się zsumować
3. Pełne uruchomienie (13780 kroków) najlepszej kombinacji, aby sprawdzić, czy pokona 1.2244 BPB na liście liderów
71 eksperymentów, 3 GPU, ~500 kroków każdy. Vuk Rosić...



Najlepsze
Ranking
Ulubione
