Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я провел 71 быстрый эксперимент на 500 из 13,000 шагов для вызова OpenAI
1. Смесь экспертов — абсолютный ПОБЕДИТЕЛЬ
(очень удивительно, так как это не должно быть для маленьких LLM)
> Количество экспертов имеет наибольшее значение. 4 (лучший) > 3 >> 2.
2. Непривязанные встраивания работают, привязанные — катастрофа
3. Глубинная свертка — МЕРТВЫЙ КОНЕЦ
Инсайты:
1. 4-экспертная MOE + протекающий ReLU -> -0.048 BPB, явный победитель
2. Непривязанные факторные встраивания (bn128) -> -0.031 BPB, стоит комбинировать с MOE
3. Комбо MOE + QAT -> сохраняет качество квантизации для подачи
мертвые концы
1. Глубинная свертка -> каждый вариант вредит, большие ядра вредят больше
2. Привязанные факторные встраивания -> катастрофически, особенно на маленьких узких местах
3. Обмен весами -> не конкурентоспособен с MOE по качеству
4. Свертка + любые комбинации — усугубляет ущерб
Следующие шаги
1. Проверить MOE 4e + протекающий на 2000-5000 шагах, несколько семян
2. Протестировать MOE 4e + протекающий + непривязанный bn128 — две самые большие победы могут сложиться
3. Полный запуск (13780 шагов) лучшей комбинации, чтобы увидеть, побьет ли она 1.2244 BPB в таблице лидеров
71 эксперимент, 3 GPU, ~500 шагов каждый. Вук Рошич...



Топ
Рейтинг
Избранное
