Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Кожна модель фундаменту, яку ви коли-небудь використовували, має одну й ту ж помилку. Це щойно полагодили.
З 2015 року кожна глибока мережа будується однаково: кожен шар виконує обчислення, додає свій результат до загальної суми і передає його далі.
Просто. Але є проблема: до 100-го шару сигнал з будь-якого окремого шару захований під сумою всього іншого.
Кожен новий рівень має все менше значення.
Ніхто не виправляв це, бо все працювало достатньо добре.
Moonshot AI щойно це змінив. Їхній новий метод, Attention Residuals, дозволяє кожному шару переглядати всі попередні шари і обирати, які з них справді мають значення зараз.
Замість сліпого загального забігу ти отримуєш вибіркове вилучення.
Аналогія: уявіть, що ви пишете есе, де кожен чернетковий варіант автоматично об'єднується в один документ. До 50-го чернетки твої останні правки стають невидимими.
AttnRes дозволяє тримати кожен драфт окремо і брати з тих, які потрібні.
Що це виправляє:
1. Глибші шари більше не заглушаються
2. Навчання стає більш стабільним по всій мережі
3. Модель ефективніше використовує власну глибину
Щоб зробити це практичним у масштабі, вони групують шари у блоки і звертають увагу на резюме блоків, а не на кожен окремий шар.
Накладні витрати при висновку: менше 2%.
Результат:
На 25% менше обчислювань для досягнення тієї ж продуктивності. Тестувався на моделі з параметрами 48B. Тримається в різних розмірах....
Найкращі
Рейтинг
Вибране
