Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Представляем 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Переосмысление агрегации по глубине.
Резидуальные соединения долгое время полагались на фиксированное, однородное накопление. Вдохновленные двойственностью времени и глубины, мы представляем Attention Residuals, заменяя стандартную рекурсию по глубине на обученное, зависящее от входных данных внимание к предыдущим слоям.
🔹 Позволяет сетям избирательно извлекать прошлые представления, естественно уменьшая разбавление и рост скрытых состояний.
🔹 Вводит Block AttnRes, разделяя слои на сжатые блоки, чтобы сделать межслойное внимание практичным в масштабах.
🔹 Служит эффективной заменой, демонстрируя преимущество в вычислениях 1.25x с незначительными (<2%) накладными расходами на задержку вывода.
🔹 Проверено на архитектуре Kimi Linear (всего 48B, 3B активированных параметров), обеспечивая стабильные приросты производительности в дальнейшем.
🔗Полный отчет:

Эксперименты с законами масштабирования показывают постоянное преимущество в вычислениях 1,25× при различных размерах моделей.

Анализ динамики обучения демонстрирует, как AttnRes естественным образом смягчает рост величины скрытого состояния и обеспечивает более равномерное распределение градиентов по глубине.

584
Топ
Рейтинг
Избранное
