Представляем 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Переосмысление агрегации по глубине. Резидуальные соединения долгое время полагались на фиксированное, однородное накопление. Вдохновленные двойственностью времени и глубины, мы представляем Attention Residuals, заменяя стандартную рекурсию по глубине на обученное, зависящее от входных данных внимание к предыдущим слоям. 🔹 Позволяет сетям избирательно извлекать прошлые представления, естественно уменьшая разбавление и рост скрытых состояний. 🔹 Вводит Block AttnRes, разделяя слои на сжатые блоки, чтобы сделать межслойное внимание практичным в масштабах. 🔹 Служит эффективной заменой, демонстрируя преимущество в вычислениях 1.25x с незначительными (<2%) накладными расходами на задержку вывода. 🔹 Проверено на архитектуре Kimi Linear (всего 48B, 3B активированных параметров), обеспечивая стабильные приросты производительности в дальнейшем. 🔗Полный отчет:
Эксперименты с законами масштабирования показывают постоянное преимущество в вычислениях 1,25× при различных размерах моделей.
Анализ динамики обучения демонстрирует, как AttnRes естественным образом смягчает рост величины скрытого состояния и обеспечивает более равномерное распределение градиентов по глубине.
584