Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Introductie van 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Herziening van dieptegewijze aggregatie.
Residualverbindingen hebben lange tijd vertrouwd op vaste, uniforme accumulatie. Geïnspireerd door de dualiteit van tijd en diepte, introduceren we Attention Residuals, waarbij standaard dieptegewijze herhaling wordt vervangen door geleerde, invoergevoelige aandacht over voorafgaande lagen.
🔹 Maakt het netwerken mogelijk om selectief eerdere representaties op te halen, waardoor verdunning en groei van verborgen toestanden op natuurlijke wijze worden verminderd.
🔹 Introduceert Block AttnRes, waarbij lagen worden verdeeld in gecomprimeerde blokken om cross-laag aandacht praktisch te maken op schaal.
🔹 Dient als een efficiënte drop-in vervanging, met een rekenvoordeel van 1,25x en verwaarloosbare (<2%) overhead in inferentietijd.
🔹 Gevalideerd op de Kimi Linear-architectuur (48B totaal, 3B geactiveerde parameters), met consistente prestatieverbeteringen downstream.
🔗Volledige rapport:

Schaalwet-experimenten onthullen een consistente 1,25× rekenvoordeel over verschillende modelgroottes.

Analyse van de trainingsdynamiek toont aan hoe AttnRes op natuurlijke wijze de groei van de verborgen-toestandsgrootte vermindert en een uniformere gradientverdeling over de diepte oplevert.

586
Boven
Positie
Favorieten
