Varje grundmodell du någonsin använt har samma bugg. Det blev precis fixat. Sedan 2015 har varje djupt nätverk byggts på samma sätt: varje lager gör någon beräkning, lägger till sitt resultat till en löpande total och skickar det vidare. Enkelt. Men det finns ett problem, på lager 100 är signalen från vilket enskilt lager som helst begravd under summan av allt annat. Varje nytt lager spelar mindre och mindre roll. Ingen fixade detta eftersom det fungerade tillräckligt bra. Moonshot-AI ändrade precis det. Deras nya metod, Attention Residuals, låter varje lager titta tillbaka på alla tidigare lager och välja vilka som faktiskt är viktiga just nu. Istället för en blind löpande total får du selektiv återvinning. Analogin: föreställ dig att skriva en uppsats där varje utkast automatiskt slås ihop till ett dokument. Vid utkast 50 är dina senaste redigeringar osynliga. AttnRes låter dig hålla varje utkast separat och hämta från de du behöver. Vad detta löser: 1. Djupare lager dränks inte längre 2. Utbildningen blir mer stabil över hela nätverket 3. Modellen använder sitt eget djup mer effektivt För att göra det praktiskt i stor skala grupperar de lager i block och övervakar blocksammanfattningar istället för varje enskilt lager. Overhead vid inferens: mindre än 2%. Resultatet: 25 % mindre beräkning för att uppnå samma prestanda. Testat på en 48B-parametermodell. Håller över storlekar....