Fiecare model de fundație pe care l-ai folosit vreodată are același bug. Tocmai s-a rezolvat. Din 2015, fiecare rețea profundă a fost construită în același mod: fiecare strat face unele calcule, adaugă rezultatul la un total curent și îl transmite mai departe. Simplu. Dar există o problemă, până la stratul 100, semnalul oricărui strat este îngropat sub suma tuturor celorlalte. Fiecare strat nou contează din ce în ce mai puțin. Nimeni nu a reparat asta pentru că a funcționat destul de bine. AI-ul Moonshot tocmai a schimbat asta. Noua lor metodă, Attention Residuals, permite fiecărui strat să se uite înapoi la toate straturile anterioare și să aleagă care contează cu adevărat în acest moment. În loc de un total de alergare orb, primești recuperarea selectivă. Analogia: imaginează-ți că scrii un eseu în care fiecare variantă este integrată automat într-un singur document. Până la draftul 50, ultimele tale editări sunt invizibile. AttnRes îți permite să păstrezi fiecare draft separat și să tragi din cele de care ai nevoie. Ce rezolvă asta: 1. Straturile mai adânci nu mai sunt acoperite 2. Instruirea devine mai stabilă pe întreaga rețea 3. Modelul folosește propria adâncime mai eficient Pentru a fi practic la scară largă, grupează straturile în blocuri și asistă peste rezumatele de blocuri, nu peste fiecare strat. Overhead la inferență: mai puțin de 2%. Rezultatul: 25% mai puțină calcul pentru a atinge aceeași performanță. Testat pe un model cu 48B parametri. Se menține pe toate dimensiunile....