Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ogni modello di fondazione che hai mai usato ha lo stesso bug. È stato appena risolto.
Dal 2015, ogni rete profonda è stata costruita allo stesso modo: ogni strato esegue qualche calcolo, aggiunge il suo risultato a un totale in corso e lo passa avanti.
Semplice. Ma c'è un problema, allo strato 100, il segnale di qualsiasi singolo strato è sepolto sotto la somma di tutto il resto.
Ogni nuovo strato conta sempre meno.
Nessuno ha risolto questo problema perché funzionava abbastanza bene.
Moonshot AI ha appena cambiato tutto questo. Il loro nuovo metodo, Attention Residuals, consente a ogni strato di guardare indietro a tutti gli strati precedenti e scegliere quali contano davvero in questo momento.
Invece di un totale in corso cieco, ottieni un recupero selettivo.
L'analogia: immagina di scrivere un saggio in cui ogni bozza viene automaticamente fusa in un unico documento. Alla bozza 50, le tue ultime modifiche sono invisibili.
AttnRes ti consente di mantenere ogni bozza separata e di attingere a quelle di cui hai bisogno.
Cosa risolve:
1. Gli strati più profondi non vengono più sommersi
2. L'addestramento diventa più stabile in tutta la rete
3. Il modello utilizza la propria profondità in modo più efficiente
Per renderlo pratico su larga scala, raggruppano gli strati in blocchi e si concentrano sui riassunti dei blocchi invece che su ogni singolo strato.
Sovraccarico in fase di inferenza: meno del 2%.
Il risultato:
25% di calcolo in meno per raggiungere le stesse prestazioni. Testato su un modello da 48 miliardi di parametri. Vale per tutte le dimensioni....
Principali
Ranking
Preferiti
