DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Lior Alexander

Costruire il Bloomberg dell'AI @AlphaSignalAI (280.000 iscritti) • Docente al MIT • Ricercatore MILA • 9 anni in ML • SF 🌁

Ogni modello di fondazione che hai mai usato ha lo stesso bug. È stato appena risolto. Dal 2015, ogni rete profonda è stata costruita allo stesso modo: ogni strato esegue qualche calcolo, aggiunge il suo risultato a un totale in corso e lo passa avanti. Semplice. Ma c'è un problema, allo strato 100, il segnale di qualsiasi singolo strato è sepolto sotto la somma di tutto il resto. Ogni nuovo strato conta sempre meno. Nessuno ha risolto questo problema perché funzionava abbastanza bene. Moonshot AI ha appena cambiato tutto questo. Il loro nuovo metodo, Attention Residuals, consente a ogni strato di guardare indietro a tutti gli strati precedenti e scegliere quali contano davvero in questo momento. Invece di un totale in corso cieco, ottieni un recupero selettivo. L'analogia: immagina di scrivere un saggio in cui ogni bozza viene automaticamente fusa in un unico documento. Alla bozza 50, le tue ultime modifiche sono invisibili. AttnRes ti consente di mantenere ogni bozza separata e di attingere a quelle di cui hai bisogno. Cosa risolve: 1. Gli strati più profondi non vengono più sommersi 2. L'addestramento diventa più stabile in tutta la rete 3. Il modello utilizza la propria profondità in modo più efficiente Per renderlo pratico su larga scala, raggruppano gli strati in blocchi e si concentrano sui riassunti dei blocchi invece che su ogni singolo strato. Sovraccarico in fase di inferenza: meno del 2%. Il risultato: 25% di calcolo in meno per raggiungere le stesse prestazioni. Testato su un modello da 48 miliardi di parametri. Vale per tutte le dimensioni. Le connessioni residue sono state una tubatura invisibile per un decennio. Ora stanno diventando dinamiche. La prossima generazione di modelli non passerà solo attraverso i propri strati, ma li cercherà.

Principali

Ranking

Preferiti