Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Costruire il Bloomberg dell'AI @AlphaSignalAI (280.000 iscritti) • Docente al MIT • Ricercatore MILA • 9 anni in ML • SF 🌁
Ogni modello di fondazione che hai mai usato ha lo stesso bug. È stato appena risolto.
Dal 2015, ogni rete profonda è stata costruita allo stesso modo: ogni strato esegue qualche calcolo, aggiunge il suo risultato a un totale in corso e lo passa avanti.
Semplice. Ma c'è un problema, allo strato 100, il segnale di qualsiasi singolo strato è sepolto sotto la somma di tutto il resto.
Ogni nuovo strato conta sempre meno.
Nessuno ha risolto questo problema perché funzionava abbastanza bene.
Moonshot AI ha appena cambiato tutto questo. Il loro nuovo metodo, Attention Residuals, consente a ogni strato di guardare indietro a tutti gli strati precedenti e scegliere quali contano davvero in questo momento.
Invece di un totale in corso cieco, ottieni un recupero selettivo.
L'analogia: immagina di scrivere un saggio in cui ogni bozza viene automaticamente fusa in un unico documento. Alla bozza 50, le tue ultime modifiche sono invisibili.
AttnRes ti consente di mantenere ogni bozza separata e di attingere a quelle di cui hai bisogno.
Cosa risolve:
1. Gli strati più profondi non vengono più sommersi
2. L'addestramento diventa più stabile in tutta la rete
3. Il modello utilizza la propria profondità in modo più efficiente
Per renderlo pratico su larga scala, raggruppano gli strati in blocchi e si concentrano sui riassunti dei blocchi invece che su ogni singolo strato.
Sovraccarico in fase di inferenza: meno del 2%.
Il risultato:
25% di calcolo in meno per raggiungere le stesse prestazioni. Testato su un modello da 48 miliardi di parametri. Vale per tutte le dimensioni.
Le connessioni residue sono state una tubatura invisibile per un decennio. Ora stanno diventando dinamiche.
La prossima generazione di modelli non passerà solo attraverso i propri strati, ma li cercherà.

Kimi.ai16 mar, 11:03
Introducendo 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Ripensare l'aggregazione depth-wise.
Le connessioni residue si sono a lungo basate su un accumulo fisso e uniforme. Ispirati dalla dualità del tempo e della profondità, introduciamo gli Attention Residuals, sostituendo la ricorrenza depth-wise standard con un'attenzione appresa, dipendente dall'input, sui livelli precedenti.
🔹 Consente alle reti di recuperare selettivamente le rappresentazioni passate, mitigando naturalmente la diluizione e la crescita dello stato nascosto.
🔹 Introduce Block AttnRes, suddividendo i livelli in blocchi compressi per rendere l'attenzione inter-livello pratica su larga scala.
🔹 Funziona come un sostituto efficiente, dimostrando un vantaggio computazionale di 1.25x con un sovraccarico di latenza di inferenza trascurabile (<2%).
🔹 Validato sull'architettura Kimi Linear (48B totale, 3B parametri attivati), fornendo guadagni di prestazioni costanti a valle.
🔗Rapporto completo:

214
Andrew Ng ha appena risolto uno dei problemi più grandi con gli Agenti.
Ha rilasciato Context Hub, uno strumento CLI per recuperare la documentazione API in tempo reale.
Un comando. L'agente ottiene esattamente ciò di cui ha bisogno prima di scrivere una sola riga di codice.
Gli agenti addestrati mesi fa volano alla cieca. Inventano nomi di parametri. Chiamano funzioni che non esistono più. Scrivono con sicurezza codice contro una specifica che è cambiata nell'ultima versione.
> Niente più parametri allucinati
> Documentazione aggiornata prima di ogni chiamata
> Gli agenti registrano scoperte utili
> Le note persistono tra le sessioni
L'agente esegue un comando CLI prima di toccare il codice. Invece di fare affidamento su dati obsoleti, legge la specifica attuale.
API in rapida evoluzione significavano dover mantenere un dump di documentazione in ogni prompt. Ora l'agente fa quel lavoro da solo.
Quando trova una soluzione alternativa, salva una nota per la prossima volta.

1,47K
Principali
Ranking
Preferiti
