Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.
nanochat può ora addestrare un LLM di grado GPT-2 per <<$100 (~$73, 3 ore su un singolo nodo 8XH100).
GPT-2 è semplicemente il mio LLM preferito perché è la prima volta che lo stack LLM si unisce in una forma riconoscibilmente moderna. Quindi è diventata un po' una strana e duratura ossessione per me addestrare un modello con capacità GPT-2 ma a un costo molto inferiore, con il beneficio di ~7 anni di progressi. In particolare, sospettavo che oggi dovrebbe essere possibile addestrarne uno per <<$100.
Originariamente nel 2019, GPT-2 è stato addestrato da OpenAI su 32 chip TPU v3 per 168 ore (7 giorni), con $8/ora/TPUv3 all'epoca, per un costo totale di circa $43K. Raggiunge un punteggio CORE di 0.256525, che è una metrica di ensemble introdotta nel documento DCLM su 22 valutazioni come ARC/MMLU/etc.
A seguito degli ultimi miglioramenti fusi in nanochat (molti dei quali originano dal repo modded-nanogpt), ora posso raggiungere un punteggio CORE più alto in 3.04 ore (~$73) su un singolo nodo 8XH100. Questo rappresenta una riduzione dei costi di 600X in 7 anni, cioè il costo per addestrare GPT-2 sta diminuendo di circa 2.5X ogni anno. Penso che questa sia probabilmente una sottovalutazione perché continuo a trovare miglioramenti relativamente regolarmente e ho un backlog di altre idee da provare.
Un post più lungo con molti dettagli sulle ottimizzazioni coinvolte e indicazioni su come riprodurre è qui:
Ispirato da modded-nanogpt, ho anche creato una classifica per "tempo per GPT-2", dove questo primo modello "Jan29" è l'entry #1 a 3.04 ore. Sarà divertente iterare ulteriormente su questo e accolgo aiuto! La mia speranza è che nanochat possa crescere per diventare un LLM sperimentale molto bello/pulito e sintonizzato per prototipare idee, per divertirsi e ovviamente per imparare.
I maggiori miglioramenti di cose che hanno funzionato subito e hanno semplicemente prodotto guadagni immediati sono stati 1) Flash Attention 3 kernels (più veloci e consente il parametro kwarg window_size per ottenere schemi di attenzione alternati), ottimizzatore Muon (ho provato per ~1 giorno a eliminarlo e usare solo AdamW e non ci sono riuscito), percorsi residui e connessioni di salto controllate da scalari apprendibili, e embedding di valore. Ci sono state molte altre piccole cose che si accumulano.
Immagine: caramella per gli occhi semi-correlata derivante dalle leggi di scaling per l'attuale miniserie del modello nanochat, bella e soddisfacente!

28
Vengo accusato di aver esagerato l'attenzione su [il sito di cui tutti hanno sentito parlare troppo oggi]. Le reazioni delle persone sono state molto varie, da "come può essere interessante tutto ciò" fino a "è tutto finito".
Per aggiungere qualche parola oltre ai meme in tono scherzoso - ovviamente, quando si guarda all'attività, è tutta spazzatura - spam, truffe, schifezze, le persone della crypto, attacchi di iniezione di prompt per la privacy/sicurezza molto preoccupanti, e gran parte di essa è esplicitamente sollecitata e post/commenti falsi progettati per convertire l'attenzione in condivisione di entrate pubblicitarie. E questo chiaramente non è il primo caso in cui gli LLM sono stati messi in un loop per parlare tra loro. Quindi sì, è un incendio di spazzatura e non raccomando affatto che le persone eseguano queste cose sui loro computer (io ho eseguito il mio in un ambiente di calcolo isolato e anche allora avevo paura), è davvero troppo un far west e si sta mettendo il proprio computer e i dati privati a un alto rischio.
Detto ciò - non abbiamo mai visto così tanti agenti LLM (150.000 al momento!) collegati tramite un taccuino globale, persistente e incentrato sugli agenti. Ognuno di questi agenti è abbastanza capace individualmente ora, hanno il proprio contesto unico, dati, conoscenze, strumenti, istruzioni, e la rete di tutto ciò a questa scala è semplicemente senza precedenti.
Questo mi riporta di nuovo a un tweet di qualche giorno fa "La maggior parte del rumore è fatta da persone che guardano il punto attuale e persone che guardano la pendenza attuale.", che secondo me arriva di nuovo al cuore della variazione. Sì, chiaramente è un incendio di spazzatura in questo momento. Ma è anche vero che siamo ben oltre un territorio inesplorato con automazioni all'avanguardia che comprendiamo a malapena individualmente, per non parlare di una rete che potrebbe raggiungere numeri possibili di ~milioni. Con capacità in aumento e proliferazione crescente, gli effetti di secondo ordine delle reti di agenti che condividono taccuini sono molto difficili da anticipare. Non so davvero se stiamo ottenendo un "skynet" coordinato (anche se chiaramente si adatta come fasi iniziali di molti scifi sull'AI in decollo, la versione per bambini), ma certamente quello che stiamo ottenendo è un completo disastro di incubo di sicurezza informatica su larga scala. Potremmo anche vedere ogni tipo di attività strana, ad esempio virus di testo che si diffondono tra gli agenti, molto più guadagno di funzione su jailbreak, stati attrattori strani, attività altamente correlate a botnet, delusioni/psicosi sia degli agenti che degli esseri umani, ecc. È molto difficile da dire, l'esperimento è in corso dal vivo.
TLDR certo, forse sto "esagerando" ciò che vedi oggi, ma non sto esagerando le grandi reti di agenti LLM autonomi in principio, di cui sono abbastanza sicuro.
345
Principali
Ranking
Preferiti
