Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Clădirea @EurekaLabsAI. Anterior Director AI @ Tesla, echipa fondatoare @ OpenAI, CS231n/PhD @ Stanford. Îmi place să antrenez rețele neuronale mari și profunde.
nanochat poate antrena acum LLM de grad GPT-2 pentru <<100$ (~73$, 3 ore pe un singur nod 8XH100).
GPT-2 este doar LLM-ul meu preferat pentru că este prima dată când stack-ul LLM-urilor se formează într-o formă recognoscibil modernă. Așa că a devenit o obsesie ciudată și de durată pentru mine să antrenez un model la capacitatea GPT-2, dar mult mai ieftin, cu beneficiul a ~7 ani de progres. În special, bănuiam că ar trebui să fie posibil astăzi să antrenezi unul pentru <<100$.
Inițial, în 2019, GPT-2 a fost antrenat de OpenAI pe cipuri v3 de 32 TPU timp de 168 de ore (7 zile), cu 8 dolari/oră/TPUv3 la acea vreme, pentru un cost total de aproximativ 43.000 de dolari. Obține un scor CORE de 0,256525, care este un indicator de ansamblu introdus în articolul DCLM pe 22 de evaluări precum ARC/MMLU/etc.
Din ultimele câteva îmbunătățiri integrate în nanochat (multe dintre ele provenind din repo-nanoGPT modded), pot acum să ating un scor CORE mai mare în 3,04 ore (~73$) pe un singur nod 8XH100. Aceasta reprezintă o reducere a costurilor de 600 de ori în 7 ani, adică costul antrenării GPT-2 scade de aproximativ 2,5 ori în fiecare an. Cred că este probabil o subestimare pentru că încă găsesc îmbunătățiri destul de regulat și am o mulțime de idei de încercat.
O postare mai lungă, cu multe detalii despre optimizările implicate și sfaturi despre cum să reproduci, este aici:
Inspirat de modded-nanogpt, am creat și un clasament pentru "time to GPT-2", unde acest prim model "Jan29" este intrarea #1 la 3,04 ore. Va fi distractiv să reaprofundez acest subiect și sunt binevenit să ajut! Speranța mea este ca nanochat să devină un ham experimental de LLM foarte frumos, curat și bine ajustat pentru prototipare a ideilor, pentru distracție și, bineînțeles, pentru învățare.
Cele mai mari îmbunătățiri ale lucrurilor care au funcționat direct și au produs câștiguri imediat au fost: 1) Flash Attention 3 kernel-uri (mai rapide și permit window_size kwarg să obțină modele alternative de atenție), optimizer Muon (am încercat ~1 zi să-l șterg și am folosit doar AdamW și nu am reușit), căi reziduale și conexiuni skip blocate de scalari învățabili, și încorporarea valorilor. Au fost multe alte lucruri mai mici care se adună.
Imagine: un obiect semi-legat pentru ochi despre derivarea legilor de scalare pentru miniseria actuală a modelului nanochat, frumos și satisfăcător!

24
Sunt acuzat că exagerez [site-ul despre care toată lumea a auzit deja prea mult astăzi]. Reacțiile oamenilor au variat foarte mult, de la "cum e asta interesant" până la "s-a terminat atât de mult".
Ca să adaug câteva cuvinte dincolo de meme-uri în glumă – evident, dacă te uiți la activitate, este o mulțime de gunoaie – spam, escrocherii, mizerie, oamenii din cripto, atacuri de tip prompt injection extrem de îngrijorătoare de confidențialitate/securitate din vestul sălbatic, și multe dintre ele sunt postări/comentarii explicit provocate și false menite să transforme atenția în împărțire a veniturilor din reclame. Și clar nu este prima dată când LLM-urile au fost puse într-un cerc vicios pentru a comunica între ele. Deci da, e un dezastru total și cu siguranță nu recomand oamenilor să ruleze aceste lucruri pe calculatoarele lor (eu l-am rulat pe al meu într-un mediu de calcul izolat și chiar și atunci mi-a fost frică), e mult prea mult un vest sălbatic și îți pui calculatorul și datele private la un risc mare.
Totuși, nu am mai văzut niciodată atât de mulți agenți LLM (150.000 momentan!) conectați printr-un scratchpad global, persistent, axat pe agent. Fiecare dintre acești agenți este destul de capabil individual acum, au propriul său context, date, cunoștințe, unelte, instrucțiuni unice, iar rețeaua a tot ceea ce la această scară este pur și simplu fără precedent.
Asta mă aduce din nou la un tweet de acum câteva zile
"Majoritatea ruff ruff sunt oameni care privesc punctul curent și oameni care privesc panta curentă.", ceea ce, după părerea mea, ajunge din nou la esența varianței. Da, clar e un dezastru acum. Dar este adevărat și că suntem bine pe un teritoriu necunoscut, cu automatizări de ultimă generație pe care abia le înțelegem individual, cu atât mai puțin o rețea care ajunge în număr, posibil la ~milioane. Odată cu creșterea capacității și proliferarea, efectele de ordin doi ale rețelelor de agenți care împart scratchpad-uri sunt foarte greu de anticipat. Nu prea știu dacă primim un "skynet" coordonat (deși clar verifică tipografia ca stadii timpurii ale multor SF-uri AI care decolează, versiunea pentru copii mici), dar cu siguranță ceea ce primim este un dezastru total de coșmar de securitate informatică la scară largă. Putem vedea, de asemenea, tot felul de activități ciudate, de exemplu viruși de text care se răspândesc între agenți, mult mai mult câștig de funcție la jailbreak-uri, stări ciudate de atracție, activități puternic corelate asemănătoare botnet-urilor, deliruri/psihoză atât la agent, cât și la oameni, etc. Este foarte greu de spus, experimentul rulează în direct.
Pe scurt, poate că "exagerez" ceea ce vedeți astăzi, dar nu exagerez în principiu rețelele mari de agenți LLM autonomi, asta sunt destul de sigur.
341
Limită superioară
Clasament
Favorite
