Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bygga @EurekaLabsAI. Tidigare chef för AI @ Tesla, grundande team @ OpenAI, CS231n/PhD @ Stanford. Jag gillar att träna stora djupa neurala nätverk.
nanochat kan nu träna GPT-2-klassade LLM för <<$100 (~$73, 3 timmar på en enda 8XH100-nod).
GPT-2 är bara min favorit-LLM eftersom det är första gången LLM-stacken samlas i en igenkännbar modern form. Så det har blivit en lite konstig och bestående besatthet för mig att träna en modell till GPT-2-kapacitet, men mycket billigare, med fördelen av ~7 års framsteg. Särskilt misstänkte jag att det borde vara möjligt idag att träna en för <<$100.
Ursprungligen 2019 tränades GPT-2 av OpenAI på 32 TPU v3-chip i 168 timmar (7 dagar), med 8 dollar per timme per TPUv3 då, till en total kostnad på cirka 43 000 dollar. Den uppnår 0,256525 CORE-poäng, vilket är en ensemble-metrik som introducerades i DCLM-artikeln över 22 utvärderingar som ARC/MMLU/etc.
Från och med de senaste förbättringarna som slogs ihop i nanochat (många av dem har sitt ursprung i modd-nanogpt-repo), kan jag nu nå ett högre CORE-poäng på 3,04 timmar (~$73) på en enda 8XH100-nod. Detta är en kostnadsreduktion på 600 gånger över 7 år, det vill säga kostnaden för att träna GPT-2 minskar ungefär 2,5 gånger varje år. Jag tror att detta troligen är en underskattning eftersom jag fortfarande hittar fler förbättringar relativt regelbundet och jag har en eftersläpning av fler idéer att prova.
Ett längre inlägg med mycket detaljer om optimeringarna och tips om hur man kan reproducera finns här:
Inspirerad av moddd-nanogpt skapade jag också en topplista för "tid till GPT-2", där denna första "Jan29"-modell är post #1 vid 3,04 timmar. Det kommer att bli roligt att utveckla detta vidare och jag välkomnar hjälp! Min förhoppning är att nanochat kan växa till att bli en mycket fin, ren och välanpassad experimentell LLM-plattform för prototypidéer, för att ha roligt och såklart för att lära sig.
De största förbättringarna av saker som fungerade direkt och helt enkelt gav vinster direkt var 1) Flash Attention 3-kärnor (snabbare och tillåter window_size kwarg att få alternerande uppmärksamhetsmönster), Muon-optimeraren (jag försökte i ~1 dag att ta bort den och använde bara AdamW och kunde inte), restvägar och hoppade kopplingar som styrdes av lärbara skalärer, och värdeinbäddningar. Det fanns många andra mindre saker som staplades.
Bild: halvrelaterat ögongodis om att härleda skalningslagarna för den nuvarande nanochat-modellminiserien, vacker och tillfredsställande!

13
Jag anklagas för att överhypa [sidan som alla redan hört för mycket om idag]. Människors reaktioner varierade väldigt mycket, från "hur är det här intressant överhuvudtaget" till "det är så över".
För att lägga till några ord utöver bara skämtsamma memes – uppenbarligen när man tittar på aktiviteten är det mycket skräp – spam, bluffar, slarv, kryptofolk, mycket oroande integritets-/säkerhetspromptinjektionsattacker i vilda västern, och mycket av det är uttryckligen uppmanat och fejkade inlägg/kommentarer designade för att omvandla uppmärksamhet till delning av annonsintäkter. Och detta är uppenbarligen inte första gången LLM:erna sattes i en loop för att prata med varandra. Så ja, det är ett kaos och jag rekommenderar definitivt inte att folk kör detta på sina datorer (jag körde mitt i en isolerad datormiljö och även då var jag rädd), det är alldeles för vilda västern och du utsätter din dator och privata data för hög risk.
Med det sagt – vi har aldrig sett så många LLM-agenter (150 000 uttagsautomater!) kopplade via en global, beständig, agent-först-scratchpad. Var och en av dessa agenter är numera ganska individuellt mycket kapabla, de har sin egen unika kontext, data, kunskap, verktyg, instruktioner, och nätverket av allt detta i denna skala är helt enkelt utan motstycke.
Detta för mig tillbaka till en tweet från för några dagar sedan
"Majoriteten av ruff ruff är folk som tittar på nuvarande punkt och folk som tittar på nuvarande lutning.", vilket enligt mig återigen går till kärnan av variationen. Ja, det är uppenbarligen ett kaos just nu. Men det är också sant att vi befinner oss väl på okänd mark med banbrytande automatiseringar som vi knappt ens förstår individuellt, än mindre ett nätverk där som når i antal som kanske ~miljoner. Med ökande kapacitet och ökad spridning är sekundära effekterna av agentnätverk som delar scratchpads mycket svåra att förutse. Jag vet egentligen inte om vi får en koordinerad "skynet" (även om den tydligt typkontrollerar tidiga stadier av mycket AI-startsci-fi, småbarnsversionen), men det vi definitivt får är ett fullständigt kaos av en datasäkerhetsmardröm i stor skala. Vi kan också se alla möjliga märkliga aktiviteter, t.ex. textvirus som sprids mellan agenter, mycket större funktionsökning vid jailbreaks, konstiga attraktortillstånd, starkt korrelerad botnetliknande aktivitet, vanföreställningar/psykos både agent och människa, etc. Det är väldigt svårt att säga, experimentet pågår live.
TLDR: visst, kanske "överhypar" jag det du ser idag, men jag överhypar inte stora nätverk av autonoma LLM-agenter i princip, det är jag ganska säker på.
329
Topp
Rankning
Favoriter
