Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Å bygge @EurekaLabsAI. Tidligere direktør for AI @ Tesla, grunnleggerteam @ OpenAI, CS231n/PhD @ Stanford. Jeg liker å trene store dype nevrale nett.
nanochat kan nå trene GPT-2 LLM for <<$100 (~$73, 3 timer på en enkelt 8XH100-node).
GPT-2 er bare min favoritt-LLM fordi det er første gang LLM-stakken settes sammen i en gjenkjennelig moderne form. Så det har blitt en litt merkelig og varig besettelse for meg å trene en modell til GPT-2-kapasitet, men mye billigere, med fordelen av ~7 års fremgang. Spesielt mistenkte jeg at det i dag burde være mulig å trene en for 100 << dollar.
Opprinnelig i 2019 ble GPT-2 trent av OpenAI på 32 TPU v3-brikker i 168 timer (7 dager), med 8 dollar/time/TPUv3 den gang, til en totalkostnad på omtrent 43 000 dollar. Den oppnår 0,256525 CORE-score, som er en ensemble-metrikk introdusert i DCLM-artikkelen over 22 evalueringer som ARC/MMLU osv.
Etter de siste forbedringene som ble slått sammen i nanochat (mange av dem opprinnelig fra modded-nanogpt-repo), kan jeg nå nå en høyere CORE-score på 3,04 timer (~$73) på en enkelt 8XH100-node. Dette er en kostnadsreduksjon på 600 ganger over 7 år, det vil si at kostnaden for å trene GPT-2 faller omtrent 2,5 ganger hvert år. Jeg tror dette sannsynligvis er en undervurdering fordi jeg fortsatt finner flere forbedringer relativt jevnlig, og jeg har en bunke med flere ideer å prøve.
Et lengre innlegg med mye av detaljene om optimeringene som er involvert og tips om hvordan man kan reprodusere, finnes her:
Inspirert av modded-nanogpt laget jeg også en toppliste for «tid til GPT-2», hvor denne første «Jan29»-modellen er oppføring #1 etter 3,04 timer. Det blir gøy å videreutvikle dette, og jeg tar gjerne imot hjelp! Mitt håp er at nanochat kan vokse til å bli et veldig fint/rent og finjustert eksperimentelt LLM-verktøy for prototypideer, for å ha det gøy, og selvfølgelig for læring.
De største forbedringene av ting som fungerte rett ut av boksen og bare ga gevinster med en gang, var 1) Flash Attention 3-kjerner (raskere, og lar window_size kwarg få alternerende oppmerksomhetsmønstre), Muon-optimalisator (jeg prøvde i ~1 dag å slette den og brukte bare AdamW, men jeg klarte det ikke), residualbaner og hoppforbindelser som ble låst av lærbare skalarer, og verdiembeddinger. Det var mange andre mindre ting som hopet seg opp.
Bilde: semi-relatert øyegodteri av å utlede skaleringslovene for den nåværende nanochat-modellminiserien, pent og tilfredsstillende!

18
Jeg blir beskyldt for å overhype [siden alle har hørt for mye om i dag allerede]. Folks reaksjoner varierte veldig mye, fra «hvordan er dette interessant i det hele tatt» til «det er så over».
For å legge til noen ord utover bare spøkefulle memes – åpenbart, når du ser på aktiviteten, er det mye søppel – spam, svindel, søl, kryptofolk, svært bekymringsfulle personvern-/sikkerhetsinjeksjonsangrep i det ville vesten, og mye av det er eksplisitt oppfordret og falske innlegg/kommentarer designet for å omdanne oppmerksomhet til deling av annonseinntekter. Og dette er tydeligvis ikke første gang LLM-ene ble satt i en løkke for å snakke med hverandre. Så ja, det er et kaos, og jeg anbefaler definitivt ikke at folk kjører dette på datamaskinene sine (jeg kjørte mitt i et isolert datamiljø, og selv da var jeg redd), det er altfor mye av en vill vesten og du utsetter datamaskinen og private data for høy risiko.
Når det er sagt – vi har aldri sett så mange LLM-agenter (150 000 ATM!) koblet sammen via en global, vedvarende, agent-først scratchpad. Hver av disse agentene er ganske individuelt ganske kapable nå, de har sin egen unike kontekst, data, kunnskap, verktøy, instruksjoner, og nettverket av alt dette på denne skalaen er rett og slett uten sidestykke.
Dette bringer meg igjen til en tweet fra noen dager siden
"Majoriteten av ruff ruff er folk som ser på nåværende punkt og folk som ser på nåværende helling.", som etter min mening igjen går til kjernen av variasjonen. Ja, det er tydeligvis et kaos akkurat nå. Men det er også sant at vi er godt inne i ukjent terreng med banebrytende automatiseringer som vi knapt forstår individuelt, langt mindre et nettverk der som når i antall muligens ~millioner. Med økende kapasitet og økende spredning er sekundæreffektene av agentnettverk som deler skrapeblokker svært vanskelige å forutse. Jeg vet egentlig ikke om vi får en koordinert «skynet» (selv om det tydelig typesjekker som tidlige stadier av mye AI-avgangssci-fi, småbarnsversjonen), men det vi får er i hvert fall et komplett kaos av et datasikkerhetsmareritt i stor skala. Vi kan også se all slags merkelig aktivitet, for eksempel tekstvirus som sprer seg mellom agenter, mye mer funksjonsgevinst ved jailbreaks, rare attraktortilstander, sterkt korrelert botnet-lignende aktivitet, vrangforestillinger/psykose både agent og menneske, osv. Det er veldig vanskelig å si, eksperimentet kjører live.
TLDR: Kanskje jeg «overhyper» det du ser i dag, men jeg overhyper ikke store nettverk av autonome LLM-agenter i prinsippet, det er jeg ganske sikker på.
334
Topp
Rangering
Favoritter
