Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Stavební @EurekaLabsAI. Dříve ředitel AI @ Tesla, zakládající tým @ OpenAI, CS231n/PhD @ Stanford. Rád trénuji velké hluboké neuronové sítě.
nanochat nyní může trénovat LLM GPT-2 za <<$100 (~$73, 3 hodiny na jednom uzlu 8XH100).
GPT-2 je prostě můj nejoblíbenější LLM, protože je to poprvé, kdy se stack LLM spojil v rozpoznatelně moderní podobě. Takže se mi stalo trochu zvláštní a trvalou posedlostí trénovat model na GPT-2, ale za mnohem nižší cenu, s výhodou ~7 let pokroku. Konkrétně jsem tušil, že by dnes mělo být možné vycvičit jednoho za << $100.
Původně v roce 2019 byl GPT-2 trénován společností OpenAI na 32 TPU v3 čipech po dobu 168 hodin (7 dní), s cenou 8 $/hodinu/TPUv3, což znamenalo celkovou cenu přibližně $43K. Dosahuje skóre CORE 0,256525, což je ansámblová metrika zavedená v článku DCLM během 22 hodnocení jako ARC/MMLU atd.
Díky několika posledním vylepšením sloučeným do nanochatu (mnohé z nich pocházejí z modovaného repozitáře nanogpt), mohu nyní dosáhnout vyššího CORE skóre za 3,04 hodiny (~$73) na jednom uzlu 8XH100. To je 600násobné snížení nákladů za 7 let, tedy náklady na trénování GPT-2 klesají přibližně 2,5x ročně. Myslím, že je to pravděpodobně podceněné, protože stále pravidelně nacházím další zlepšení a mám spoustu nápadů, které mohu vyzkoušet.
Delší příspěvek s mnoha detaily optimalizací a tipy, jak je reprodukovat, najdete zde:
Inspirován modded-nanogpt jsem také vytvořil žebříček pro "time to GPT-2", kde tento první model "Jan29" je záznam #1 při 3,04 hodinách. Bude zábava to dál rozvíjet a uvítám pomoc! Doufám, že nanochat se rozroste v velmi pěkný/čistý a vyladěný experimentální LLM postroj pro prototypování nápadů, pro zábavu a samozřejmě i pro učení.
Největší vylepšení, která fungovala hned po instalaci a přinesla zisky, byla 1) jádra Flash Attention 3 (rychlejší a umožňují window_size kwarg střídavě sledovat vzory pozornosti), optimalizátor Muon (snažil jsem se ho smazat ~1 den, ale použil jsem jen AdamW a nešlo to), reziduální cesty a přeskočení spojení omezená naučitelnými skaláry, a vnoření hodnot. Bylo tam mnoho dalších menších věcí, které se skládají na povrch.
Obrázek: částečně příbuzná vizuální lahůdka odvození zákonů škálování pro současnou minisérii nanochat modelů, krásná a uspokojivá!

29
Jsem obviňován, že přeháněji [stránku, o které dnes už všichni slyšeli příliš mnoho]. Reakce lidí se velmi lišily, od "jak je to vůbec zajímavé" až po "je to tak pryč".
Abych přidal pár slov nad rámec pouhých vtipných memů – když se podíváte na tu aktivitu, je to samozřejmě spousta odpadu – spam, podvody, šmejd, krypto lidé, velmi znepokojující útoky na soukromí/bezpečnostní prompt injection na divokém západě, a hodně z toho jsou explicitně vyzývané a falešné příspěvky/komentáře, které mají za cíl převést pozornost na sdílení příjmů z reklam. A rozhodně to není poprvé, co byly LLM uvedeny do smyčky, aby spolu komunikovaly. Takže ano, je to katastrofa a rozhodně nedoporučuji, aby lidé spouštěli tyto věci na svých počítačích (já jsem to spouštěl v izolovaném prostředí a i tak jsem se bál), je to příliš divoký západ a vystavujete svůj počítač i soukromá data vysokému riziku.
To ale neznamená, že jsme nikdy neviděli tolik LLM agentů (150 000 bankomatů!) zapojených přes globální, trvalý, agentem orientovaný scratchpad. Každý z těchto agentů je nyní poměrně individuálně velmi schopný, mají svůj vlastní jedinečný kontext, data, znalosti, nástroje, instrukce a síť toho všeho v tomto měřítku je prostě bezprecedentní.
To mě opět přivádí k tweetu z před pár dní
"Většina těch, co se dívají na aktuální bod, jsou lidé, kteří se dívají na aktuální bod, a lidé, kteří se dívají na aktuální sklon.", což podle mě opět zasahuje k jádru rozptylu. Ano, je jasné, že je to teď úplně katastrofa. Ale je také pravda, že jsme už hluboko v neprobádaném terénu s nejmodernějšími automatizacemi, kterým sotva rozumíme jednotlivě, natož sítí, která by mohla dosáhnout v počtu možná i ~milionů. S rostoucími schopnostmi a rostoucím rozšířením jsou druhotné efekty agentních sítí, které sdílejí scratchpady, velmi obtížné předvídat. Nevím, jestli dostáváme koordinovaný "skynet" (i když to jasně označuje kontroly jako rané fáze mnoha AI sci-fi, verze pro batolata), ale rozhodně dostáváme naprostý chaos počítačové bezpečnosti ve velkém měřítku. Můžeme také vidět různé podivné aktivity, např. viry textu šířící se mezi agenty, mnohem větší zvýšení funkce při jailbreaku, podivné atraktorové stavy, vysoce korelovanou botnetovou aktivitu, bludy/psychózy jak agenta, tak člověka atd. Je těžké to poznat, experiment běží živě.
Stručně řečeno, možná "přeháním" to, co dnes vidíte, ale v zásadě nepřeháním velké sítě autonomních LLM agentů, to si myslím.
346
Top
Hodnocení
Oblíbené
