nanochat nyní může trénovat LLM GPT-2 za <<$100 (~$73, 3 hodiny na jednom uzlu 8XH100). GPT-2 je prostě můj nejoblíbenější LLM, protože je to poprvé, kdy se stack LLM spojil v rozpoznatelně moderní podobě. Takže se mi stalo trochu zvláštní a trvalou posedlostí trénovat model na GPT-2, ale za mnohem nižší cenu, s výhodou ~7 let pokroku. Konkrétně jsem tušil, že by dnes mělo být možné vycvičit jednoho za << $100. Původně v roce 2019 byl GPT-2 trénován společností OpenAI na 32 TPU v3 čipech po dobu 168 hodin (7 dní), s cenou 8 $/hodinu/TPUv3, což znamenalo celkovou cenu přibližně $43K. Dosahuje skóre CORE 0,256525, což je ansámblová metrika zavedená v článku DCLM během 22 hodnocení jako ARC/MMLU atd. Díky několika posledním vylepšením sloučeným do nanochatu (mnohé z nich pocházejí z modovaného repozitáře nanogpt), mohu nyní dosáhnout vyššího CORE skóre za 3,04 hodiny (~$73) na jednom uzlu 8XH100. To je 600násobné snížení nákladů za 7 let, tedy náklady na trénování GPT-2 klesají přibližně 2,5x ročně. Myslím, že je to pravděpodobně podceněné, protože stále pravidelně nacházím další zlepšení a mám spoustu nápadů, které mohu vyzkoušet. Delší příspěvek s mnoha detaily optimalizací a tipy, jak je reprodukovat, najdete zde: Inspirován modded-nanogpt jsem také vytvořil žebříček pro "time to GPT-2", kde tento první model "Jan29" je záznam #1 při 3,04 hodinách. Bude zábava to dál rozvíjet a uvítám pomoc! Doufám, že nanochat se rozroste v velmi pěkný/čistý a vyladěný experimentální LLM postroj pro prototypování nápadů, pro zábavu a samozřejmě i pro učení. Největší vylepšení, která fungovala hned po instalaci a přinesla zisky, byla 1) jádra Flash Attention 3 (rychlejší a umožňují window_size kwarg střídavě sledovat vzory pozornosti), optimalizátor Muon (snažil jsem se ho smazat ~1 den, ale použil jsem jen AdamW a nešlo to), reziduální cesty a přeskočení spojení omezená naučitelnými skaláry, a vnoření hodnot. Bylo tam mnoho dalších menších věcí, které se skládají na povrch. Obrázek: částečně příbuzná vizuální lahůdka odvození zákonů škálování pro současnou minisérii nanochat modelů, krásná a uspokojivá!