Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nanochat nyní může trénovat LLM GPT-2 za <<$100 (~$73, 3 hodiny na jednom uzlu 8XH100).
GPT-2 je prostě můj nejoblíbenější LLM, protože je to poprvé, kdy se stack LLM spojil v rozpoznatelně moderní podobě. Takže se mi stalo trochu zvláštní a trvalou posedlostí trénovat model na GPT-2, ale za mnohem nižší cenu, s výhodou ~7 let pokroku. Konkrétně jsem tušil, že by dnes mělo být možné vycvičit jednoho za << $100.
Původně v roce 2019 byl GPT-2 trénován společností OpenAI na 32 TPU v3 čipech po dobu 168 hodin (7 dní), s cenou 8 $/hodinu/TPUv3, což znamenalo celkovou cenu přibližně $43K. Dosahuje skóre CORE 0,256525, což je ansámblová metrika zavedená v článku DCLM během 22 hodnocení jako ARC/MMLU atd.
Díky několika posledním vylepšením sloučeným do nanochatu (mnohé z nich pocházejí z modovaného repozitáře nanogpt), mohu nyní dosáhnout vyššího CORE skóre za 3,04 hodiny (~$73) na jednom uzlu 8XH100. To je 600násobné snížení nákladů za 7 let, tedy náklady na trénování GPT-2 klesají přibližně 2,5x ročně. Myslím, že je to pravděpodobně podceněné, protože stále pravidelně nacházím další zlepšení a mám spoustu nápadů, které mohu vyzkoušet.
Delší příspěvek s mnoha detaily optimalizací a tipy, jak je reprodukovat, najdete zde:
Inspirován modded-nanogpt jsem také vytvořil žebříček pro "time to GPT-2", kde tento první model "Jan29" je záznam #1 při 3,04 hodinách. Bude zábava to dál rozvíjet a uvítám pomoc! Doufám, že nanochat se rozroste v velmi pěkný/čistý a vyladěný experimentální LLM postroj pro prototypování nápadů, pro zábavu a samozřejmě i pro učení.
Největší vylepšení, která fungovala hned po instalaci a přinesla zisky, byla 1) jádra Flash Attention 3 (rychlejší a umožňují window_size kwarg střídavě sledovat vzory pozornosti), optimalizátor Muon (snažil jsem se ho smazat ~1 den, ale použil jsem jen AdamW a nešlo to), reziduální cesty a přeskočení spojení omezená naučitelnými skaláry, a vnoření hodnot. Bylo tam mnoho dalších menších věcí, které se skládají na povrch.
Obrázek: částečně příbuzná vizuální lahůdka odvození zákonů škálování pro současnou minisérii nanochat modelů, krásná a uspokojivá!

Top
Hodnocení
Oblíbené
