Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nanochat voi nyt kouluttaa GPT-2-tason LLM:ää <<$100 (~$73, 3 tuntia yhdellä 8XH100-solmulla).
GPT-2 on vain suosikkini LLM:stä, koska se on ensimmäinen kerta, kun LLM-pino kokoontuu tunnistettavan moderniin muotoon. Siksi on tullut minulle hieman outo ja pitkäkestoinen pakkomielle kouluttaa malli GPT-2-yhteensopivaksi, mutta paljon halvemmalla, ~7 vuoden edistyksen hyödyksi. Erityisesti epäilin, että tänään pitäisi olla mahdollista kouluttaa sellainen 100 << dollarilla.
Alun perin vuonna 2019 OpenAI koulutti GPT-2:ta 32 TPU v3 -piirillä 168 tunniksi (7 päiväksi), tuolloin hintaan $8/tunti/TPUv3, yhteensä noin $43K. Se saavuttaa 0,256525 CORE-pistemäärän, joka on kokonaismittari, joka esiteltiin DCLM-tutkimuksessa 22 arvioinnissa, kuten ARC/MMLU/jne.
Viimeisimpien parannusten yhdistyessä nanochattiin (monet niistä ovat peräisin modatusta nanogpt-reposta), ja nyt voin saavuttaa korkeamman CORE-pisteen 3,04 tunnissa (~$73) yhdellä 8XH100-solmulla. Tämä on 600-kertainen kustannusvähennys seitsemän vuoden aikana, eli GPT-2:n koulutuskustannukset laskevat noin 2,5-kertaiseksi vuosittain. Luulen, että tämä on todennäköisesti aliarvioitua, koska löydän edelleen suhteellisen säännöllisesti parannuksia ja minulla on vielä paljon uusia ideoita kokeiltavaksi.
Pidempi kirjoitus, jossa on paljon yksityiskohtia optimoinnista ja vinkkejä toistoon löytyy täältä:
Modatusta nanogpt:stä inspiroituneena loin myös tulostaulun "aika GPT-2:een", jossa tämä ensimmäinen "Jan29"-malli on merkintä #1 klo 3.04. On hauskaa kehittää tätä lisää, ja otan mielelläni vastaan apua! Toivon, että nanochat kasvaa erittäin siistiksi, siistiksi ja viritetyksi kokeelliseksi LLM-valjaksiksi prototyyppien ideoille, hauskanpitoon ja tietenkin oppimiseen.
Suurimmat parannukset asioissa, jotka toimivat suoraan laatikosta ja tuottivat heti hyötyä, olivat 1) Flash Attention 3 -ytimet (nopeampi ja sallii window_size kwargin saada vuorottelevia huomiokuvioita), Muon-optimointi (yritin ~1 päivän poistaa sen ja käytin vain AdamW:tä, mutta en onnistunut), jäljellä olevat reitit ja ohittavat yhteydet, joita lukivat opittavat skalaarit, ja arvon upotukset. Oli monia muitakin pienempiä asioita, jotka kasaantuvat.
Kuva: puoliksi aiheeseen liittyvää silmänruokaa nykyisen nanochat-mallin minisarjan skaalauslakien johtamisesta, kaunis ja tyydyttävä!

Johtavat
Rankkaus
Suosikit
