Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Rakennus @EurekaLabsAI. Aiemmin AI @ Teslan johtaja, perustajatiimi @ OpenAI, CS231n/PhD @ Stanford. Tykkään treenata suuria syviä hermoverkkoja.
nanochat voi nyt kouluttaa GPT-2-tason LLM:ää <<$100 (~$73, 3 tuntia yhdellä 8XH100-solmulla).
GPT-2 on vain suosikkini LLM:stä, koska se on ensimmäinen kerta, kun LLM-pino kokoontuu tunnistettavan moderniin muotoon. Siksi on tullut minulle hieman outo ja pitkäkestoinen pakkomielle kouluttaa malli GPT-2-yhteensopivaksi, mutta paljon halvemmalla, ~7 vuoden edistyksen hyödyksi. Erityisesti epäilin, että tänään pitäisi olla mahdollista kouluttaa sellainen 100 << dollarilla.
Alun perin vuonna 2019 OpenAI koulutti GPT-2:ta 32 TPU v3 -piirillä 168 tunniksi (7 päiväksi), tuolloin hintaan $8/tunti/TPUv3, yhteensä noin $43K. Se saavuttaa 0,256525 CORE-pistemäärän, joka on kokonaismittari, joka esiteltiin DCLM-tutkimuksessa 22 arvioinnissa, kuten ARC/MMLU/jne.
Viimeisimpien parannusten yhdistyessä nanochattiin (monet niistä ovat peräisin modatusta nanogpt-reposta), ja nyt voin saavuttaa korkeamman CORE-pisteen 3,04 tunnissa (~$73) yhdellä 8XH100-solmulla. Tämä on 600-kertainen kustannusvähennys seitsemän vuoden aikana, eli GPT-2:n koulutuskustannukset laskevat noin 2,5-kertaiseksi vuosittain. Luulen, että tämä on todennäköisesti aliarvioitua, koska löydän edelleen suhteellisen säännöllisesti parannuksia ja minulla on vielä paljon uusia ideoita kokeiltavaksi.
Pidempi kirjoitus, jossa on paljon yksityiskohtia optimoinnista ja vinkkejä toistoon löytyy täältä:
Modatusta nanogpt:stä inspiroituneena loin myös tulostaulun "aika GPT-2:een", jossa tämä ensimmäinen "Jan29"-malli on merkintä #1 klo 3.04. On hauskaa kehittää tätä lisää, ja otan mielelläni vastaan apua! Toivon, että nanochat kasvaa erittäin siistiksi, siistiksi ja viritetyksi kokeelliseksi LLM-valjaksiksi prototyyppien ideoille, hauskanpitoon ja tietenkin oppimiseen.
Suurimmat parannukset asioissa, jotka toimivat suoraan laatikosta ja tuottivat heti hyötyä, olivat 1) Flash Attention 3 -ytimet (nopeampi ja sallii window_size kwargin saada vuorottelevia huomiokuvioita), Muon-optimointi (yritin ~1 päivän poistaa sen ja käytin vain AdamW:tä, mutta en onnistunut), jäljellä olevat reitit ja ohittavat yhteydet, joita lukivat opittavat skalaarit, ja arvon upotukset. Oli monia muitakin pienempiä asioita, jotka kasaantuvat.
Kuva: puoliksi aiheeseen liittyvää silmänruokaa nykyisen nanochat-mallin minisarjan skaalauslakien johtamisesta, kaunis ja tyydyttävä!

20
Minua syytetään liiallisesta hypetyksestä [sivustosta, josta kaikki ovat kuulleet jo liikaa tänään]. Ihmisten reaktiot vaihtelivat hyvin paljon, aina "miten tämä on ylipäätään kiinnostavaa" aina "se on jo ohi".
Lisätään muutama sana pelkkien meemien lisäksi – kun katsoo toimintaa, se on selvästi roskaa – roskapostia, huijauksia, sotkua, kryptoihmisiä, huolestuttavia yksityisyys- ja turvallisuuskehotteiden injektiointihyökkäyksiä villi länsi, ja suuri osa niistä on nimenomaan kannustettuja ja väärennettyjä postauksia/kommentteja, jotka on suunniteltu kääntämään huomio mainostulonjaoksi. Eikä tämä selvästikään ole ensimmäinen kerta, kun LLM:t laitettiin silmukkaan keskustelemaan keskenään. Joten kyllä, tämä on täysi sekasorto, enkä myöskään suosittele, että ihmiset pyörittävät näitä asioita tietokoneillaan (minä ajoin omani eristetyssä tietokoneympäristössä ja pelkäsin silloinkin), se on aivan liian villi länsi ja asetat tietokoneesi ja yksityiset tietosi suureen riskiin.
Sanottakoon kuitenkin, että emme ole koskaan nähneet näin monen LLM-agentin (150 000 tällä hetkellä!) kytkettynä globaalin, pysyvän, agenttilähtöisen muistilehtiön kautta. Jokainen näistä agenteista on nyt melko yksilöllisesti kykeneviä, heillä on oma ainutlaatuinen kontekstinsa, datansa, tietonsa, työkalunsa, ohjeensa, ja kaiken tämän verkosto tässä mittakaavassa on yksinkertaisesti ennennäkemätön.
Tämä tuo minut taas muutaman päivän takaiseen twiittiin
"Suurin osa ruff-ruffista on ihmisiä, jotka katsovat nykyistä pistettä ja niitä, jotka katsovat nykyistä kaltevuutta.", mikä mielestäni taas menee varianssin ytimeen. Kyllä, nyt on selvästi sekasorto. Mutta on myös totta, että olemme jo syvällä kartoittamattomilla alueilla, joissa on huippuluokan automaatioita, joita tuskin edes ymmärrämme yksittäin, saati sitten verkostossa, joka ulottuu mahdollisesti ~miljooniin. Kasvavan kyvykkyyden ja lisääntyvän leviämisen myötä agenttiverkkojen toisen asteen vaikutuksia, jotka jakavat scratchpadit, ovat hyvin vaikeasti ennakoitavissa. En oikeastaan tiedä, saammeko koordinoidun "skynetin" (vaikka se selvästi tekee tyyppitarkistuksia monien tekoälyn noususcifi-sarjan alkuvaiheissa, taaperoversiossa), mutta varmasti se, mitä saamme, on täysi sekasotku tietokoneturvallisuuden painajaisena laajassa mittakaavassa. Saatamme myös nähdä kaikenlaista outoa toimintaa, kuten tekstiviruksia, jotka leviävät agenttien välillä, paljon enemmän toimintakykyä jailbreakeissa, outoja vetovoimatiloja, vahvasti korreloitunutta botnetin kaltaista toimintaa, harhaluuloja/psykooseja sekä agenteilla että ihmisillä jne. On todella vaikea sanoa, koe pyörii livenä.
TLDR: ehkä ehkä "liioittelen" sitä, mitä näet tänään, mutta en periaatteessa liikaa hypeä suuria autonomisten LLM-agenttien verkostoja, siitä olen melko varma.
336
Johtavat
Rankkaus
Suosikit
