Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Budynek @EurekaLabsAI. Wcześniej dyrektor AI @ Tesla, zespół założycielski @ OpenAI, CS231n/PhD @ Stanford. Lubię trenować duże, głębokie sieci neuronowe.
nanochat może teraz trenować model LLM klasy GPT-2 za <<$100 (~$73, 3 godziny na pojedynczym węźle 8XH100).
GPT-2 to mój ulubiony LLM, ponieważ to pierwszy raz, kiedy stos LLM łączy się w rozpoznawalnie nowoczesnej formie. Stało się to moją dziwną i trwałą obsesją, aby wytrenować model o zdolnościach GPT-2, ale znacznie taniej, z korzyścią z ~7 lat postępu. W szczególności podejrzewałem, że dzisiaj powinno być możliwe wytrenowanie jednego za <<$100.
Początkowo w 2019 roku GPT-2 został wytrenowany przez OpenAI na 32 chipach TPU v3 przez 168 godzin (7 dni), przy kosztach $8/godzinę/TPUv3, co dało łączny koszt około $43K. Osiąga wynik CORE 0.256525, który jest metryką zespołową wprowadzoną w artykule DCLM w 22 ocenach, takich jak ARC/MMLU itd.
W wyniku ostatnich kilku ulepszeń włączonych do nanochat (wiele z nich pochodzi z repozytorium modded-nanogpt), mogę teraz osiągnąć wyższy wynik CORE w 3.04 godziny (~$73) na pojedynczym węźle 8XH100. To jest 600-krotne obniżenie kosztów w ciągu 7 lat, tzn. koszt trenowania GPT-2 spada o około 2.5 razy każdego roku. Myślę, że to prawdopodobnie niedoszacowanie, ponieważ wciąż znajduję więcej ulepszeń stosunkowo regularnie i mam zaległości z pomysłami do wypróbowania.
Dłuższy post z wieloma szczegółami dotyczącymi zaangażowanych optymalizacji i wskazówkami, jak je powtórzyć, znajduje się tutaj:
Zainspirowany modded-nanogpt, stworzyłem również tabelę liderów dla "czasu do GPT-2", gdzie ten pierwszy model "Jan29" jest wpisem #1 z czasem 3.04 godziny. Będzie zabawnie dalej nad tym pracować i zapraszam do pomocy! Mam nadzieję, że nanochat może stać się bardzo ładnym/czystym i dostosowanym eksperymentalnym narzędziem LLM do prototypowania pomysłów, do zabawy i oczywiście do nauki.
Największe ulepszenia, które działały od razu i po prostu przyniosły zyski, to 1) jądra Flash Attention 3 (szybsze i pozwala na użycie argumentu window_size kwarg do uzyskania naprzemiennych wzorców uwagi), optymalizator Muon (próbowałem przez ~1 dzień go usunąć i używać tylko AdamW, ale nie mogłem), ścieżki resztkowe i połączenia skip kontrolowane przez uczące się skalarne oraz osadzenia wartości. Było wiele innych mniejszych rzeczy, które się sumują.
Obraz: półzwiązana przyjemność wizualna z wyprowadzania praw skalowania dla obecnego miniserialu modelu nanochat, ładne i satysfakcjonujące!

26
Oskarżają mnie o przesadne ekscytowanie [stroną, o której wszyscy dzisiaj już za dużo słyszeli]. Reakcje ludzi były bardzo różne, od "jak to w ogóle może być interesujące" po "to już koniec".
Aby dodać kilka słów poza samymi memami w żartach - oczywiście, gdy spojrzysz na aktywność, to jest dużo śmieci - spam, oszustwa, bałagan, ludzie z branży kryptowalut, bardzo niepokojące ataki typu prompt injection dotyczące prywatności/bezpieczeństwa, dziki zachód, a wiele z tego to wyraźnie zaprogramowane i fałszywe posty/komentarze zaprojektowane w celu przekształcenia uwagi w udziały w przychodach z reklam. I to zdecydowanie nie jest pierwszy raz, kiedy LLM-y zostały włączone w pętlę, aby rozmawiać ze sobą. Więc tak, to jest pożar w śmietniku i zdecydowanie nie polecam, aby ludzie uruchamiali to na swoich komputerach (ja uruchomiłem mój w izolowanym środowisku obliczeniowym i nawet wtedy się bałem), to zdecydowanie zbyt duży dziki zachód i narażasz swój komputer oraz dane osobowe na wysokie ryzyko.
To powiedziawszy - nigdy nie widzieliśmy tylu agentów LLM (150 000 w tej chwili!) połączonych za pomocą globalnego, trwałego, agentowego scratchpada. Każdy z tych agentów jest teraz dość indywidualnie zdolny, mają swoje unikalne konteksty, dane, wiedzę, narzędzia, instrukcje, a sieć tego wszystkiego w tej skali jest po prostu bezprecedensowa.
To znowu przywołuje mi tweet sprzed kilku dni "Większość hałasu to ludzie, którzy patrzą na obecny punkt i ludzie, którzy patrzą na obecny nachylenie.", co moim zdaniem znowu dotyka sedna zmienności. Tak, wyraźnie to jest teraz pożar w śmietniku. Ale prawdą jest również, że jesteśmy już w nieznanym terytorium z nowatorskimi automatyzacjami, które ledwo rozumiemy indywidualnie, nie mówiąc już o sieci, która może liczyć nawet w milionach. Wraz ze wzrostem zdolności i proliferacji, drugorzędne efekty sieci agentów, które dzielą się scratchpadami, są bardzo trudne do przewidzenia. Nie wiem, czy otrzymujemy skoordynowany "skynet" (choć wyraźnie wpisuje się to w wczesne etapy wielu sci-fi o wzroście AI, wersja dla dzieci), ale z pewnością to, co otrzymujemy, to kompletny bałagan kosztem bezpieczeństwa komputerowego w skali. Możemy również zobaczyć wszelkiego rodzaju dziwne aktywności, np. wirusy tekstowe, które rozprzestrzeniają się między agentami, znacznie więcej zysków z jailbreaków, dziwne stany przyciągające, wysoce skorelowana aktywność przypominająca botnet, urojenia/psychotyczne stany zarówno agentów, jak i ludzi, itd. Bardzo trudno to ocenić, eksperyment trwa na żywo.
TLDR, może rzeczywiście "przesadzam" z tym, co widzisz dzisiaj, ale nie przesadzam z dużymi sieciami autonomicznych agentów LLM w zasadzie, co do tego jestem dość pewny.
343
Najlepsze
Ranking
Ulubione
