Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Gebouw @EurekaLabsAI. Voorheen directeur van AI @ Tesla, oprichtend team @ OpenAI, CS231n/PhD @ Stanford. Ik vind het leuk om grote diepe neurale netwerken te trainen.
nanochat kan nu GPT-2 grade LLM trainen voor <<$100 (~$73, 3 uur op een enkele 8XH100 node).
GPT-2 is gewoon mijn favoriete LLM omdat het de eerste keer is dat de LLM-stack samenkomt in een herkenbaar moderne vorm. Het is dus een beetje een vreemde en blijvende obsessie van mij geworden om een model te trainen tot GPT-2 capaciteiten, maar dan veel goedkoper, met de voordelen van ~7 jaar vooruitgang. In het bijzonder vermoedde ik dat het vandaag de dag mogelijk zou moeten zijn om er een te trainen voor <<$100.
Oorspronkelijk in 2019 werd GPT-2 door OpenAI getraind op 32 TPU v3 chips gedurende 168 uur (7 dagen), met $8/uur/TPUv3 toen, voor een totale kosten van ongeveer $43K. Het behaalt een CORE-score van 0.256525, wat een ensemble-metric is geïntroduceerd in het DCLM-papier over 22 evaluaties zoals ARC/MMLU/etc.
Met de laatste verbeteringen die zijn samengevoegd in nanochat (veel daarvan afkomstig uit de gemodificeerde nanogpt repo), kan ik nu een hogere CORE-score bereiken in 3.04 uur (~$73) op een enkele 8XH100 node. Dit is een kostenreductie van 600X over 7 jaar, d.w.z. de kosten om GPT-2 te trainen vallen ongeveer 2.5X elk jaar. Ik denk dat dit waarschijnlijk een onderschatting is omdat ik nog steeds relatief regelmatig meer verbeteringen vind en ik een achterstand heb van meer ideeën om uit te proberen.
Een langer bericht met veel details van de betrokken optimalisaties en aanwijzingen over hoe te reproduceren is hier:
Geïnspireerd door gemodificeerde nanogpt, heb ik ook een ranglijst gemaakt voor "tijd tot GPT-2", waar dit eerste "Jan29" model entry #1 is met 3.04 uur. Het zal leuk zijn om hier verder op te itereren en ik verwelkom hulp! Mijn hoop is dat nanochat kan groeien tot een zeer mooie/schone en afgestelde experimentele LLM-harnas voor het prototypen van ideeën, voor plezier, en natuurlijk voor leren.
De grootste verbeteringen van dingen die direct uit de doos werkten en simpelweg onmiddellijk winst opleverden waren 1) Flash Attention 3 kernels (sneller, en laat window_size kwarg toe om afwisselende aandachtspatronen te krijgen), Muon optimizer (ik heb ongeveer 1 dag geprobeerd het te verwijderen en alleen AdamW te gebruiken en dat lukte me niet), residuele paden en skip-verbindingen die worden beheerd door leerbare scalars, en waarde-embeddings. Er waren veel andere kleinere dingen die zich opstapelden.
Afbeelding: semi-gerelateerde eye candy van het afleiden van de schaalwetten voor de huidige nanochat model miniserie, mooi en bevredigend!

16
Ik word beschuldigd van het overhypen van de [site waar iedereen vandaag al te veel over heeft gehoord]. De reacties van mensen varieerden enorm, van "hoe is dit überhaupt interessant" tot "het is zo voorbij".
Om een paar woorden toe te voegen naast alleen maar memes in een grap - als je kijkt naar de activiteit, is het een hoop rommel - spam, oplichting, slop, de crypto mensen, zeer zorgwekkende privacy-/beveiligingsaanvallen met promptinjectie in het wilde westen, en veel daarvan zijn expliciet geprompte en nepberichten/reacties die zijn ontworpen om aandacht om te zetten in advertentie-inkomsten. En dit is duidelijk niet de eerste keer dat de LLM's in een lus zijn gezet om met elkaar te praten. Dus ja, het is een afvalhoop en ik raad mensen ook absoluut niet aan om deze dingen op hun computers te draaien (ik draaide de mijne in een geïsoleerde computeromgeving en zelfs toen was ik bang), het is veel te veel een wilde westen en je brengt je computer en privégegevens in groot gevaar.
Dat gezegd hebbende - we hebben nog nooit zoveel LLM-agenten (150.000 atm!) gezien die zijn aangesloten via een wereldwijde, persistente, agent-eerste scratchpad. Elk van deze agenten is nu vrij individueel behoorlijk capabel, ze hebben hun eigen unieke context, gegevens, kennis, tools, instructies, en het netwerk van dat alles op deze schaal is simpelweg ongekend.
Dit brengt me weer bij een tweet van een paar dagen geleden
"De meerderheid van de ruff ruff zijn mensen die naar het huidige punt kijken en mensen die naar de huidige helling kijken.", wat imo weer tot de kern van de variatie komt. Ja, het is duidelijk een afvalhoop op dit moment. Maar het is ook waar dat we goed in onbekend terrein zijn met baanbrekende automatiseringen die we individueel nauwelijks begrijpen, laat staan een netwerk daarvan dat mogelijk in aantallen tot ~miljoenen reikt. Met toenemende capaciteit en toenemende proliferatie zijn de tweede orde effecten van agentnetwerken die scratchpads delen zeer moeilijk te anticiperen. Ik weet niet echt of we een gecoördineerde "skynet" krijgen (hoewel het duidelijk type checks als vroege stadia van veel AI takeoff scifi, de peuterversie), maar zeker wat we krijgen is een complete puinhoop van een computerbeveiligingsnachtmerrie op schaal. We kunnen ook allerlei vreemde activiteiten zien, bijv. virussen van tekst die zich verspreiden over agenten, veel meer gain of function op jailbreaks, vreemde aantrekkingspunten, sterk gecorreleerde botnet-achtige activiteiten, waanideeën/psychose zowel agent als mens, enz. Het is heel moeilijk te zeggen, het experiment loopt live.
TLDR misschien hype ik "over" wat je vandaag ziet, maar ik hype in principe geen grote netwerken van autonome LLM-agenten, daar ben ik vrij zeker van.
332
Boven
Positie
Favorieten
