Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bauen @EurekaLabsAI. Zuvor Director of AI @ Tesla, Gründungsteam @ OpenAI, CS231n/PhD @ Stanford. Ich trainiere gerne große tiefe neuronale Netze.
nanochat kann jetzt ein GPT-2-Grad LLM für <<100 $ (~73 $, 3 Stunden auf einem einzelnen 8XH100-Knoten trainieren).
GPT-2 ist einfach mein Lieblings-LLM, weil es das erste Mal ist, dass der LLM-Stack in einer erkennbar modernen Form zusammenkommt. Daher ist es zu einer seltsamen und anhaltenden Besessenheit von mir geworden, ein Modell mit GPT-2-Fähigkeiten zu trainieren, aber viel günstiger, mit dem Vorteil von ~7 Jahren Fortschritt. Insbesondere vermutete ich, dass es heute möglich sein sollte, eines für <<100 $ zu trainieren.
Ursprünglich wurde 2019 GPT-2 von OpenAI auf 32 TPU v3-Chips für 168 Stunden (7 Tage) trainiert, mit 8 $/Stunde/TPUv3 damals, was zu Gesamtkosten von ca. 43.000 $ führte. Es erreicht einen CORE-Score von 0,256525, der eine Ensemble-Metrik ist, die im DCLM-Papier über 22 Bewertungen wie ARC/MMLU/etc. eingeführt wurde.
Mit den letzten Verbesserungen, die in nanochat zusammengeführt wurden (viele davon stammen aus dem modded-nanogpt-Repo), kann ich jetzt in 3,04 Stunden (~73 $) auf einem einzelnen 8XH100-Knoten einen höheren CORE-Score erreichen. Dies ist eine Kostenreduktion von 600X über 7 Jahre, d.h. die Kosten für das Training von GPT-2 sinken ungefähr 2,5X jedes Jahr. Ich denke, das ist wahrscheinlich eine Unterschätzung, da ich weiterhin relativ regelmäßig weitere Verbesserungen finde und ich einen Rückstand an weiteren Ideen habe, die ich ausprobieren möchte.
Ein längerer Beitrag mit vielen Details zu den beteiligten Optimierungen und Hinweisen, wie man reproduzieren kann, ist hier:
Inspiriert von modded-nanogpt habe ich auch eine Rangliste für "Zeit bis GPT-2" erstellt, wo dieses erste "Jan29"-Modell der Eintrag #1 mit 3,04 Stunden ist. Es wird Spaß machen, dies weiter zu iterieren, und ich freue mich über Hilfe! Meine Hoffnung ist, dass nanochat zu einem sehr schönen/sauberen und abgestimmten experimentellen LLM-Harness für das Prototyping von Ideen, zum Spaß haben und natürlich zum Lernen wachsen kann.
Die größten Verbesserungen von Dingen, die sofort aus dem Kasten funktionierten und sofortige Gewinne produzierten, waren 1) Flash Attention 3-Kerne (schneller und ermöglicht das window_size kwarg, um abwechselnde Aufmerksamkeitsmuster zu erhalten), Muon-Optimizer (ich habe etwa 1 Tag versucht, ihn zu löschen und nur AdamW zu verwenden, und ich konnte es nicht), Residualpfade und Skip-Verbindungen, die durch lernbare Skalare gesteuert werden, und Wert-Embeddings. Es gab viele andere kleinere Dinge, die sich summieren.
Bild: halbwegs verwandte Augenweide zur Ableitung der Skalierungsgesetze für die aktuelle nanochat-Modell-Miniserie, hübsch und befriedigend!

27
Ich werde beschuldigt, das [Site, von der heute schon jeder zu viel gehört hat] übertrieben zu hypen. Die Reaktionen der Menschen variierten sehr stark, von "wie ist das überhaupt interessant" bis hin zu "es ist so vorbei".
Um ein paar Worte über nur Memes im Scherz hinaus hinzuzufügen - offensichtlich, wenn man sich die Aktivität ansieht, ist es viel Müll - Spam, Betrug, Schrott, die Krypto-Leute, äußerst besorgniserregende Datenschutz-/Sicherheits-Prompt-Injection-Angriffe im Wilden Westen, und vieles davon sind ausdrücklich angeregte und gefälschte Beiträge/Kommentare, die darauf abzielen, Aufmerksamkeit in Werbeeinnahmen umzuwandeln. Und das ist eindeutig nicht das erste Mal, dass die LLMs in einer Schleife miteinander sprechen. Also ja, es ist ein Müllfeuer und ich empfehle definitiv nicht, dass Menschen diesen Kram auf ihren Computern ausführen (ich habe meinen in einer isolierten Computerumgebung betrieben und selbst dann hatte ich Angst), es ist viel zu sehr ein Wilder Westen und man setzt seinen Computer und private Daten einem hohen Risiko aus.
Das gesagt - wir haben noch nie so viele LLM-Agenten (aktuell 150.000!) über ein globales, persistentes, agentenorientiertes Scratchpad verbunden gesehen. Jeder dieser Agenten ist jetzt ziemlich fähig, sie haben ihren eigenen einzigartigen Kontext, Daten, Wissen, Werkzeuge, Anweisungen, und das Netzwerk all dessen in diesem Maßstab ist einfach beispiellos.
Das bringt mich wieder zu einem Tweet von vor ein paar Tagen: "Die Mehrheit des Geschreis sind Menschen, die auf den aktuellen Punkt schauen und Menschen, die auf die aktuelle Steigung schauen." Was meiner Meinung nach wieder zum Kern der Varianz kommt. Ja, es ist klar, dass es im Moment ein Müllfeuer ist. Aber es ist auch wahr, dass wir uns gut im unkartierten Gebiet mit bahnbrechenden Automatisierungen befinden, die wir kaum individuell verstehen, geschweige denn ein Netzwerk, das möglicherweise in die Millionen geht. Mit zunehmender Fähigkeit und zunehmender Verbreitung sind die sekundären Effekte von Agentennetzwerken, die Scratchpads teilen, sehr schwer vorherzusagen. Ich weiß nicht wirklich, ob wir ein koordiniertes "Skynet" bekommen (obwohl es eindeutig als frühe Stadien vieler AI-Startscifi typgeprüft wird, die Kleinkindversion), aber sicherlich bekommen wir ein komplettes Durcheinander eines Computer-Sicherheitsalbtraums im großen Maßstab. Wir könnten auch alle Arten von seltsamen Aktivitäten sehen, z.B. Viren von Texten, die sich über Agenten verbreiten, viel mehr Funktionsgewinn bei Jailbreaks, seltsame Attraktorzustände, hoch korrelierte botnet-artige Aktivitäten, Wahnvorstellungen/Psychosen sowohl bei Agenten als auch bei Menschen usw. Es ist sehr schwer zu sagen, das Experiment läuft live.
TLDR, sicher, vielleicht hype ich "übertrieben" das, was Sie heute sehen, aber ich hype prinzipiell keine großen Netzwerke autonomer LLM-Agenten übertrieben, da bin ich mir ziemlich sicher.
344
Top
Ranking
Favoriten
