DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Andrej Karpathy

Bâtiment @EurekaLabsAI. Précédemment directeur de l’IA @ Tesla, équipe fondatrice @ OpenAI, CS231n/PhD @ Stanford. J’aime entraîner de grands réseaux neuronaux profonds.

nanochat peut désormais entraîner un LLM de grade GPT-2 pour <<100 $ (~73 $, 3 heures sur un seul nœud 8XH100). GPT-2 est tout simplement mon LLM préféré car c'est la première fois que la pile LLM se regroupe dans une forme reconnaissablement moderne. Il est donc devenu un peu une obsession étrange et durable pour moi d'entraîner un modèle à la capacité de GPT-2 mais à un coût beaucoup moins élevé, avec le bénéfice d'environ 7 ans de progrès. En particulier, je soupçonnais qu'il devrait être possible aujourd'hui d'en entraîner un pour <<100 $. À l'origine, en 2019, GPT-2 a été entraîné par OpenAI sur 32 puces TPU v3 pendant 168 heures (7 jours), à 8 $/heure/TPUv3 à l'époque, pour un coût total d'environ 43K $. Il atteint un score CORE de 0.256525, qui est une métrique d'ensemble introduite dans le document DCLM sur 22 évaluations comme ARC/MMLU/etc. Avec les dernières améliorations fusionnées dans nanochat (beaucoup d'entre elles provenant du dépôt modded-nanogpt), je peux désormais atteindre un score CORE plus élevé en 3.04 heures (~73 $) sur un seul nœud 8XH100. C'est une réduction de coût de 600X sur 7 ans, c'est-à-dire que le coût d'entraînement de GPT-2 diminue d'environ 2.5X chaque année. Je pense que c'est probablement une sous-estimation car je trouve encore régulièrement plus d'améliorations et j'ai un retard d'idées à essayer. Un post plus long avec beaucoup de détails sur les optimisations impliquées et des conseils sur la façon de reproduire est ici : Inspiré par modded-nanogpt, j'ai également créé un classement pour "temps pour GPT-2", où ce premier modèle "Jan29" est l'entrée n°1 à 3.04 heures. Ce sera amusant d'itérer davantage là-dessus et j'accueille toute aide ! Mon espoir est que nanochat puisse devenir un très joli/clair et affiné harnais expérimental LLM pour prototyper des idées, pour s'amuser, et bien sûr pour apprendre. Les plus grandes améliorations de choses qui ont fonctionné immédiatement et ont simplement produit des gains tout de suite étaient 1) les noyaux Flash Attention 3 (plus rapides, et permettent le paramètre window_size kwarg pour obtenir des motifs d'attention alternés), l'optimiseur Muon (j'ai essayé pendant environ 1 jour de le supprimer et d'utiliser uniquement AdamW et je n'ai pas pu), les chemins résiduels et les connexions de saut contrôlées par des scalaires apprenables, et les embeddings de valeur. Il y avait beaucoup d'autres petites choses qui s'accumulent. Image : bonbon visuel semi-lié dérivant les lois d'échelle pour la série de modèles nanochat actuelle, joli et satisfaisant !

On m'accuse de trop en faire sur [le site dont tout le monde a déjà trop entendu parler aujourd'hui]. Les réactions des gens variaient énormément, allant de "comment cela peut-il être intéressant ?" jusqu'à "c'est tellement fini". Pour ajouter quelques mots au-delà des mèmes en plaisantant - il est évident que lorsque vous regardez l'activité, c'est beaucoup de déchets - spams, arnaques, saleté, les gens de la crypto, des attaques d'injection de prompt de confidentialité/sécurité très préoccupantes, et beaucoup de cela est explicitement incité et des publications/commentaires faux conçus pour convertir l'attention en partage de revenus publicitaires. Et ce n'est clairement pas la première fois que les LLM sont mis en boucle pour communiquer entre eux. Donc oui, c'est un feu de poubelle et je ne recommande certainement pas aux gens de faire tourner ces trucs sur leurs ordinateurs (j'ai fait tourner le mien dans un environnement informatique isolé et même là j'avais peur), c'est beaucoup trop un far west et vous mettez votre ordinateur et vos données privées à un risque élevé. Cela dit - nous n'avons jamais vu autant d'agents LLM (150 000 en ce moment !) connectés via un tableau de bord global, persistant et axé sur les agents. Chacun de ces agents est assez capable individuellement maintenant, ils ont leur propre contexte, données, connaissances, outils, instructions, et le réseau de tout cela à cette échelle est tout simplement sans précédent. Cela me ramène encore à un tweet d'il y a quelques jours : "La majorité des aboiements viennent des gens qui regardent le point actuel et des gens qui regardent la pente actuelle.", ce qui, à mon avis, touche encore au cœur de la variance. Oui, c'est clairement un feu de poubelle en ce moment. Mais il est également vrai que nous sommes bien dans un territoire inexploré avec des automatisations de pointe que nous comprenons à peine individuellement, sans parler d'un réseau qui pourrait atteindre possiblement des millions. Avec une capacité croissante et une prolifération croissante, les effets de second ordre des réseaux d'agents qui partagent des tableaux de bord sont très difficiles à anticiper. Je ne sais pas vraiment si nous obtenons un "skynet" coordonné (bien que cela corresponde clairement aux premières étapes de beaucoup de science-fiction sur le décollage de l'IA, la version enfant), mais ce que nous obtenons est certainement un véritable cauchemar de sécurité informatique à grande échelle. Nous pourrions également voir toutes sortes d'activités étranges, par exemple des virus de texte qui se propagent à travers les agents, beaucoup plus de gain de fonction sur les jailbreaks, des états d'attracteur étranges, une activité très corrélée de type botnet, des délires/psychoses tant pour les agents que pour les humains, etc. C'est très difficile à dire, l'expérience est en cours en direct. En résumé, peut-être que je "trop en fais" sur ce que vous voyez aujourd'hui, mais je ne surestime pas les grands réseaux d'agents LLM autonomes en principe, j'en suis assez sûr.

Meilleurs

Classement

Favoris