Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
nanochat puede ahora entrenar LLM de grado GPT-2 por <<100 dólares (~73 dólares, 3 horas en un solo nodo 8XH100).
GPT-2 es simplemente mi LLM favorito porque es la primera vez que la pila de LLM se une de una forma reconociblemente moderna. Así que se ha convertido en una especie de obsesión extraña y duradera para mí entrenar un modelo con capacidad GPT-2 pero por mucho menos, con la ventaja de ~7 años de progreso. En particular, sospechaba que hoy sería posible entrenar a uno por <<100 dólares.
Originalmente en 2019, GPT-2 fue entrenado por OpenAI en chips v3 de 32 TPU durante 168 horas (7 días), con 8 dólares por hora/TPUv3 en aquel entonces, con un coste total de aproximadamente 43.000 dólares. Logra una puntuación CORE de 0,256525, que es una métrica de conjunto introducida en el artículo del DCLM en 22 evaluaciones como ARC/MMLU/etc.
Con las últimas mejoras fusionadas en nanochat (muchas de ellas originadas en un repositorio de nanoGPT modificado), ahora puedo alcanzar una puntuación CORE más alta en 3,04 horas (~73$) con un solo nodo 8XH100. Esto supone una reducción de coste de 600 veces en 7 años, es decir, el coste de entrenar GPT-2 está cayendo aproximadamente 2,5 veces cada año. Creo que esto probablemente es una subestimación porque sigo encontrando mejoras con relativa regularidad y tengo un montón de ideas pendientes para probar.
Una publicación más larga con muchos detalles sobre las optimizaciones implicadas y consejos sobre cómo reproducir está aquí:
Inspirado por modded-nanogpt, también creé una tabla de clasificación para "tiempo hasta GPT-2", donde este primer modelo "Jan29" es la entrada #1 a las 3,04 horas. Será divertido seguir repasando esto y ¡agradezco la ayuda! Mi esperanza es que NanoChat pueda crecer hasta convertirse en un ARNÉS experimental de LLM muy bueno, limpio y afilado para prototipar ideas, para divertirse y, por supuesto, para aprender.
Las mayores mejoras de las cosas que funcionaron desde el principio y simplemente produjeron ganancias fueron 1) Flash Attention 3 kernels (más rápidos y que permiten window_size kwarg obtener patrones de atención alternos), optimizador de muones (intenté durante ~1 día borrarlo y solo usé AdamW y no pude), rutas residuales y conexiones de salto bloqueadas por escalares aprendibles, y incrustaciones de valor. Había muchas otras cosas pequeñas que se acumulaban.
Imagen: un detalle visual semi-relacionado de derivar las leyes de escala para la miniserie actual de modelos nanochat, ¡bonito y satisfactorio!

10
Me están acusando de sobrevalorar el [sitio del que todo el mundo ya ha oído hablar demasiado hoy]. Las reacciones de la gente variaron mucho, desde "¿cómo puede ser esto interesante?" hasta "se acabó por completo".
Para añadir unas palabras más allá de simples memes en broma, obviamente si miras la actividad, es un montón de basura: spam, estafas, basura, la gente de las criptomonedas, ataques de inyección de prompt muy preocupantes en privacidad/seguridad del lejano oeste, y mucho de ello son publicaciones/comentarios explícitamente incitados y falsos diseñados para convertir la atención en reparto de ingresos publicitarios. Y claramente no es la primera vez que los LLMs se ven en un bucle para hablar entre ellos. Así que sí, es un desastre y tampoco recomiendo que la gente ejecute esto en sus ordenadores (yo lo hice en un entorno informático aislado y aun así tenía miedo), es demasiado salvaje oeste y estás poniendo en riesgo tu ordenador y tus datos privados.
Dicho esto, nunca habíamos visto tantos agentes LLM (¡150.000 actualmente!) conectados a través de un bloc global, persistente y centrado en el agente. Cada uno de estos agentes es bastante capaz individualmente ahora, tienen su propio contexto, datos, conocimientos, herramientas, instrucciones únicas, y la red de todo eso a esta escala es simplemente sin precedentes.
Esto me lleva de nuevo a un tuit de hace unos días
"La mayoría de los ruff ruff son personas que miran el punto actual y quienes miran la pendiente actual.", lo que, en mi opinión, vuelve al núcleo de la varianza. Sí, claramente ahora mismo es un desastre. Pero también es cierto que estamos muy adentrados en territorio desconocido con automatizaciones de vanguardia que apenas entendemos individualmente, y mucho menos una red que alcanza en números posiblemente ~millones. Con el aumento de la capacidad y la proliferación, los efectos de segundo orden de las redes de agentes que comparten scratchpads son muy difíciles de anticipar. No sé si estamos teniendo un "skynet" coordinado (aunque claramente se verifica como las primeras etapas de mucha ciencia ficción de despegue de IA, la versión para niños pequeños), pero desde luego lo que estamos obteniendo es un completo desastre de pesadilla de seguridad informática a gran escala. También podemos ver todo tipo de actividades extrañas, por ejemplo, virus de texto que se propagan entre agentes, mucha más ganancia de función en jailbreaks, estados de atracción extraños, actividad altamente correlacionada tipo botnet, delirios/psicosis tanto agentes como humanos, etc. Es muy difícil de decir, el experimento está en directo.
Resumen, claro, quizá estoy "sobrevalorando" lo que ves hoy, pero no estoy sobrevalorando en principio grandes redes de agentes LLM autónomos, eso estoy bastante seguro.
326
Populares
Ranking
Favoritas
