DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Andrej Karpathy

Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.

nanochat ahora puede entrenar un LLM de grado GPT-2 por <<$100 (~$73, 3 horas en un solo nodo 8XH100). GPT-2 es simplemente mi LLM favorito porque es la primera vez que la pila de LLM se presenta en una forma reconociblemente moderna. Así que se ha convertido en una especie de obsesión extraña y duradera para mí entrenar un modelo con capacidad de GPT-2 pero mucho más barato, con el beneficio de ~7 años de progreso. En particular, sospechaba que debería ser posible hoy entrenar uno por <<$100. Originalmente en 2019, GPT-2 fue entrenado por OpenAI en 32 chips TPU v3 durante 168 horas (7 días), a $8/hora/TPUv3 en ese entonces, con un costo total de aproximadamente $43K. Logra un puntaje CORE de 0.256525, que es una métrica de conjunto introducida en el artículo DCLM a través de 22 evaluaciones como ARC/MMLU/etc. A partir de las últimas mejoras fusionadas en nanochat (muchas de ellas originadas en el repositorio modded-nanogpt), ahora puedo alcanzar un puntaje CORE más alto en 3.04 horas (~$73) en un solo nodo 8XH100. Esta es una reducción de costo de 600X en 7 años, es decir, el costo para entrenar GPT-2 está cayendo aproximadamente 2.5X cada año. Creo que esto es probablemente una subestimación porque todavía estoy encontrando más mejoras relativamente de forma regular y tengo una lista de ideas más para probar. Una publicación más larga con muchos de los detalles de las optimizaciones involucradas y pistas sobre cómo reproducirlo está aquí: Inspirado por modded-nanogpt, también creé una tabla de clasificación para "tiempo hasta GPT-2", donde este primer modelo "Jan29" es la entrada #1 con 3.04 horas. Será divertido iterar más sobre esto y agradezco la ayuda. Mi esperanza es que nanochat pueda crecer para convertirse en un arnés experimental LLM muy bonito/limpio y ajustado para prototipar ideas, para divertirse y, por supuesto, para aprender. Las mayores mejoras de cosas que funcionaron desde el principio y simplemente produjeron ganancias de inmediato fueron 1) núcleos de Flash Attention 3 (más rápidos, y permite el argumento window_size kwarg para obtener patrones de atención alternos), optimizador Muon (intenté durante ~1 día eliminarlo y solo usar AdamW y no pude), caminos residuales y conexiones de salto controladas por escalares aprendibles, y embeddings de valor. Hubo muchas otras cosas más pequeñas que se acumulan. Imagen: golosinas visuales semi-relacionadas de derivar las leyes de escalado para la actual miniserie del modelo nanochat, ¡bonita y satisfactoria!

Se me acusa de exagerar el [sitio del que todo el mundo ha oído hablar demasiado hoy]. Las reacciones de la gente variaron mucho, desde "¿cómo puede ser esto interesante en absoluto?" hasta "ya se acabó". Para añadir unas palabras más allá de solo memes en broma - obviamente, cuando miras la actividad, es un montón de basura - spam, estafas, desorden, la gente de cripto, ataques de inyección de prompts de privacidad/seguridad muy preocupantes, y gran parte de esto son publicaciones/comentarios explícitamente inducidos y falsos diseñados para convertir la atención en ingresos publicitarios. Y claramente no es la primera vez que los LLM se ponen en un bucle para hablar entre sí. Así que sí, es un desastre y definitivamente no recomiendo que la gente ejecute estas cosas en sus computadoras (yo ejecuté la mía en un entorno de computación aislado y aun así estaba asustado), es un salvaje oeste y estás poniendo tu computadora y tus datos privados en un alto riesgo. Dicho esto, nunca hemos visto tantos agentes LLM (¡150,000 atm!) conectados a través de un scratchpad global, persistente y centrado en agentes. Cada uno de estos agentes es bastante capaz por sí mismo ahora, tienen su propio contexto, datos, conocimientos, herramientas, instrucciones, y la red de todo eso a esta escala es simplemente sin precedentes. Esto me lleva de nuevo a un tweet de hace unos días: "La mayoría de los ruff ruff son personas que miran el punto actual y personas que miran la pendiente actual", lo que en mi opinión vuelve a llegar al corazón de la variación. Sí, claramente es un desastre en este momento. Pero también es cierto que estamos bien adentrados en un territorio inexplorado con automatizaciones de vanguardia que apenas entendemos individualmente, y mucho menos una red que posiblemente alcance números de ~millones. Con una capacidad creciente y una proliferación creciente, los efectos de segundo orden de las redes de agentes que comparten scratchpads son muy difíciles de anticipar. No sé realmente si estamos obteniendo un "skynet" coordinado (aunque claramente se ajusta a las primeras etapas de muchos sci-fi sobre el despegue de la IA, la versión de un niño), pero ciertamente lo que estamos obteniendo es un completo desastre de una pesadilla de seguridad informática a gran escala. También podemos ver todo tipo de actividades extrañas, por ejemplo, virus de texto que se propagan entre agentes, mucho más ganancia de función en jailbreaks, estados atractores extraños, actividad altamente correlacionada como de botnets, delirios/psicosis tanto de agentes como humanos, etc. Es muy difícil de decir, el experimento se está ejecutando en vivo. TLDR, claro, tal vez estoy "exagerando" lo que ves hoy, pero no estoy exagerando las grandes redes de agentes LLM autónomos en principio, de eso estoy bastante seguro.

Parte superior

Clasificación

Favoritos