Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

nanochat puede ahora entrenar LLM de grado GPT-2 por <<100 dólares (~73 dólares, 3 horas en un solo nodo 8XH100). GPT-2 es simplemente mi LLM favorito porque es la primera vez que la pila de LLM se une de una forma reconociblemente moderna. Así que se ha convertido en una especie de obsesión extraña y duradera para mí entrenar un modelo con capacidad GPT-2 pero por mucho menos, con la ventaja de ~7 años de progreso. En particular, sospechaba que hoy sería posible entrenar a uno por <<100 dólares. Originalmente en 2019, GPT-2 fue entrenado por OpenAI en chips v3 de 32 TPU durante 168 horas (7 días), con 8 dólares por hora/TPUv3 en aquel entonces, con un coste total de aproximadamente 43.000 dólares. Logra una puntuación CORE de 0,256525, que es una métrica de conjunto introducida en el artículo del DCLM en 22 evaluaciones como ARC/MMLU/etc. Con las últimas mejoras fusionadas en nanochat (muchas de ellas originadas en un repositorio de nanoGPT modificado), ahora puedo alcanzar una puntuación CORE más alta en 3,04 horas (~73$) con un solo nodo 8XH100. Esto supone una reducción de coste de 600 veces en 7 años, es decir, el coste de entrenar GPT-2 está cayendo aproximadamente 2,5 veces cada año. Creo que esto probablemente es una subestimación porque sigo encontrando mejoras con relativa regularidad y tengo un montón de ideas pendientes para probar. Una publicación más larga con muchos detalles sobre las optimizaciones implicadas y consejos sobre cómo reproducir está aquí: Inspirado por modded-nanogpt, también creé una tabla de clasificación para "tiempo hasta GPT-2", donde este primer modelo "Jan29" es la entrada #1 a las 3,04 horas. Será divertido seguir repasando esto y ¡agradezco la ayuda! Mi esperanza es que NanoChat pueda crecer hasta convertirse en un ARNÉS experimental de LLM muy bueno, limpio y afilado para prototipar ideas, para divertirse y, por supuesto, para aprender. Las mayores mejoras de las cosas que funcionaron desde el principio y simplemente produjeron ganancias fueron 1) Flash Attention 3 kernels (más rápidos y que permiten window_size kwarg obtener patrones de atención alternos), optimizador de muones (intenté durante ~1 día borrarlo y solo usé AdamW y no pude), rutas residuales y conexiones de salto bloqueadas por escalares aprendibles, y incrustaciones de valor. Había muchas otras cosas pequeñas que se acumulaban. Imagen: un detalle visual semi-relacionado de derivar las leyes de escala para la miniserie actual de modelos nanochat, ¡bonito y satisfactorio!

Populares

Ranking

Favoritas