Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construção @EurekaLabsAI. Anteriormente Diretor de IA @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.
o nanochat agora pode treinar um LLM de grau GPT-2 por <<$100 (~$73, 3 horas em um único nó 8XH100).
O GPT-2 é apenas o meu LLM favorito porque é a primeira vez que a pilha de LLM se junta em uma forma reconhecivelmente moderna. Portanto, tornou-se uma espécie de obsessão estranha e duradoura para mim treinar um modelo com capacidade de GPT-2, mas por muito mais barato, com o benefício de ~7 anos de progresso. Em particular, suspeitei que deveria ser possível hoje treinar um por <<$100.
Originalmente, em 2019, o GPT-2 foi treinado pela OpenAI em 32 chips TPU v3 por 168 horas (7 dias), a $8/hora/TPUv3 na época, totalizando aproximadamente $43K. Ele alcança uma pontuação CORE de 0.256525, que é uma métrica de conjunto introduzida no artigo DCLM em mais de 22 avaliações como ARC/MMLU/etc.
Com as últimas melhorias incorporadas ao nanochat (muitas delas originadas no repositório modded-nanogpt), agora posso alcançar uma pontuação CORE mais alta em 3.04 horas (~$73) em um único nó 8XH100. Isso representa uma redução de custo de 600X ao longo de 7 anos, ou seja, o custo para treinar o GPT-2 está caindo aproximadamente 2.5X a cada ano. Acho que isso é provavelmente uma subestimação porque ainda estou encontrando mais melhorias relativamente regularmente e tenho uma lista de ideias para experimentar.
Um post mais longo com muitos detalhes das otimizações envolvidas e dicas sobre como reproduzir está aqui:
Inspirado pelo modded-nanogpt, também criei uma tabela de classificação para "tempo até o GPT-2", onde este primeiro modelo "Jan29" é a entrada #1 com 3.04 horas. Será divertido iterar mais sobre isso e eu acolho ajuda! Minha esperança é que o nanochat possa crescer para se tornar um LLM experimental muito bonito/limpo e ajustado para prototipar ideias, para se divertir e, claro, para aprender.
As maiores melhorias de coisas que funcionaram imediatamente e simplesmente produziram ganhos foram 1) núcleos de Flash Attention 3 (mais rápidos e permitem o argumento window_size kwarg para obter padrões de atenção alternados), otimizador Muon (tentei por ~1 dia deletá-lo e usar apenas AdamW e não consegui), caminhos residuais e conexões de salto controladas por escalares aprendíveis, e embeddings de valor. Houve muitas outras coisas menores que se acumulam.
Imagem: doce visual semi-relacionado de derivar as leis de escalonamento para a atual minissérie do modelo nanochat, bonita e satisfatória!

22
Estou a ser acusado de exagerar o [site de que todos ouviram falar demais hoje]. As reações das pessoas variaram muito, desde "como é que isto é interessante de alguma forma" até "já acabou".
Para adicionar algumas palavras além de apenas memes em tom de brincadeira - obviamente, quando olhamos para a atividade, é muito lixo - spams, fraudes, desordem, as pessoas do cripto, ataques de injeção de prompts de privacidade/segurança altamente preocupantes, e muito disso é explicitamente promovido e posts/comentários falsos projetados para converter atenção em compartilhamento de receita publicitária. E isto claramente não é a primeira vez que os LLMs foram colocados em um loop para conversar entre si. Portanto, sim, é um incêndio de lixo e eu definitivamente não recomendo que as pessoas executem essas coisas em seus computadores (eu executei o meu em um ambiente de computação isolado e mesmo assim fiquei assustado), é um faroeste demais e você está colocando seu computador e dados privados em alto risco.
Dito isso - nunca vimos tantos agentes LLM (150.000 atm!) conectados através de um bloco de notas global, persistente e centrado em agentes. Cada um desses agentes é bastante capaz individualmente agora, eles têm seu próprio contexto, dados, conhecimento, ferramentas, instruções, e a rede de tudo isso em tal escala é simplesmente sem precedentes.
Isso me traz novamente a um tweet de alguns dias atrás
"A maioria do barulho é de pessoas que olham para o ponto atual e pessoas que olham para a inclinação atual.", que na minha opinião novamente chega ao cerne da variação. Sim, claramente é um incêndio de lixo agora. Mas também é verdade que estamos bem em território desconhecido com automações de ponta que mal entendemos individualmente, quanto mais uma rede que possivelmente atinge números de ~milhões. Com a capacidade crescente e a proliferação crescente, os efeitos de segunda ordem das redes de agentes que compartilham blocos de notas são muito difíceis de antecipar. Não sei realmente se estamos a obter um "skynet" coordenado (embora claramente se encaixe nas primeiras etapas de muito sci-fi sobre a ascensão da IA, a versão de bebê), mas certamente o que estamos a obter é uma completa bagunça de um pesadelo de segurança informática em escala. Também podemos ver todo tipo de atividade estranha, por exemplo, vírus de texto que se espalham entre agentes, muito mais ganho de função em jailbreaks, estados de atratores estranhos, atividade altamente correlacionada como botnets, delírios/psicose tanto de agentes quanto humanos, etc. É muito difícil de dizer, o experimento está a correr ao vivo.
Resumindo, talvez eu esteja "exagerando" o que você vê hoje, mas não estou a exagerar redes grandes de agentes LLM autônomos em princípio, disso tenho certeza.
338
Top
Classificação
Favoritos
