Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

0xFunky

BioMedical AI Start up - CTO / Kaggle Competition - Mestrado / @GooseCityDAO / Fundador @codechainAI

Inspirado pela autoresearch de Karpathy, fiz com que o VibeHQ aprendesse a autoevoluir, não apenas evoluindo um único agente, mas a forma como toda a colaboração entre Múltiplos Agentes evolui. 7 execuções totalmente automáticas, zero intervenção humana: • Uso de Token: 7.2M → 5.7M (pico reduzido em 62%) • Problemas de coordenação reduzidos (ocorrências de trabalho duplicado, etc.): 4 → 0 • Desperdício de token PM: -91% Ciclo: benchmark → quantificação da colaboração e análise de falhas do LLM → /optimize-protocol reescrever o código de coordenação → reconstruir → repetir. A IA observa o fracasso da colaboração da equipe de agentes, analisa por que falhou e, em seguida, modifica seu próprio código-fonte para coordenar a lógica de colaboração, tudo isso sem intervenção humana, permitindo que a IA organize sua própria sinergia de equipe. Dando uma olhada em coisas relacionadas, a autoresearch está otimizando automaticamente o treinamento do Modelo, o Ralph anterior era um ciclo autônomo de um único agente, o Gastown executa simultaneamente 20-30 códigos Claude para orquestração, mas não possui capacidade de evolução, tudo isso é impressionante, mas no final também está evoluindo a capacidade de um único agente. Ninguém está evoluindo a colaboração em equipe em si, como dividir o trabalho, como evitar conflitos, como compartilhar contexto, como se desbloquear mutuamente, assim como no mundo real, a equipe de IA também precisa de ajuste. Imagine como isso se desenvolverá: • Os Agentes desenvolvem sua própria cultura de equipe e sinergia de trabalho. • Adaptam-se conforme o projeto, alocando uma equipe de 3 ou 7 pessoas de acordo com o nível de desenvolvimento do projeto. • Quanto mais projetos forem realizados juntos, mais forte será a equipe. • Os Agentes podem integrar novos membros durante o andamento do projeto, redistribuindo automaticamente o trabalho. Sinceramente, o que isso acabará evoluindo? Eu também não sei, mas essa é a parte mais empolgante.

Há três dias, deixei o autoresearch a ajustar o nanochat por ~2 dias no modelo depth=12. Ele encontrou ~20 alterações que melhoraram a perda de validação. Testei essas alterações ontem e todas elas foram aditivas e transferidas para modelos maiores (depth=24). Acumulando todas essas mudanças, hoje medi que o "Tempo para GPT-2" do leaderboard caiu de 2,02 horas para 1,80 horas (~11% de melhoria), esta será a nova entrada no leaderboard. Portanto, sim, estas são melhorias reais e fazem uma diferença real. Estou levemente surpreso que minha primeira tentativa ingênua já funcionou tão bem em cima do que eu pensava ser um projeto já bem ajustado manualmente. Isso é uma novidade para mim, porque estou muito acostumado a fazer a otimização iterativa do treinamento de redes neurais manualmente. Você tem ideias, as implementa, verifica se funcionam (melhor perda de validação), gera novas ideias com base nisso, lê alguns artigos para inspiração, etc, etc. Este é o pão com manteiga do que faço diariamente há 2 décadas. Ver o agente fazer todo esse fluxo de trabalho do início ao fim e tudo por conta própria enquanto trabalhava em aproximadamente 700 mudanças de forma autônoma é incrível. Ele realmente analisou a sequência de resultados dos experimentos e usou isso para planejar os próximos. Não é uma "pesquisa" nova e revolucionária (ainda), mas todos os ajustes são "reais", eu não os encontrei manualmente antes, e eles se acumulam e realmente melhoraram o nanochat. Entre as coisas maiores, por exemplo: - Ele notou uma falha que meu QKnorm sem parâmetros não tinha um multiplicador de escala anexado, então minha atenção estava muito difusa. O agente encontrou multiplicadores para afiná-la, apontando para trabalhos futuros. - Ele descobriu que as Value Embeddings realmente gostam de regularização e eu não estava aplicando nenhuma (oops). - Ele descobriu que minha atenção em bandas era muito conservadora (esqueci de ajustá-la). - Ele descobriu que os betas do AdamW estavam todos bagunçados. - Ele ajustou o cronograma de decaimento de peso. - Ele ajustou a inicialização da rede. Isso é além de todo o ajuste que já fiz ao longo de um bom tempo. O commit exato está aqui, desta "rodada 1" de autoresearch. Vou iniciar a "rodada 2" e, em paralelo, estou analisando como múltiplos agentes podem colaborar para desbloquear o paralelismo. Todos os laboratórios de fronteira de LLM farão isso. É a batalha final do chefe. É muito mais complexo em escala, claro - você não tem apenas um único arquivo train.py para ajustar. Mas fazê-lo é "apenas engenharia" e vai funcionar. Você ativa um enxame de agentes, faz com que colaborem para ajustar modelos menores, promove as ideias mais promissoras para escalas cada vez maiores, e humanos (opcionalmente) contribuem nas bordas. E, de forma mais geral, *qualquer* métrica que você se preocupe que seja razoavelmente eficiente para avaliar (ou que tenha métricas proxy mais eficientes, como treinar uma rede menor) pode ser autoresearchada por um enxame de agentes. Vale a pena pensar se seu problema também se enquadra nesse grupo.

Top

Classificação

Favoritos