Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Start up - CTO / Kaggle Competition - Mestrado / @GooseCityDAO / Fundador @codechainAI
Estes dias têm sido realmente incríveis
"O trabalho manual de criação de layouts na front-end basicamente já acabou"
AI + Figma é como se estivesse a usar um cheat, encontrando o método certo para rapidamente criar layouts quase idênticos ao Figma, e sem precisar de fazer nada manualmente, ainda podendo modificar em ambas as direções.
Antigamente, o que mais me tomava tempo era a criação de layouts, a minha obsessão podia fazer-me passar o dia todo a trabalhar nisso, agora a AI termina em poucos minutos, e a fidelidade é tão alta que é inacreditável...
Agradeço por viver nesta era.
160
Inspirado pela autoresearch de Karpathy, fiz com que o VibeHQ aprendesse a autoevoluir, não apenas evoluindo um único agente, mas a forma como toda a colaboração entre Múltiplos Agentes evolui.
7 execuções totalmente automáticas, zero intervenção humana:
• Uso de Token: 7.2M → 5.7M (pico reduzido em 62%)
• Problemas de coordenação reduzidos (ocorrências de trabalho duplicado, etc.): 4 → 0
• Desperdício de token PM: -91%
Ciclo: benchmark → quantificação da colaboração e análise de falhas do LLM → /optimize-protocol reescrever o código de coordenação → reconstruir → repetir.
A IA observa o fracasso da colaboração da equipe de agentes, analisa por que falhou e, em seguida, modifica seu próprio código-fonte para coordenar a lógica de colaboração, tudo isso sem intervenção humana, permitindo que a IA organize sua própria sinergia de equipe.
Dando uma olhada em coisas relacionadas, a autoresearch está otimizando automaticamente o treinamento do Modelo, o Ralph anterior era um ciclo autônomo de um único agente, o Gastown executa simultaneamente 20-30 códigos Claude para orquestração, mas não possui capacidade de evolução, tudo isso é impressionante, mas no final também está evoluindo a capacidade de um único agente.
Ninguém está evoluindo a colaboração em equipe em si, como dividir o trabalho, como evitar conflitos, como compartilhar contexto, como se desbloquear mutuamente, assim como no mundo real, a equipe de IA também precisa de ajuste.
Imagine como isso se desenvolverá:
• Os Agentes desenvolvem sua própria cultura de equipe e sinergia de trabalho.
• Adaptam-se conforme o projeto, alocando uma equipe de 3 ou 7 pessoas de acordo com o nível de desenvolvimento do projeto.
• Quanto mais projetos forem realizados juntos, mais forte será a equipe.
• Os Agentes podem integrar novos membros durante o andamento do projeto, redistribuindo automaticamente o trabalho.
Sinceramente, o que isso acabará evoluindo? Eu também não sei, mas essa é a parte mais empolgante.


Andrej Karpathy10/03, 06:28
Há três dias, deixei o autoresearch a ajustar o nanochat por ~2 dias no modelo depth=12. Ele encontrou ~20 alterações que melhoraram a perda de validação. Testei essas alterações ontem e todas elas foram aditivas e transferidas para modelos maiores (depth=24). Acumulando todas essas mudanças, hoje medi que o "Tempo para GPT-2" do leaderboard caiu de 2,02 horas para 1,80 horas (~11% de melhoria), esta será a nova entrada no leaderboard. Portanto, sim, estas são melhorias reais e fazem uma diferença real. Estou levemente surpreso que minha primeira tentativa ingênua já funcionou tão bem em cima do que eu pensava ser um projeto já bem ajustado manualmente.
Isso é uma novidade para mim, porque estou muito acostumado a fazer a otimização iterativa do treinamento de redes neurais manualmente. Você tem ideias, as implementa, verifica se funcionam (melhor perda de validação), gera novas ideias com base nisso, lê alguns artigos para inspiração, etc, etc. Este é o pão com manteiga do que faço diariamente há 2 décadas. Ver o agente fazer todo esse fluxo de trabalho do início ao fim e tudo por conta própria enquanto trabalhava em aproximadamente 700 mudanças de forma autônoma é incrível. Ele realmente analisou a sequência de resultados dos experimentos e usou isso para planejar os próximos. Não é uma "pesquisa" nova e revolucionária (ainda), mas todos os ajustes são "reais", eu não os encontrei manualmente antes, e eles se acumulam e realmente melhoraram o nanochat. Entre as coisas maiores, por exemplo:
- Ele notou uma falha que meu QKnorm sem parâmetros não tinha um multiplicador de escala anexado, então minha atenção estava muito difusa. O agente encontrou multiplicadores para afiná-la, apontando para trabalhos futuros.
- Ele descobriu que as Value Embeddings realmente gostam de regularização e eu não estava aplicando nenhuma (oops).
- Ele descobriu que minha atenção em bandas era muito conservadora (esqueci de ajustá-la).
- Ele descobriu que os betas do AdamW estavam todos bagunçados.
- Ele ajustou o cronograma de decaimento de peso.
- Ele ajustou a inicialização da rede.
Isso é além de todo o ajuste que já fiz ao longo de um bom tempo. O commit exato está aqui, desta "rodada 1" de autoresearch. Vou iniciar a "rodada 2" e, em paralelo, estou analisando como múltiplos agentes podem colaborar para desbloquear o paralelismo.
Todos os laboratórios de fronteira de LLM farão isso. É a batalha final do chefe. É muito mais complexo em escala, claro - você não tem apenas um único arquivo train.py para ajustar. Mas fazê-lo é "apenas engenharia" e vai funcionar. Você ativa um enxame de agentes, faz com que colaborem para ajustar modelos menores, promove as ideias mais promissoras para escalas cada vez maiores, e humanos (opcionalmente) contribuem nas bordas.
E, de forma mais geral, *qualquer* métrica que você se preocupe que seja razoavelmente eficiente para avaliar (ou que tenha métricas proxy mais eficientes, como treinar uma rede menor) pode ser autoresearchada por um enxame de agentes. Vale a pena pensar se seu problema também se enquadra nesse grupo.

277
Esta é a melhor e mais ansiosa época.
As taxas de assinatura das ferramentas de IA estão cada vez mais caras a cada mês, o GPT-5.4 saiu e, após testes, realmente se saiu bem, então fiz a atualização diretamente. O Claude deve estar no Max 20x a todo vapor, e o Google também assinou o plano Ultra, principalmente para usar o Antigravity para rodar o Claude Opus 4.6.
Agora, a eficiência de desenvolvimento diária não é do mesmo nível. Nos últimos dias, estive focado em otimizar meu próprio framework de múltiplos agentes, o VibHQ, e com esse framework criei uma plataforma que funciona tanto em celulares quanto em computadores para gerenciar todos os Cli Agents, permitindo usar o codex e o Claude code remotamente no celular sem precisar abrir uma sessão remota.
Já usei isso para vários Projetos Teams, incluindo a equipe de otimização de estratégia do PM Bot, onde a IA planeja, executa e faz QA sozinha. Agora, esse framework está lentamente se aproximando da minha visão sobre Multi-Agents, e o próximo passo é coletar mais dados para otimizar todo o framework.
Uma empresa unipessoal, com uma equipe profissional de engenharia de IA inteira.
308
Top
Classificação
Favoritos
