DApp Store | Web3 Hub for hendelser og spill

Populære emner

0xFunky

BioMedical AI Oppstart - CTO / Kaggle Competition - Master / @GooseCityDAO / Gründer @codechainAI

Inspirert av Karpathys autoforskning lærte jeg VibeHQ å utvikle seg selv, ikke å utvikle en enkelt agent, men å utvikle hele multi-agent samarbeidsmetoden. 7 helautomatiske kjøringer uten manuell inngripen: • Tokenbruk: 7,2 millioner → 5,7 millioner (toppnedgang på 62 %) • Reduserte koordineringsrelaterte problemer (dobbeltarbeid osv...) :4 → 0 • PM-token-sløsing: -91 % Løkke: benchmark → samarbeidende kvantisering og LLM-analyse feilmodus → /optimize-protokoll omskriver koordineringskode → bygger opp → gjentar. AI-en ser på agentene som feiler i lagarbeidet, analyserer hvorfor den feilet, og endrer deretter sin egen kildekode for å koordinere samarbeidslogikken, uten noe manuelt arbeid gjennom hele prosessen, noe som fullstendig lar AI-en organisere sin egen lags tause forståelse. Etter å ha sett på de relevante tingene, optimaliserer autoresearch automatisk treningen av modellen, den forrige Ralph var en autonom løkke av en enkelt agent, og Gastown kjørte 20-30 Claude Code samtidig orkestrering, men har ikke evnen til å utvikle seg, disse er veldig sterke, men senere utvikler de også evnene til en enkelt agent. Ingen utvikler teamwork selv, hvordan man deler arbeid, hvordan unngå konflikter, hvordan man deler kontekst, og hvordan man åpner blokkeringen for hverandre. Tenk deg hva denne tingen ville blitt hvis den løp av gårde: • Agentene utvikler sin egen teamkultur og arbeidskjemi. • Tilpasse seg hvert prosjekt, og tildele et team på 3 eller 7 personer basert på prosjektutviklingsnivå. • Jo flere prosjekter dere gjør sammen, desto sterkere er teamet deres. • Agenter kan ta inn nye lagkamerater mens prosjektet pågår, og automatisk omfordele arbeid. Seriøst, hva vil det utvikle seg til til slutt? Jeg vet ikke, men dette er den mest spennende delen.

For tre dager siden forlot jeg autoresearch tuning nanochat i ~2 dager på depth=12-modellen. Den fant ~20 endringer som forbedret valideringstapet. Jeg testet disse endringene i går, og alle var additive og overført til større (dybde=24) modeller. Når man legger sammen alle disse endringene, målte jeg i dag at ledertavlens «Tid til GPT-2» går ned fra 2,02 timer til 1,80 timer (~11 % forbedring), dette blir den nye topplisteoppføringen. Så ja, dette er reelle forbedringer og de gjør en reell forskjell. Jeg er litt overrasket over at mitt aller første naive forsøk allerede fungerte så bra, i tillegg til det jeg trodde var et ganske manuelt godt tilpasset prosjekt. Dette er første gang for meg fordi jeg er veldig vant til å gjøre iterativ optimalisering av nevrale nettverkstrening manuelt. Du kommer opp med ideer, du implementerer dem, sjekker om de fungerer (bedre tap av validering), du kommer opp med nye ideer basert på det, du leser noen artikler for inspirasjon, osv. Dette er grunnlaget for det jeg gjør daglig i to tiår. Å se agenten gjøre hele denne arbeidsflyten fra ende til ende og helt alene mens den jobbet seg gjennom omtrent 700 endringer autonomt, er helt vilt. Den så virkelig på rekkefølgen av resultater fra eksperimenter og brukte det til å planlegge de neste. Det er ikke ny, banebrytende «forskning» (enda), men alle justeringene er «ekte», jeg fant dem ikke manuelt tidligere, og de holder seg opp og forbedret faktisk nanochat. Blant de større tingene, for eksempel: - Den oppdaget en glipp at min parameterløse QKnorm ikke hadde en skaler-multiplikator festet, så oppmerksomheten min var for spredt. Agenten fant multiplikatorer for å skjerpe den, og pekte på fremtidig arbeid. - Den fant ut at Value Embeddings virkelig liker regularisering, og jeg brukte ingen (oops). - Den fant ut at min båndede oppmerksomhet var for konservativ (jeg glemte å stemme den). - Den fant ut at AdamW-betaer var helt ødelagte. - Den justerte vektnedbrytningsplanen. - Den justerte nettverksinitialiseringen. Dette kommer i tillegg til all tuning jeg allerede har gjort over lang tid. Den eksakte commit er her, fra denne "runde 1" av autoresearch. Jeg skal starte «runde 2», og parallelt ser jeg på hvordan flere agenter kan samarbeide for å låse opp parallellisme. Alle LLM Frontier-laboratorier gjør dette. Det er den siste bosskampen. Det er selvfølgelig mye mer komplekst i stor skala – du har ikke bare ett enkelt tog. PY-filen skal justeres. Men å gjøre det er «bare ingeniørkunst» og det kommer til å fungere. Du setter sammen en sverm av agenter, får dem til å samarbeide for å finjustere mindre modeller, du promoterer de mest lovende ideene til stadig større skalaer, og mennesker bidrar (valgfritt) på kantene. Og mer generelt kan *enhver* måling du bryr deg om som er rimelig effektiv å evaluere (eller som har mer effektive proxy-målinger som å trene et mindre nettverk) forskes automatisk av en agentsverm. Det er verdt å tenke på om problemet ditt også faller inn under denne kategorien.

Topp

Rangering

Favoritter