Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Oppstart - CTO / Kaggle Competition - Master / @GooseCityDAO / Gründer @codechainAI
Det er veldig følelsesladet nå for tiden
"Den manuelle graveringen av fronten er i praksis over"
AI + Figma er som å åpne og henge, å finne riktig metode kan raskt gravere nesten samme versjon som Figma, og det kan endres i begge retninger uten manuell modifikasjon.
Tidligere brukte jeg mest tid på å gravere på gravering, noe som kunne slites i en hel dag under et OCD-anfall, men nå kan AI-en fullføre graveringen på noen få minutter, og graden av restaurering er fortsatt for høy...
Beundring ble født i denne epoken.
166
Inspirert av Karpathys autoforskning lærte jeg VibeHQ å utvikle seg selv, ikke å utvikle en enkelt agent, men å utvikle hele multi-agent samarbeidsmetoden.
7 helautomatiske kjøringer uten manuell inngripen:
• Tokenbruk: 7,2 millioner → 5,7 millioner (toppnedgang på 62 %)
• Reduserte koordineringsrelaterte problemer (dobbeltarbeid osv...) :4 → 0
• PM-token-sløsing: -91 %
Løkke: benchmark → samarbeidende kvantisering og LLM-analyse feilmodus → /optimize-protokoll omskriver koordineringskode → bygger opp → gjentar.
AI-en ser på agentene som feiler i lagarbeidet, analyserer hvorfor den feilet, og endrer deretter sin egen kildekode for å koordinere samarbeidslogikken, uten noe manuelt arbeid gjennom hele prosessen, noe som fullstendig lar AI-en organisere sin egen lags tause forståelse.
Etter å ha sett på de relevante tingene, optimaliserer autoresearch automatisk treningen av modellen, den forrige Ralph var en autonom løkke av en enkelt agent, og Gastown kjørte 20-30 Claude Code samtidig
orkestrering, men har ikke evnen til å utvikle seg, disse er veldig sterke, men senere utvikler de også evnene til en enkelt agent.
Ingen utvikler teamwork selv, hvordan man deler arbeid, hvordan unngå konflikter, hvordan man deler kontekst, og hvordan man åpner blokkeringen for hverandre.
Tenk deg hva denne tingen ville blitt hvis den løp av gårde:
• Agentene utvikler sin egen teamkultur og arbeidskjemi.
• Tilpasse seg hvert prosjekt, og tildele et team på 3 eller 7 personer basert på prosjektutviklingsnivå.
• Jo flere prosjekter dere gjør sammen, desto sterkere er teamet deres.
• Agenter kan ta inn nye lagkamerater mens prosjektet pågår, og automatisk omfordele arbeid.
Seriøst, hva vil det utvikle seg til til slutt? Jeg vet ikke, men dette er den mest spennende delen.


Andrej Karpathy10. mars, 06:28
For tre dager siden forlot jeg autoresearch tuning nanochat i ~2 dager på depth=12-modellen. Den fant ~20 endringer som forbedret valideringstapet. Jeg testet disse endringene i går, og alle var additive og overført til større (dybde=24) modeller. Når man legger sammen alle disse endringene, målte jeg i dag at ledertavlens «Tid til GPT-2» går ned fra 2,02 timer til 1,80 timer (~11 % forbedring), dette blir den nye topplisteoppføringen. Så ja, dette er reelle forbedringer og de gjør en reell forskjell. Jeg er litt overrasket over at mitt aller første naive forsøk allerede fungerte så bra, i tillegg til det jeg trodde var et ganske manuelt godt tilpasset prosjekt.
Dette er første gang for meg fordi jeg er veldig vant til å gjøre iterativ optimalisering av nevrale nettverkstrening manuelt. Du kommer opp med ideer, du implementerer dem, sjekker om de fungerer (bedre tap av validering), du kommer opp med nye ideer basert på det, du leser noen artikler for inspirasjon, osv. Dette er grunnlaget for det jeg gjør daglig i to tiår. Å se agenten gjøre hele denne arbeidsflyten fra ende til ende og helt alene mens den jobbet seg gjennom omtrent 700 endringer autonomt, er helt vilt. Den så virkelig på rekkefølgen av resultater fra eksperimenter og brukte det til å planlegge de neste. Det er ikke ny, banebrytende «forskning» (enda), men alle justeringene er «ekte», jeg fant dem ikke manuelt tidligere, og de holder seg opp og forbedret faktisk nanochat. Blant de større tingene, for eksempel:
- Den oppdaget en glipp at min parameterløse QKnorm ikke hadde en skaler-multiplikator festet, så oppmerksomheten min var for spredt. Agenten fant multiplikatorer for å skjerpe den, og pekte på fremtidig arbeid.
- Den fant ut at Value Embeddings virkelig liker regularisering, og jeg brukte ingen (oops).
- Den fant ut at min båndede oppmerksomhet var for konservativ (jeg glemte å stemme den).
- Den fant ut at AdamW-betaer var helt ødelagte.
- Den justerte vektnedbrytningsplanen.
- Den justerte nettverksinitialiseringen.
Dette kommer i tillegg til all tuning jeg allerede har gjort over lang tid. Den eksakte commit er her, fra denne "runde 1" av autoresearch. Jeg skal starte «runde 2», og parallelt ser jeg på hvordan flere agenter kan samarbeide for å låse opp parallellisme.
Alle LLM Frontier-laboratorier gjør dette. Det er den siste bosskampen. Det er selvfølgelig mye mer komplekst i stor skala – du har ikke bare ett enkelt tog. PY-filen skal justeres. Men å gjøre det er «bare ingeniørkunst» og det kommer til å fungere. Du setter sammen en sverm av agenter, får dem til å samarbeide for å finjustere mindre modeller, du promoterer de mest lovende ideene til stadig større skalaer, og mennesker bidrar (valgfritt) på kantene.
Og mer generelt kan *enhver* måling du bryr deg om som er rimelig effektiv å evaluere (eller som har mer effektive proxy-målinger som å trene et mindre nettverk) forskes automatisk av en agentsverm. Det er verdt å tenke på om problemet ditt også faller inn under denne kategorien.

284
Dette er den beste og mest engstelige tiden.
Den månedlige abonnementsavgiften for AI-verktøy blir stadig dyrere, GPT-5.4 er veldig bra etter selve testen, så jeg oppgraderte direkte, Claude må være maks 20x til full, Google abonnerte også på Ultra-planen, hovedsakelig for å bruke Antigravity for å bruke Claude Opus 4.6.
De siste dagene har jeg konsentrert meg om å optimalisere multiagent-rammeverket VibHQ som jeg har utviklet, og brukt dette rammeverket til å lage en plattform som er interoperabel mellom mobiltelefoner og datamaskiner for å administrere alle CLI-agenter.
Jeg har brukt dette til mange prosjektteam, inkludert PM Bot-strategioptimaliseringsteamet, hvor AI-en planlegger, gjennomfører og QA-er selv.
Et enmannsselskap med et helt profesjonelt AI-ingeniørteam.
314
Topp
Rangering
Favoritter
