DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

0xFunky

Biomedicinsk AI Start up - CTO / Kaggle Competition - Master / @GooseCityDAO / Grundare @codechainAI

Inspirerad av Karpathys autoforskning lärde jag VibeHQ att utveckla sig själv, inte att utveckla en enskild agent, utan att utveckla hela den multi-agent samarbetsmetoden. 7 helautomatiska körningar utan manuell inblandning: • Tokenanvändning: 7,2 miljoner → 5,7 miljoner (toppminskning med 62 %) • Minskade samordningsrelaterade problem (dubbelarbete etc...) :4 → 0 • PM-tokensslöser: -91 % Loop: benchmark → kooperativ kvantisering och LLM-analys felläge → /optimera-protokoll omskriv koordinationskod → bygga om → upprepa. AI:n ser agenterna misslyckas i lagarbete, analyserar varför den misslyckades och ändrar sedan sin egen källkod för att samordna samarbetslogiken, utan något manuellt arbete under hela processen, vilket helt tillåter AI:n att organisera sitt eget team och tyst förståelse. Efter att ha tittat på relevanta saker optimerar autoresearch automatiskt modellens träning, den tidigare Ralph var en autonom loop av en enda agent, och Gastown körde 20-30 Claude Code samtidigt orkestrering men har inte förmågan att utvecklas, dessa är mycket starka, men senare utvecklar de också förmågorna hos en enda agent. Ingen utvecklar själva lagarbetet, hur man delar upp arbetet, hur man undviker konflikter, hur man delar kontext och hur man avblockerar varandra. Föreställ dig vad den här saken skulle bli om den sprang iväg: • Agenter utvecklar sin egen teamkultur och arbetskemi. • Anpassa sig till varje projekt, och tilldela ett team på 3 eller 7 personer beroende på projektutvecklingsnivå. • Ju fler projekt ni gör tillsammans, desto starkare är ert team. • Agenter kan ta in nya medarbetare medan projektet pågår, och automatiskt omfördela arbete. Allvarligt talat, vad kommer det att utvecklas till i slutändan? Jag vet inte, men det här är den mest spännande delen.

För tre dagar sedan lämnade jag autoresearch-tuning nanochat i ~2 dagar på depth=12-modellen. Den fann ~20 förändringar som förbättrade valideringsförlusten. Jag testade dessa förändringar igår och alla var additiva och överförda till större (djup=24) modeller. Med alla dessa förändringar sammanlagda mätte jag idag att topplistans "Tid till GPT-2" sjunker från 2,02 timmar till 1,80 timmar (~11 % förbättring), detta blir den nya topplistan. Så ja, det här är verkliga förbättringar och de gör verklig skillnad. Jag är lite förvånad över att mitt allra första naiva försök redan fungerade så här bra ovanpå vad jag trodde var ett ganska manuellt väljusterat projekt. Detta är första gången för mig eftersom jag är mycket van vid att manuellt optimera neurala nätverksträningar iterativt. Du kommer på idéer, implementerar dem, kollar om de fungerar (bättre bekräftelseförlust), du kommer på nya idéer utifrån det, läser några artiklar för inspiration, och så vidare. Detta är vardagsbrödet i det jag gör dagligen i två decennier. Att se agenten göra hela detta arbetsflöde från början till slut och helt på egen hand medan den självständigt arbetade igenom cirka 700 ändringar är galet. Den tittade verkligen på sekvensen av experimentens resultat och använde det för att planera de nästa. Det är inte ny, banbrytande "forskning" (ännu), men alla justeringar är "verkliga", jag hittade dem inte manuellt tidigare, och de håller på med och förbättrade faktiskt nanochat. Bland de större sakerna, t.ex.: - Den märkte en miss att min parameterlösa QKnorm inte hade någon skalarmultiplikator kopplad, så min uppmärksamhet var för diffus. Agenten hittade multiplikatorer för att skärpa den, vilket pekade på framtida arbete. - Den fann att värdeinbäddningarna verkligen gillar regularisering och jag tillämpade ingen (oj). - Den upptäckte att min bandade uppmärksamhet var för konservativ (jag glömde att stämma den). - Den visade att AdamW-betas var helt störda. - Den justerade viktminskningsschemat. - Den justerade nätverksinitialiseringen. Detta är ovanpå all trimning jag redan gjort under en bra tid. Den exakta commit finns här, från denna "runda 1" av autoresearch. Jag ska starta "runda 2", och parallellt tittar jag på hur flera agenter kan samarbeta för att låsa upp parallellism. Alla LLM-gränslaboratorier gör detta. Det är slutbossen. Det är förstås mycket mer komplext i stor skala – du har inte bara ett enda tåg. Py-fil att justera. Men att göra det är "bara ingenjörskonst" och det kommer att fungera. Du sätter ihop en svärm av agenter, låter dem samarbeta för att finjustera mindre modeller, du marknadsför de mest lovande idéerna till allt större skalor, och människor bidrar (valfritt) i utkanterna. Och mer generellt kan *vilken mätvärd* som helst du bryr dig om som är rimligt effektiv att utvärdera (eller som har mer effektiva proxymått som att träna ett mindre nätverk) automatiskt forskas fram av en agentsvärm. Det är värt att fundera på om ditt problem också faller inom denna kategori.

Topp

Rankning

Favoriter