DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

0xFunky

BioMedical AI Start up - CTO / Competiția Kaggle - Master / @GooseCityDAO / Fondator @codechainAI

Inspirat de autocercetarea lui Karpathy, i-am învățat pe VibeHQ să evolueze pe sine, nu să evolueze un singur agent, ci să evolueze întreaga metodă cooperativă multi-agent. 7 curse complet automate fără nicio intervenție manuală: • Utilizare token: 7,2M → 5,7M (scădere maximă de 62%) • Reducerea problemelor legate de coordonare (duplicarea muncii etc...) :4 → 0 • Risipă de token PM: -91% Loop: benchmark → cuantizare cooperativă și analiză LLM modul de eșec → /optimize-protocol rescrie cod de coordonare → reconstruire → repetare. AI-ul urmărește cum agenții eșuează în munca în echipă, analizează de ce a eșuat și apoi își schimbă propriul cod sursă pentru a coordona logica de cooperare, fără niciun efort manual pe tot parcursul procesului, permițând complet AI-ului să-și organizeze propria înțelegere tacită a echipei. După ce analizăm lucrurile relevante, autocercetarea optimizează automat antrenamentul modelului, Ralph anterior era o buclă autonomă a unui singur agent, iar Gastown rula simultan 20-30 Claude Code Orchestrare, dar nu are capacitatea de a evolua, acestea sunt foarte puternice, dar mai târziu evoluează și abilitățile unui singur agent. Nimeni nu dezvoltă munca în echipă în sine, cum să împărțim munca, cum să evităm conflictele, cum să împărtășim contextul și cum să ne deblocăm unii pe alții. Imaginează-ți ce s-ar transforma acest lucru dacă ar fugi: • Agenții își dezvoltă propria cultură de echipă și chimie de lucru. • Se adaptează fiecărui proiect, alocând o echipă de 3 sau 7 persoane în funcție de nivelul de dezvoltare al proiectului. • Cu cât faceți mai multe proiecte împreună, cu atât echipa voastră este mai puternică. • Agenții pot integra noi colegi în timp ce proiectul este în desfășurare, reatribuind automat sarcinile. Serios, în ce va evolua la final? Nu știu, dar asta e partea cea mai palpitantă.

Acum trei zile am renunțat la autoresearch tuning nanochat timp de ~2 zile pe Depth=12 model. A găsit ~20 de modificări care au îmbunătățit pierderea de validare. Am testat aceste modificări ieri și toate au fost aditive și transferate pe modele mai mari (adâncime=24). Adunând toate aceste schimbări, astăzi am măsurat că "Timpul până la GPT-2" din clasament scade de la 2,02 ore la 1,80 ore (~11% îmbunătățire), aceasta va fi noua intrare în clasament. Deci da, acestea sunt îmbunătățiri reale și fac o diferență reală. Sunt puțin surprins că prima mea încercare naivă a funcționat deja atât de bine, pe lângă ceea ce credeam că este deja un proiect destul de bine reglat manual. Este o premieră pentru mine, deoarece sunt foarte obișnuit să fac optimizarea iterativă a antrenamentului rețelelor neuronale manual. Vii cu idei, le implementezi, verifici dacă funcționează (o pierdere de validare mai bună), vii cu idei noi pe baza lor, citești câteva articole pentru inspirație etc. Aceasta este pâinea și untul a ceea ce fac zilnic timp de două decenii. Să vezi agentul făcând tot acest flux de lucru de la un capăt la altul și de unul singur, în timp ce a gestionat autonom aproximativ 700 de modificări, este uimitor. A analizat cu adevărat succesiunea rezultatelor experimentelor și a folosit asta pentru a planifica următoarele. Nu este o "cercetare" nouă sau revoluționară (încă), dar toate ajustările sunt "reale", nu le-am găsit manual înainte și se cumulează și chiar au îmbunătățit nanochat. Printre lucrurile mai importante, de exemplu: - A observat o scăpare că QKnorm-ul meu fără parametri nu avea un multiplicator de scaler atașat, așa că atenția mea era prea difuză. Agentul a găsit multiplicatori pentru a o ascuți, indicând lucrări viitoare. - S-a constatat că Value Embedding-urile chiar apreciază regularizarea și nu aplicam niciuna (ups). - A constatat că atenția mea în bandă era prea conservatoare (am uitat să-l acordez). - S-a constatat că beta-urile AdamW erau toate stricate. - A ajustat programul de scădere a greutății. - A reglat inițializarea rețelei. Asta pe lângă toate acordajele pe care le-am făcut deja de-a lungul unui timp. Commiterea exactă este aici, din această "rundă 1" de autocercetare. Voi începe "runda 2", iar în paralel analizez cum mai mulți agenți pot colabora pentru a debloca paralelismul. Toate laboratoarele LLM Frontier fac asta. Este lupta cu boss-ul final. Desigur, este mult mai complex la scară – nu ai doar un singur tren. Fișier PY de reglat. Dar să faci asta este "doar inginerie" și va funcționa. Formezi un roi de agenți, îi pui să colaboreze pentru a ajusta modele mai mici, promovezi cele mai promițătoare idei la scară tot mai mare, iar oamenii (opțional) contribuie la margini. Și, mai general, *orice* metrică care te interesează și care este destul de eficientă de evaluat (sau care are indicatori proxy mai eficienți, cum ar fi antrenarea unei rețele mai mici), poate fi autocercetată de un roi de agenți. Merită să te gândești dacă problema ta se încadrează și ea în această categorie.

Limită superioară

Clasament

Favorite