Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Start up - CTO / Competiția Kaggle - Master / @GooseCityDAO / Fondator @codechainAI
E foarte emoționant în ultima vreme
"Gravura manuală a părții frontale s-a încheiat practic"
AI + Figma este ca deschiderea și agățarea, găsirea metodei potrivite poate grava rapid aproape aceeași versiune ca Figma și poate fi modificată în ambele direcții fără modificări manuale manuale.
În trecut, petreceam cel mai mult timp gravând pe gravură, care putea să se moară o zi întreagă în timpul unui atac OCD, dar acum AI-ul poate termina gravura în câteva minute, iar gradul de restaurare este încă prea mare...
Admirația s-a născut în această epocă.
168
Inspirat de autocercetarea lui Karpathy, i-am învățat pe VibeHQ să evolueze pe sine, nu să evolueze un singur agent, ci să evolueze întreaga metodă cooperativă multi-agent.
7 curse complet automate fără nicio intervenție manuală:
• Utilizare token: 7,2M → 5,7M (scădere maximă de 62%)
• Reducerea problemelor legate de coordonare (duplicarea muncii etc...) :4 → 0
• Risipă de token PM: -91%
Loop: benchmark → cuantizare cooperativă și analiză LLM modul de eșec → /optimize-protocol rescrie cod de coordonare → reconstruire → repetare.
AI-ul urmărește cum agenții eșuează în munca în echipă, analizează de ce a eșuat și apoi își schimbă propriul cod sursă pentru a coordona logica de cooperare, fără niciun efort manual pe tot parcursul procesului, permițând complet AI-ului să-și organizeze propria înțelegere tacită a echipei.
După ce analizăm lucrurile relevante, autocercetarea optimizează automat antrenamentul modelului, Ralph anterior era o buclă autonomă a unui singur agent, iar Gastown rula simultan 20-30 Claude Code
Orchestrare, dar nu are capacitatea de a evolua, acestea sunt foarte puternice, dar mai târziu evoluează și abilitățile unui singur agent.
Nimeni nu dezvoltă munca în echipă în sine, cum să împărțim munca, cum să evităm conflictele, cum să împărtășim contextul și cum să ne deblocăm unii pe alții.
Imaginează-ți ce s-ar transforma acest lucru dacă ar fugi:
• Agenții își dezvoltă propria cultură de echipă și chimie de lucru.
• Se adaptează fiecărui proiect, alocând o echipă de 3 sau 7 persoane în funcție de nivelul de dezvoltare al proiectului.
• Cu cât faceți mai multe proiecte împreună, cu atât echipa voastră este mai puternică.
• Agenții pot integra noi colegi în timp ce proiectul este în desfășurare, reatribuind automat sarcinile.
Serios, în ce va evolua la final? Nu știu, dar asta e partea cea mai palpitantă.


Andrej Karpathy10 mar., 06:28
Acum trei zile am renunțat la autoresearch tuning nanochat timp de ~2 zile pe Depth=12 model. A găsit ~20 de modificări care au îmbunătățit pierderea de validare. Am testat aceste modificări ieri și toate au fost aditive și transferate pe modele mai mari (adâncime=24). Adunând toate aceste schimbări, astăzi am măsurat că "Timpul până la GPT-2" din clasament scade de la 2,02 ore la 1,80 ore (~11% îmbunătățire), aceasta va fi noua intrare în clasament. Deci da, acestea sunt îmbunătățiri reale și fac o diferență reală. Sunt puțin surprins că prima mea încercare naivă a funcționat deja atât de bine, pe lângă ceea ce credeam că este deja un proiect destul de bine reglat manual.
Este o premieră pentru mine, deoarece sunt foarte obișnuit să fac optimizarea iterativă a antrenamentului rețelelor neuronale manual. Vii cu idei, le implementezi, verifici dacă funcționează (o pierdere de validare mai bună), vii cu idei noi pe baza lor, citești câteva articole pentru inspirație etc. Aceasta este pâinea și untul a ceea ce fac zilnic timp de două decenii. Să vezi agentul făcând tot acest flux de lucru de la un capăt la altul și de unul singur, în timp ce a gestionat autonom aproximativ 700 de modificări, este uimitor. A analizat cu adevărat succesiunea rezultatelor experimentelor și a folosit asta pentru a planifica următoarele. Nu este o "cercetare" nouă sau revoluționară (încă), dar toate ajustările sunt "reale", nu le-am găsit manual înainte și se cumulează și chiar au îmbunătățit nanochat. Printre lucrurile mai importante, de exemplu:
- A observat o scăpare că QKnorm-ul meu fără parametri nu avea un multiplicator de scaler atașat, așa că atenția mea era prea difuză. Agentul a găsit multiplicatori pentru a o ascuți, indicând lucrări viitoare.
- S-a constatat că Value Embedding-urile chiar apreciază regularizarea și nu aplicam niciuna (ups).
- A constatat că atenția mea în bandă era prea conservatoare (am uitat să-l acordez).
- S-a constatat că beta-urile AdamW erau toate stricate.
- A ajustat programul de scădere a greutății.
- A reglat inițializarea rețelei.
Asta pe lângă toate acordajele pe care le-am făcut deja de-a lungul unui timp. Commiterea exactă este aici, din această "rundă 1" de autocercetare. Voi începe "runda 2", iar în paralel analizez cum mai mulți agenți pot colabora pentru a debloca paralelismul.
Toate laboratoarele LLM Frontier fac asta. Este lupta cu boss-ul final. Desigur, este mult mai complex la scară – nu ai doar un singur tren. Fișier PY de reglat. Dar să faci asta este "doar inginerie" și va funcționa. Formezi un roi de agenți, îi pui să colaboreze pentru a ajusta modele mai mici, promovezi cele mai promițătoare idei la scară tot mai mare, iar oamenii (opțional) contribuie la margini.
Și, mai general, *orice* metrică care te interesează și care este destul de eficientă de evaluat (sau care are indicatori proxy mai eficienți, cum ar fi antrenarea unei rețele mai mici), poate fi autocercetată de un roi de agenți. Merită să te gândești dacă problema ta se încadrează și ea în această categorie.

286
Acesta este cel mai bun și cel mai anxios moment.
Taxa lunară de abonament pentru uneltele AI devine tot mai scumpă, GPT-5.4 este foarte bun după testul propriu-zis, așa că am făcut upgrade direct, Claude trebuie să fie maxim 20x până la complet, Google s-a abonat și la planul Ultra, în principal pentru a folosi Antigravity pentru Claude Opus 4.6.
În ultimele zile, m-am concentrat pe optimizarea cadrului multi-agent VibHQ pe care l-am dezvoltat și am folosit acest cadru pentru a crea o platformă interoperabilă între telefoanele mobile și calculatoare pentru a gestiona toți agenții CLI.
Am folosit acest lucru pentru a face multe echipe de proiecte, inclusiv echipa de optimizare a strategiei pentru PM Bot, unde AI-ul planifică, execută și controlează calitatea în sine.
O companie de o singură persoană, cu o echipă profesionistă întreagă de inginerie AI.
316
Limită superioară
Clasament
Favorite
