Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
Start up di AI BioMedical - CTO / Kaggle Competition - Master / @GooseCityDAO / Founder @codechainAI
Questi giorni sono davvero incredibili
"La questione della creazione manuale dei layout è praticamente finita"
AI + Figma è come avere un cheat, trovando il metodo giusto riesci a creare quasi esattamente lo stesso layout di Figma, e senza dover fare nulla manualmente, puoi anche modificare in entrambe le direzioni.
In passato, il tempo che spendevo di più era per creare i layout, la mia ossessione mi portava a lavorare per un'intera giornata, ora l'AI ci mette solo pochi minuti e il livello di accuratezza è incredibile...
Ammirare di vivere in quest'epoca.
165
Ispirato da autoresearch di Karpathy, ho insegnato a VibeHQ a evolversi autonomamente, non evolvendo un singolo agente, ma l'intero modo di cooperare tra i Multi Agents.
7 esecuzioni completamente automatiche, zero intervento umano:
• Utilizzo di token: 7.2M → 5.7M (picco ridotto del 62%)
• Riduzione dei problemi di coordinamento (situazioni di lavoro ripetuto, ecc...): 4 → 0
• Spreco di token PM: -91%
Ciclo: benchmark → quantificazione della cooperazione e analisi dei modelli di fallimento LLM → /optimize-protocol riscrittura del codice di coordinamento → ricostruzione → ripetere.
L'AI osserva il fallimento della cooperazione del team di agenti, analizza perché è fallito e poi modifica autonomamente il proprio codice sorgente per coordinare la logica di cooperazione, il tutto senza intervento umano, lasciando completamente all'AI l'organizzazione della propria intesa di squadra.
Ho dato un'occhiata a cose correlate, autoresearch si occupa dell'ottimizzazione automatica dell'addestramento del modello, il precedente Ralph era un ciclo autonomo di un singolo agente, Gastown eseguiva contemporaneamente 20-30 Claude Code per fare
orchestrazione ma non aveva capacità di evoluzione, tutte queste cose sono impressionanti, ma alla fine si concentrano sull'evoluzione delle capacità di un singolo agente.
Nessuno sta evolvendo la cooperazione del team stesso, come suddividere i compiti, come evitare conflitti, come condividere il contesto, come sbloccarsi a vicenda, proprio come nel mondo reale, anche il team AI ha bisogno di affinamento.
Immagina cosa potrebbe diventare se questo continuasse:
• Gli agenti sviluppano autonomamente una cultura di squadra e un'intesa lavorativa.
• Si adattano in base al progetto, assegnando un team di 3 persone o di 7 persone a seconda del livello di sviluppo del progetto.
• Più progetti vengono svolti insieme, più forte diventa il team.
• Gli agenti possono onboardare nuovi membri del team durante il progetto, riassegnando automaticamente i compiti.
A dire il vero, non so cosa evolverà alla fine, ma questa è la parte più eccitante.


Andrej Karpathy10 mar, 06:28
Tre giorni fa ho lasciato autoresearch a sintonizzare nanochat per ~2 giorni sul modello depth=12. Ha trovato ~20 modifiche che hanno migliorato la perdita di validazione. Ho testato queste modifiche ieri e tutte erano additive e trasferite a modelli più grandi (depth=24). Accumulando tutte queste modifiche, oggi ho misurato che il "Tempo per GPT-2" della classifica scende da 2,02 ore a 1,80 ore (~11% di miglioramento), questo sarà il nuovo ingresso nella classifica. Quindi sì, questi sono miglioramenti reali e fanno una differenza concreta. Sono leggermente sorpreso che il mio primo tentativo naive abbia già funzionato così bene su quello che pensavo fosse già un progetto abbastanza ben sintonizzato manualmente.
Questo è un primo per me perché sono molto abituato a fare l'ottimizzazione iterativa dell'addestramento delle reti neurali manualmente. Ti vengono idee, le implementi, controlli se funzionano (migliore perdita di validazione), ti vengono nuove idee basate su quelle, leggi alcuni articoli per ispirazione, ecc. Questo è il pane quotidiano di ciò che faccio da 2 decenni. Vedere l'agente fare questo intero flusso di lavoro end-to-end e tutto da solo mentre lavorava attraverso circa 700 modifiche in modo autonomo è incredibile. Ha davvero esaminato la sequenza dei risultati degli esperimenti e l'ha usata per pianificare i successivi. Non è "ricerca" nuova e rivoluzionaria (ancora), ma tutti gli aggiustamenti sono "reali", non li avevo trovati manualmente in precedenza, e si accumulano e hanno effettivamente migliorato nanochat. Tra le cose più grandi, ad esempio:
- Ha notato una svista che il mio QKnorm senza parametri non aveva un moltiplicatore di scala attaccato, quindi la mia attenzione era troppo diffusa. L'agente ha trovato moltiplicatori per affilarla, indicando un lavoro futuro.
- Ha scoperto che i Value Embeddings gradiscono davvero la regolarizzazione e non ne stavo applicando alcuna (oops).
- Ha trovato che la mia attenzione a bande era troppo conservativa (ho dimenticato di sintonizzarla).
- Ha scoperto che i betas di AdamW erano tutti sballati.
- Ha sintonizzato il programma di decadimento del peso.
- Ha sintonizzato l'inizializzazione della rete.
Questo è oltre tutta la sintonizzazione che ho già fatto nel corso di un buon periodo di tempo. Il commit esatto è qui, da questo "round 1" di autoresearch. Sto per avviare il "round 2", e in parallelo sto guardando come più agenti possono collaborare per sbloccare il parallelismo.
Tutti i laboratori di frontiera LLM faranno questo. È la battaglia finale del boss. È molto più complesso su scala, ovviamente - non hai solo un singolo file train.py da sintonizzare. Ma farlo è "solo ingegneria" e funzionerà. Avvii uno sciame di agenti, li fai collaborare per sintonizzare modelli più piccoli, promuovi le idee più promettenti a scale sempre più grandi, e gli esseri umani (opzionalmente) contribuiscono ai margini.
E più in generale, *qualsiasi* metrica che ti interessa e che è ragionevolmente efficiente da valutare (o che ha metriche proxy più efficienti come l'addestramento di una rete più piccola) può essere autoresearched da uno sciame di agenti. Vale la pena pensare se il tuo problema rientra anche in questo ambito.

283
Questo è il periodo migliore e più ansioso.
Ogni mese, il costo degli abbonamenti agli strumenti AI sta diventando sempre più alto. Dopo aver testato GPT-5.4, posso dire che è davvero buono, quindi ho fatto direttamente l'upgrade. Claude sicuramente è impostato al massimo 20x, e Google ha anche sottoscritto il piano Ultra, principalmente per utilizzare Antigravity per sfruttare Claude Opus 4.6.
Ora l'efficienza di sviluppo quotidiana non è nemmeno paragonabile. Negli ultimi giorni mi sono concentrato sull'ottimizzazione del mio framework di multi-agenti, VibHQ, e ho creato una piattaforma che funziona sia su smartphone che su computer per gestire tutti i Cli Agents, permettendo di utilizzare codex e claude code da remoto sul telefono senza dover aprire una sessione remota.
Ho già realizzato diversi progetti con questo, tra cui un team di ottimizzazione della strategia PM Bot, dove l'AI pianifica, esegue e fa QA autonomamente. Ora questo framework sta lentamente corrispondendo alla mia visione di Multi-Agents, e il prossimo passo è raccogliere più dati per ottimizzare ulteriormente l'intero framework.
Un'azienda unipersonale, con un intero team di ingegneri AI professionisti.
313
Principali
Ranking
Preferiti
