DApp Store | Pusat Web3 untuk Event & Game

Topik trending

0xFunky

BioMedical AI Start up - CTO / Kaggle Competition - Master / @GooseCityDAO / Pendiri @codechainAI

Terinspirasi oleh penelitian otomatis Karpathy, saya mengajari VibeHQ untuk mengembangkan dirinya sendiri, bukan untuk mengembangkan satu agen, tetapi untuk mengembangkan seluruh metode kooperatif multi-agen. 7 berjalan sepenuhnya otomatis tanpa intervensi manual: • Penggunaan token: 7,2 juta → 5,7 juta (penurunan puncak 62%) • Mengurangi masalah terkait koordinasi (duplikasi pekerjaan, dll...) :4 → 0 • Limbah token PM: -91% Loop: benchmark → kuantisasi kooperatif dan mode kegagalan analisis LLM → kode koordinasi penulisan ulang protokol / optimalkan → membangun kembali → mengulangi. AI menyaksikan agen gagal dalam kerja tim, menganalisis mengapa gagal, dan kemudian mengubah kode sumbernya sendiri untuk mengoordinasikan logika kerja sama, tanpa tenaga kerja manual selama proses, sepenuhnya memungkinkan AI untuk mengatur pemahaman diam-diam timnya sendiri. Setelah melihat hal-hal yang relevan, riset otomatis secara otomatis mengoptimalkan pelatihan model, Ralph sebelumnya adalah loop otonom dari satu agen, dan Gastown menjalankan 20-30 Claude Code pada saat yang sama orkestrasi tetapi tidak memiliki kemampuan untuk berevolusi, ini sangat kuat, tetapi nantinya, mereka juga mengembangkan kemampuan satu agen. Tidak ada yang mengembangkan kerja tim itu sendiri, bagaimana membagi kerja, bagaimana menghindari konflik, bagaimana berbagi konteks, dan bagaimana membuka blokir satu sama lain. Bayangkan seperti apa yang akan terjadi jika melarikan diri: • Agen mengembangkan budaya tim dan chemistry kerja mereka sendiri. • Beradaptasi dengan setiap proyek, menugaskan tim yang terdiri dari 3 atau 7 orang sesuai dengan tingkat pengembangan proyek. • Semakin banyak proyek yang Anda lakukan bersama, semakin kuat tim Anda. • Agen dapat memasukkan rekan tim baru saat proyek sedang berlangsung, secara otomatis menugaskan ulang pekerjaan. Serius, apa yang akan berkembang pada akhirnya? Saya tidak tahu, tapi ini adalah bagian yang paling menarik.

Tiga hari yang lalu saya meninggalkan autoresearch tuning nanochat selama ~2 hari pada model depth=12. Itu menemukan ~20 perubahan yang meningkatkan kehilangan validasi. Saya menguji perubahan ini kemarin dan semuanya bersifat aditif dan ditransfer ke model yang lebih besar (kedalaman = 24). Menumpuk semua perubahan ini, hari ini saya mengukur bahwa "Time to GPT-2" papan peringkat turun dari 2,02 jam menjadi 1,80 jam (peningkatan ~11%), ini akan menjadi entri papan peringkat baru. Jadi ya, ini adalah peningkatan nyata dan mereka membuat perbedaan nyata. Saya sedikit terkejut bahwa upaya naif pertama saya sudah berhasil dengan baik di atas apa yang saya pikir sudah menjadi proyek yang disetel dengan cukup manual dengan baik. Ini adalah yang pertama bagi saya karena saya sangat terbiasa melakukan optimasi berulang pelatihan jaringan saraf secara manual. Anda datang dengan ide, Anda menerapkannya, Anda memeriksa apakah mereka berhasil (kehilangan validasi yang lebih baik), Anda datang dengan ide-ide baru berdasarkan itu, Anda membaca beberapa makalah untuk inspirasi, dll. Ini adalah roti dan mentega dari apa yang saya lakukan setiap hari selama 2 dekade. Melihat agen melakukan seluruh alur kerja ini secara end-to-end dan dengan sendirinya saat bekerja melalui sekitar 700 perubahan secara mandiri adalah liar. Itu benar-benar melihat urutan hasil eksperimen dan menggunakannya untuk merencanakan yang berikutnya. Ini bukan "penelitian" yang baru dan inovatif (belum), tetapi semua penyesuaian itu "nyata", saya tidak menemukannya secara manual sebelumnya, dan mereka menumpuk dan benar-benar meningkatkan nanochat. Di antara hal-hal yang lebih besar misalnya: - Itu memperhatikan kelalaian bahwa QKnorm tanpa parameter saya tidak memiliki pengganda scaler yang terpasang, jadi perhatian saya terlalu menyebar. Agen menemukan pengganda untuk mempertajamnya, menunjuk ke pekerjaan di masa depan. - Ditemukan bahwa Penyematan Nilai benar-benar menyukai regularisasi dan saya tidak menerapkan apa pun (ups). - Ditemukan bahwa perhatian saya terlalu konservatif (saya lupa menyetelnya). - Ditemukan bahwa beta AdamW semuanya kacau. - Ini menyetel jadwal peluruhan berat badan. - Ini menyetel inisialisasi jaringan. Ini di atas semua penyetelan yang telah saya lakukan selama waktu yang lama. Komitmen yang tepat ada di sini, dari "putaran 1" penelitian otomatis ini. Saya akan memulai "putaran 2", dan secara paralel saya melihat bagaimana beberapa agen dapat berkolaborasi untuk membuka paralelisme. Semua laboratorium perbatasan LLM akan melakukan ini. Ini adalah pertempuran bos terakhir. Ini jauh lebih kompleks dalam skala besar tentu saja - Anda tidak hanya memiliki satu kereta. file py untuk menyetel. Tetapi melakukannya adalah "hanya rekayasa" dan itu akan berhasil. Anda memutar segerombolan agen, Anda meminta mereka berkolaborasi untuk menyetel model yang lebih kecil, Anda mempromosikan ide-ide yang paling menjanjikan ke skala yang semakin besar, dan manusia (opsional) berkontribusi di tepi. Dan secara lebih umum, *setiap * metrik yang Anda pedulikan yang cukup efisien untuk dievaluasi (atau yang memiliki metrik proxy yang lebih efisien seperti melatih jaringan yang lebih kecil) dapat diteliti secara otomatis oleh kawanan agen. Ada baiknya memikirkan apakah masalah Anda juga termasuk dalam ember ini.

Teratas

Peringkat

Favorit