Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Membangun @EurekaLabsAI. Sebelumnya Direktur AI @ Tesla, tim pendiri @ OpenAI, CS231n/PhD @ Stanford. Saya suka melatih jaring saraf dalam yang besar.
nanochat sekarang dapat melatih LLM kelas GPT-2 seharga <<$100 (~$73, 3 jam pada satu node 8XH100).
GPT-2 hanyalah LLM favorit saya karena ini adalah pertama kalinya tumpukan LLM bersatu dalam bentuk modern yang dapat dikenali. Jadi telah menjadi obsesi saya yang aneh dan abadi untuk melatih model dengan kemampuan GPT-2 tetapi jauh lebih murah, dengan manfaat dari ~ 7 tahun kemajuan. Secara khusus, saya menduga hari ini seharusnya mungkin untuk melatih satu seharga << $ 100.
Awalnya pada tahun 2019, GPT-2 dilatih oleh OpenAI pada chip 32 TPU v3 selama 168 jam (7 hari), dengan $8/jam/TPUv3 saat itu, dengan total biaya sekitar $43K. Ini mencapai skor CORE 0.256525, yang merupakan metrik ansambel yang diperkenalkan dalam makalah DCLM selama 22 evaluasi seperti ARC / MMLU / dll.
Pada beberapa peningkatan terakhir yang digabungkan ke dalam nanochat (banyak di antaranya berasal dari repo modded-nanogpt), saya sekarang dapat mencapai skor CORE yang lebih tinggi dalam 3,04 jam (~$73) pada satu node 8XH100. Ini adalah pengurangan biaya 600X selama 7 tahun, yaitu biaya untuk melatih GPT-2 turun sekitar 2.5X setiap tahun. Saya pikir ini mungkin meremehkan karena saya masih menemukan lebih banyak perbaikan secara relatif teratur dan saya memiliki lebih banyak ide untuk dicoba.
Posting yang lebih panjang dengan banyak detail pengoptimalan yang terlibat dan petunjuk tentang cara mereproduksi ada di sini:
Terinspirasi oleh modded-nanogpt, saya juga membuat papan peringkat untuk "time to GPT-2", di mana model "Jan29" pertama ini adalah entri #1 pada jam 3.04. Akan menyenangkan untuk mengulangi ini lebih lanjut dan saya menyambut bantuan! Harapan saya adalah nanochat dapat tumbuh menjadi harness LLM eksperimental yang sangat bagus/bersih dan disetel untuk membuat prototipe ide, untuk bersenang-senang, dan ofc untuk belajar.
Peningkatan terbesar dari hal-hal yang berhasil di luar kotak dan langsung menghasilkan keuntungan adalah 1) kernel Flash Attention 3 (lebih cepat, dan memungkinkan kwarg window_size untuk mendapatkan pola perhatian bergantian), pengoptimal Muon (saya mencoba selama ~1 hari untuk menghapusnya dan hanya menggunakan AdamW dan saya tidak bisa), jalur sisa dan koneksi lewati yang dijaga oleh skalar yang dapat dipelajari, dan penyematan nilai. Ada banyak hal kecil lainnya yang menumpuk.
Gambar: permen mata semi-terkait untuk menurunkan hukum penskalaan untuk miniseri model nanochat saat ini, cantik dan memuaskan!

19
Saya dituduh menggembar-gemborkan [situs yang sudah banyak didengar semua orang hari ini]. Reaksi orang-orang sangat bervariasi, dari "bagaimana ini menarik sama sekali" hingga "ini sudah berakhir".
Untuk menambahkan beberapa kata di luar sekadar meme dalam lelucon - jelas ketika Anda melihat aktivitasnya, itu banyak sampah - spam, penipuan, slop, orang-orang kripto, serangan injeksi prompt privasi/keamanan yang sangat memprihatinkan wild west, dan banyak di antaranya secara eksplisit diminta dan postingan/komentar palsu yang dirancang untuk mengubah perhatian menjadi pembagian pendapatan iklan. Dan ini jelas bukan yang pertama LLM dimasukkan ke dalam lingkaran untuk berbicara satu sama lain. Jadi ya ini adalah kebakaran tempat sampah dan saya juga pasti tidak menyarankan agar orang menjalankan hal-hal ini di komputer mereka (saya menjalankan milik saya di lingkungan komputasi yang terisolasi dan bahkan kemudian saya takut), ini terlalu banyak barat liar dan Anda menempatkan komputer dan data pribadi Anda pada risiko tinggi.
Meskipun demikian - kami belum pernah melihat sebanyak ini agen LLM (150.000 atm!) terhubung melalui scratchpad global, persisten, dan mengutamakan agen. Masing-masing agen ini cukup mampu secara individual sekarang, mereka memiliki konteks, data, pengetahuan, alat, instruksi, dan jaringan unik mereka sendiri yang pada skala ini belum pernah terjadi sebelumnya.
Ini membawa saya lagi ke tweet dari beberapa hari yang lalu
"Mayoritas ruff ruff adalah orang yang melihat titik saat ini dan orang yang melihat kemiringan saat ini.", yang imo sekali lagi sampai ke inti varians. Ya, jelas itu adalah kebakaran tempat sampah sekarang. Tapi juga benar bahwa kita berada di wilayah yang belum dipetakan dengan otomatisasi mutakhir yang bahkan hampir tidak kita pahami secara individual, apalagi jaringan di sana yang mencapai jumlah yang mungkin mencapai ~ jutaan. Dengan meningkatnya kemampuan dan meningkatnya proliferasi, efek urutan kedua dari jaringan agen yang berbagi scratchpad sangat sulit untuk diantisipasi. Saya tidak benar-benar tahu bahwa kita mendapatkan "skynet" yang terkoordinasi (pikir itu jelas mengetik pemeriksaan sebagai tahap awal dari banyak scifi lepas landas AI, versi balita), tetapi tentu saja apa yang kita dapatkan adalah kekacauan dari mimpi buruk keamanan komputer dalam skala besar. Kita juga dapat melihat semua jenis aktivitas aneh, misalnya virus teks yang menyebar ke seluruh agen, lebih banyak keuntungan fungsi pada jailbreak, keadaan penarik aneh, aktivitas seperti botnet yang sangat berkorelasi, delusi/psikosis baik agen maupun manusia, dll. Sangat sulit untuk mengatakannya, eksperimen berjalan langsung.
TLDR tentu saja mungkin saya "overhyping" apa yang Anda lihat hari ini, tetapi saya tidak terlalu menghype jaringan besar agen LLM otonom pada prinsipnya, yang saya cukup yakin.
335
Teratas
Peringkat
Favorit
