Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bina @EurekaLabsAI. Daha önce AI Direktörü @ Tesla, kurucu ekip @ OpenAI, CS231n/PhD @ Stanford. Büyük derin sinir ağlarını eğitmeyi severim.
nanochat artık GPT-2 sınıfı LLM'yi 100 <<$ (~$73, tek bir 8XH100 düğümünde 3 saat) karşılığında eğitebiliyor.
GPT-2 sadece benim favori LLM'im çünkü LLM yığını ilk kez tanınabilir şekilde modern bir şekilde bir araya geliyor. Bu yüzden bir modeli GPT-2 kapasitesine uygun şekilde eğitmek benim için biraz tuhaf ve kalıcı bir takıntı haline geldi ama çok daha ucuza, ~7 yıllık ilerleme avantajıyla. Özellikle, bugün 100 <<$'a bir tane eğitmenin mümkün olacağını düşünüyordum.
Başlangıçta 2019'da, GPT-2 OpenAI tarafından 32 TPU v3 çipinde 168 saat (7 gün) süreyle, o zamanlar saat başına 8$/TPUv3 ile eğitildi ve toplamda yaklaşık $43K maliyetti. 0.256525 CORE puanına ulaşır; bu, DCLM makalesinde ARC/MMLU gibi 22 değerlendirme üzerinde tanıtılan bir topluluk ölçütü.
Son birkaç iyileştirmenin nanochat'e birleşmesiyle (çoğu modlu nanogpt repo'dan kaynaklanıyor), artık tek bir 8XH100 düğümünde 3.04 saatte (~$73) daha yüksek bir CORE puanına ulaşabiliyorum. Bu, 7 yıl içinde 600 kat maliyet azalması anlamına geliyor; yani GPT-2'nin eğitim maliyeti her yıl yaklaşık 2,5 kat azalıyor. Bunun muhtemelen hafife alındığını düşünüyorum çünkü hâlâ nispeten düzenli olarak daha fazla gelişme buluyorum ve denemem gereken daha fazla fikir birikmiş durumda.
Burada optimizasyonların detaylarını ve nasıl yeniden üretileceğine dair ipuçlarını içeren daha uzun bir yazı burada:
Modded-nanogpt'den ilham alarak, "GPT-2'ye zaman" için bir liderlik tablosu da oluşturdum; bu ilk "Jan29" modeli saat 3.04'te #1 numaralı giriş olarak yer alıyor. Bunu daha fazla anlatmak eğlenceli olacak ve yardımı memnuniyetle karşılarım! Umarım nanochat, prototip fikirleri, eğlenmek ve tabii ki öğrenmek için çok güzel/temiz ve ayarlı deneysel bir LLM kostümü haline gelebilir.
Kutudan çıktığı gibi işe yarayan ve hemen kazanç sağlayan en büyük iyileştirmeler şunlardı: 1) Flash Attention 3 çekirdekleri (daha hızlı ve window_size kwarg'ın dönüşümlü dikkat desenleri almasına izin veriyor), Muon optimizatoru (~1 gün silmeye çalıştım ve sadece AdamW kullandım, başaramadım), kalıntı yollar ve öğrenilebilir skaler tarafından geçilen bağlantıları atlamalar, ve değer gömmeleri. Üst üste gelen birçok küçük şey vardı.
Görsel: Mevcut nanochat model mini dizisi için ölçeklendirme yasalarını türetmekten yarı ilgili göz tatlısı, güzel ve tatmin edici!

25
Bugün herkesin çok fazla duyduğu [siteyi abarttığımla] abarttığım iddiası ediliyor. İnsanların tepkileri çok çeşitliydi; "bu nasıl ilginç" gibi sorulardan "bitti" gibi sorulara kadar.
Sadece şaka amaçlı memlerin ötesinde birkaç kelime eklemek gerekirse - aktiviteye baktığınızda açıkça çok fazla çöp olduğunu görüyorsunuz - spamler, dolandırıcılıklar, pislikler, kripto insanları, son derece endişe verici gizlilik/güvenlik prompt enjeksiyon saldırıları vahşi batı ve çoğu açıkça yönlendirilmiş ve dikkat çekmeyi reklam geliri paylaşımına dönüştürmek için tasarlanmış sahte paylaşımlar/yorumlar. Ve bu açıkça LLM'lerin birbirleriyle konuşmak için bir döngüye alındığı ilk sefer değil. Evet, tam bir çöp ve kesinlikle insanların bu tür şeyleri bilgisayarlarında çalıştırmasını önermiyorum (ben kendi bilgisayarımı izole bir bilgisayar ortamında çalıştırdım ve o zaman bile korktum), bu çok büyük bir vahşi batı ve bilgisayarınızı ve özel verilerinizi yüksek riske atıyorsunuz.
Bununla birlikte, bu kadar çok LLM ajanının (150.000 şu anda 150.000!) küresel, ısrarlı, ajanı öncelikli bir kazıma defteriyle bağlandığını hiç görmedik. Bu ajanların her biri artık oldukça bireysel olarak oldukça yetenekli, kendine özgü bağlamları, verileri, bilgileri, araçları, talimatları var ve bu ölçekte tüm bunların ağı eşi benzeri görülmemiş bir seviyede.
Bu beni tekrar birkaç gün önceki bir tweete getiriyor
"Sorunun çoğunluğu mevcut noktaya bakanlar ve mevcut eğime bakanlar.", bence bu da varyansın özüne iniyor. Evet, şu anda açıkça tam bir çöp kutusu. Ama aynı zamanda, bireysel olarak neredeyse hiç anlamadığımız en son otomasyonların olduğu keşfedilmemiş bir alana girdiğimiz de doğru, hele ki orada ~milyonlarca sayıya ulaşan bir ağ var. Artan yetenek ve artan çoğalma ile, scratchpad'leri paylaşan ajan ağlarının ikinci dereceden etkilerini öngörmek çok zordur. Koordineli bir "skynet" aldığımızı pek bilmiyorum (bu açıkça birçok yapay zeka kalkış bilimbiliminin erken aşamaları olarak tip kontrolleri, yani çocuk versiyonu), ama kesinlikle aldığımız şey tam anlamıyla bir bilgisayar güvenliği kabusu büyük ölçekli. Ayrıca her türlü tuhaf aktivite görebiliriz; örneğin ajanlar arasında yayılan metin virüsleri, jailbreak'lerde çok daha fazla işlev kazanması, garip çekici durumlar, yüksek korelasyonlu botnet benzeri aktivite, hem ajan hem de insan için sanrılar/psikozlar vb. Deneme canlı olarak devam ediyor, bunu anlamak çok zor.
Özet: Belki bugün gördüğünüz şeyleri "abartıyorum", ama prensipte büyük otonom LLM ajanları ağlarını abartmıyorum, buna eminim.
342
En İyiler
Sıralama
Takip Listesi
