Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Bloomberg'in Yapay Zeka @AlphaSignalAI Inşasına (280K abone) • MIT öğretim üyesi • MILA araştırmacısı • 9 yıl makine öğrenim
Kullandığınız her temel modelde aynı hata var. Yeni düzeltildi.
2015'ten beri her derin ağ aynı şekilde inşa ediliyor: her katman bir miktar hesaplama yapıyor, sonucunu çalışan toplamına ekliyor ve iletir.
Basit. Ama bir sorun var, katman 100'e gelindiğinde, herhangi bir katmandan gelen sinyal diğer her şeyin toplamının altında gömülüyor.
Her yeni katman giderek azalıyor.
Kimse bunu düzeltmedi çünkü yeterince iyi çalıştı.
Moonshot AI bunu değiştirdi. Yeni yöntemleri Dikkat Kalıntıları, her katmanın önceki tüm katmanlara geri dönüp şu anda gerçekten önemli olanları seçmesini sağlıyor.
Kör koşu toplamı yerine, seçici geri alma seçeneği var.
Bir benzetme: Her taslağın otomatik olarak tek bir belgeye birleştirildiği bir makale yazdığınızı hayal edin. 50. taslakta gelindiğinde, en son düzenlemeleriniz görünmez oluyor.
AttnRes, her taslağı ayrı tutmanıza ve ihtiyacınız olanlardan çekmenize olanak tanır.
Bu neyi düzeltir:
1. Daha derin katmanlar artık boğulmuyor
2. Eğitim tüm ağ genelinde daha istikrarlı hale gelir
3. Model kendi derinliğini daha verimli kullanır
Ölçekte pratik yapmak için, katmanları bloklara gruplar ve her katman yerine blok özetleri üzerinden takip ederler.
Genel çıkarım: %2'nin altında.
Sonuç:
Aynı performansa ulaşmak için %25 daha az hesaplama var. 48B parametreli bir modelde test edildi. Farklı boyutlarda geçerlidir.
Kalıntı bağlantılar on yıldır görünmez tesisat olarak kullanılıyor. Şimdi dinamik hale geliyorlar.
Yeni nesil modeller sadece kendi katmanlarından geçmekle kalmayacak, onları araştıracaklar.

Kimi.ai16 Mar 11:03
Dikkat Kalıntılarını Tanıtmak: Derinlik açısından toplamayı yeniden düşünmek.
Kalıntı bağlantılar uzun süredir sabit, tekdüz birikimi kullanıyordu. Zaman ve derinlik ikiliğinden ilham alan Dikkat Kalıntıları'nı tanıtıyoruz; standart derinlik yinesini önceki katmanlar üzerinde öğrenilen, girdiye bağlı dikkatle değiştiriyoruz.
🔹 Ağların geçmiş temsilleri seçici olarak geri almasını sağlar, böylece seyreltme ve gizli durum büyümesini doğal olarak azaltır.
🔹 Katmanlar çapraz dikkati ölçekte pratik hale getirmek için katmanları sıkıştırılmış bloklara bölen Block AttnRes'i tanıtır.
🔹 Verimli bir yerleştirme yerine hizmet eder ve 1,25 kat hesaplama avantajı gösterir ve %<2) çıkarım gecikmesi ek yükü vardır.
🔹 Kimi Linear mimarisi üzerinde doğrulandı (toplamda 48B, 3B aktif parametreler), tutarlı bir sonraki performans artışı sağlıyor.
🔗Tam rapor:

325
Andrew Ng, Ajanlarla ilgili en büyük sorunlardan birini çözdü.
Canlı API dokümantasyonunu getirmek için bir CLI aracı olan Context Hub'u piyasaya sürdü.
Bir emir. Ajan, tek bir satır kod yazmadan önce tam olarak ihtiyacı olanı alır.
Aylar önce eğitilmiş ajanlar kör olarak uçuyor. Parametre isimleri icat ederler. Artık var olmayan fonksiyonlar diyorlar. Son sürümde değişen bir spesifikasyona göre kendinden emin bir şekilde kod yazıyorlar.
> Artık halüsinasyon parametre yok
> Docs her çağrıdan önce taze çekiyordu
> Ajanlar faydalı keşifleri kaydediyor
> Notlar oturumlar arasında devam eder
Ajan, koda dokunmadan önce bir CLI komutu çalıştırır. Eski verilere güvenmek yerine, gerçek spesifikasyonu okuyor.
Hızlı hareket eden API'ler eskiden her istekte bir doc dump tutmak anlamına gelirdi. Şimdi bu işi ajan kendisi yapıyor.
Bir çözüm bulduğunda, bir sonraki defa için bir not saklar.

1,51K
En İyiler
Sıralama
Takip Listesi
