Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Setiap model pondasi yang pernah Anda gunakan memiliki bug yang sama. Itu baru saja diperbaiki.
Sejak 2015, setiap jaringan dalam telah dibangun dengan cara yang sama: setiap lapisan melakukan beberapa komputasi, menambahkan hasilnya ke total yang berjalan, dan meneruskannya ke depan.
Sederhana. Tapi ada masalah, pada lapisan 100, sinyal dari lapisan tunggal terkubur di bawah jumlah yang lainnya.
Setiap lapisan baru semakin tidak penting.
Tidak ada yang memperbaiki ini karena bekerja dengan cukup baik.
Moonshot AI baru saja mengubahnya. Metode baru mereka, Attention Residuals, memungkinkan setiap lapisan melihat kembali semua lapisan sebelumnya dan memilih mana yang benar-benar penting saat ini.
Alih-alih total berjalan buta, Anda mendapatkan pengambilan selektif.
Analoginya: bayangkan menulis esai di mana setiap draf digabungkan menjadi satu dokumen secara otomatis. Pada draf 50, suntingan terbaru Anda tidak terlihat.
AttnRes memungkinkan Anda memisahkan setiap draf dan menarik dari mana pun yang Anda butuhkan.
Apa yang diperbaiki:
1. Lapisan yang lebih dalam tidak lagi tenggelam
2. Pelatihan menjadi lebih stabil di seluruh jaringan
3. Model menggunakan kedalamannya sendiri dengan lebih efisien
Untuk membuatnya praktis dalam skala besar, mereka mengelompokkan lapisan ke dalam blok dan memperhatikan ringkasan blok alih-alih setiap lapisan.
Overhead saat inferensi: kurang dari 2%.
Hasilnya:
Komputasi 25% lebih sedikit untuk mencapai performa yang sama. Diuji pada model parameter 48B. Tahan di seluruh ukuran....
Teratas
Peringkat
Favorit
