DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Setiap model pondasi yang pernah Anda gunakan memiliki bug yang sama. Itu baru saja diperbaiki. Sejak 2015, setiap jaringan dalam telah dibangun dengan cara yang sama: setiap lapisan melakukan beberapa komputasi, menambahkan hasilnya ke total yang berjalan, dan meneruskannya ke depan. Sederhana. Tapi ada masalah, pada lapisan 100, sinyal dari lapisan tunggal terkubur di bawah jumlah yang lainnya. Setiap lapisan baru semakin tidak penting. Tidak ada yang memperbaiki ini karena bekerja dengan cukup baik. Moonshot AI baru saja mengubahnya. Metode baru mereka, Attention Residuals, memungkinkan setiap lapisan melihat kembali semua lapisan sebelumnya dan memilih mana yang benar-benar penting saat ini. Alih-alih total berjalan buta, Anda mendapatkan pengambilan selektif. Analoginya: bayangkan menulis esai di mana setiap draf digabungkan menjadi satu dokumen secara otomatis. Pada draf 50, suntingan terbaru Anda tidak terlihat. AttnRes memungkinkan Anda memisahkan setiap draf dan menarik dari mana pun yang Anda butuhkan. Apa yang diperbaiki: 1. Lapisan yang lebih dalam tidak lagi tenggelam 2. Pelatihan menjadi lebih stabil di seluruh jaringan 3. Model menggunakan kedalamannya sendiri dengan lebih efisien Untuk membuatnya praktis dalam skala besar, mereka mengelompokkan lapisan ke dalam blok dan memperhatikan ringkasan blok alih-alih setiap lapisan. Overhead saat inferensi: kurang dari 2%. Hasilnya: Komputasi 25% lebih sedikit untuk mencapai performa yang sama. Diuji pada model parameter 48B. Tahan di seluruh ukuran....

Teratas

Peringkat

Favorit