Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alle foundation-modellene du noen gang har brukt har samme feil. Det ble nettopp fikset.
Siden 2015 har hvert dypt nettverk blitt bygget på samme måte: hvert lag gjør en beregning, legger til resultatet i en løpende total, og sender det videre.
Enkelt. Men det er et problem: på lag 100 er signalet fra et enkelt lag begravd under summen av alt annet.
Hvert nytt lag betyr mindre og mindre.
Ingen fikset dette fordi det fungerte bra nok.
Moonshot AI har nettopp endret det. Deres nye metode, Attention Residuals, lar hvert lag se tilbake på alle tidligere lag og velge hvilke som faktisk betyr noe akkurat nå.
I stedet for en blind løpende total, får du selektiv henting.
Analogien: Tenk deg å skrive et essay der hvert utkast automatisk slås sammen til ett dokument. Ved utkast 50 er dine siste redigeringer usynlige.
AttnRes lar deg holde hvert utkast separat og trekke fra de du trenger.
Hva dette fikser:
1. Dypere lag drukner ikke lenger
2. Opplæringen blir mer stabil på tvers av hele nettverket
3. Modellen bruker sin egen dybde mer effektivt
For å gjøre det praktisk i stor skala, grupperer de lag i blokker og følger med på blokkoppsummeringer i stedet for hvert enkelt lag.
Overhead ved inferens: mindre enn 2 %.
Resultatet:
25 % mindre beregning for å oppnå samme ytelse. Testet på en 48B-parameter modell. Holder på tvers av størrelser....
Topp
Rangering
Favoritter
