DApp Store | Web3 Hub for hendelser og spill

Populære emner

Alle foundation-modellene du noen gang har brukt har samme feil. Det ble nettopp fikset. Siden 2015 har hvert dypt nettverk blitt bygget på samme måte: hvert lag gjør en beregning, legger til resultatet i en løpende total, og sender det videre. Enkelt. Men det er et problem: på lag 100 er signalet fra et enkelt lag begravd under summen av alt annet. Hvert nytt lag betyr mindre og mindre. Ingen fikset dette fordi det fungerte bra nok. Moonshot AI har nettopp endret det. Deres nye metode, Attention Residuals, lar hvert lag se tilbake på alle tidligere lag og velge hvilke som faktisk betyr noe akkurat nå. I stedet for en blind løpende total, får du selektiv henting. Analogien: Tenk deg å skrive et essay der hvert utkast automatisk slås sammen til ett dokument. Ved utkast 50 er dine siste redigeringer usynlige. AttnRes lar deg holde hvert utkast separat og trekke fra de du trenger. Hva dette fikser: 1. Dypere lag drukner ikke lenger 2. Opplæringen blir mer stabil på tvers av hele nettverket 3. Modellen bruker sin egen dybde mer effektivt For å gjøre det praktisk i stor skala, grupperer de lag i blokker og følger med på blokkoppsummeringer i stedet for hvert enkelt lag. Overhead ved inferens: mindre enn 2 %. Resultatet: 25 % mindre beregning for å oppnå samme ytelse. Testet på en 48B-parameter modell. Holder på tvers av størrelser....

Topp

Rangering

Favoritter