Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Každý model základů, který jste kdy použili, má stejnou chybu. Právě to opravili.
Od roku 2015 je každá hluboká síť postavena stejným způsobem: každá vrstva provede výpočty, přidá svůj výsledek k běžnému součtu a předává ho dál.
Jednoduché. Ale je tu problém, že na vrstvě 100 je signál z jakékoli jednotlivé vrstvy pohřben pod součtem všeho ostatního.
Každá nová vrstva je čím dál méně důležitá.
Nikdo to neopravoval, protože to fungovalo dostatečně dobře.
Moonshot AI to právě změnila. Jejich nová metoda, Attention Resizidy, umožňuje každé vrstvě podívat se zpět na všechny předchozí vrstvy a vybrat si, které jsou právě teď důležité.
Místo slepého součtu získáváte selektivní vyhledávání.
Analogie: představte si, že píšete esej, kde se každý návrh automaticky sloučí do jednoho dokumentu. V návrhu 50 jsou vaše poslední úpravy neviditelné.
AttnRes vám umožní mít každý návrh odděleně a vybírat z toho, co potřebujete.
Co to opravuje:
1. Hlubší vrstvy už nejsou přehlušeny
2. Školení se stává stabilnějším v celé síti
3. Model efektivněji využívá svou vlastní hloubku
Aby to bylo praktické ve velkém měřítku, seskupují vrstvy do bloků a věnují pozornost shrnutí bloků místo každé jednotlivé vrstvy.
Režie při odvozu: méně než 2 %.
Výsledek:
O 25 % méně výpočetního výkonu pro dosažení stejného výkonu. Testováno na modelu s 48B parametry. Drží se napříč velikostmi....
Top
Hodnocení
Oblíbené
