Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Budowanie Bloomberga AI @AlphaSignalAI (280 tys. subskrybentów) • wykładowca MIT • badacz MILA • 9 lat w ML
Każdy model bazowy, z którego kiedykolwiek korzystałeś, ma ten sam błąd. Właśnie został naprawiony.
Od 2015 roku każda głęboka sieć była budowana w ten sam sposób: każda warstwa wykonuje jakieś obliczenia, dodaje swój wynik do bieżącej sumy i przekazuje go dalej.
Proste. Ale jest problem, po 100. warstwie sygnał z jakiejkolwiek pojedynczej warstwy jest zakopany pod sumą wszystkiego innego.
Każda nowa warstwa ma coraz mniejsze znaczenie.
Nikt tego nie naprawił, ponieważ działało wystarczająco dobrze.
Moonshot AI właśnie to zmieniło. Ich nowa metoda, Attention Residuals, pozwala każdej warstwie spojrzeć wstecz na wszystkie poprzednie warstwy i wybrać te, które naprawdę mają znaczenie w danym momencie.
Zamiast ślepej bieżącej sumy, otrzymujesz selektywne pobieranie.
Analogicznie: wyobraź sobie pisanie eseju, w którym każdy szkic automatycznie łączy się w jeden dokument. Po 50. szkicu twoje najnowsze poprawki są niewidoczne.
AttnRes pozwala ci zachować każdy szkic oddzielnie i korzystać z tych, które potrzebujesz.
Co to naprawia:
1. Głębsze warstwy nie są już zagłuszane
2. Trening staje się bardziej stabilny w całej sieci
3. Model wykorzystuje swoją głębokość bardziej efektywnie
Aby uczynić to praktycznym na dużą skalę, grupują warstwy w bloki i zwracają uwagę na podsumowania bloków zamiast na każdą pojedynczą warstwę.
Obciążenie przy wnioskowaniu: mniej niż 2%.
Rezultat:
25% mniej obliczeń, aby osiągnąć tę samą wydajność. Testowane na modelu o 48 miliardach parametrów. Działa w różnych rozmiarach.
Połączenia resztkowe były niewidoczną instalacją przez dekadę. Teraz stają się dynamiczne.
Następna generacja modeli nie tylko będzie przechodzić przez swoje warstwy, ale także je przeszukiwać.

Kimi.ai16 mar, 11:03
Przedstawiamy 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Przemyślenie agregacji w głębokości.
Połączenia rezydualne od dawna opierają się na stałym, jednolitym gromadzeniu. Zainspirowani dualnością czasu i głębokości, wprowadzamy Attention Residuals, zastępując standardową rekurencję w głębokości nauczoną, zależną od wejścia uwagą nad poprzednimi warstwami.
🔹 Umożliwia sieciom selektywne odzyskiwanie przeszłych reprezentacji, naturalnie łagodząc rozcieńczenie i wzrost stanu ukrytego.
🔹 Wprowadza Block AttnRes, dzieląc warstwy na skompresowane bloki, aby uczynić uwagą międzywarstwową praktyczną na dużą skalę.
🔹 Służy jako wydajny zamiennik, wykazując przewagę obliczeniową 1,25x przy znikomej (<2%) nadwyżce opóźnienia wnioskowania.
🔹 Walidowane na architekturze Kimi Linear (48B całkowitych, 3B aktywowanych parametrów), dostarczając spójne zyski w wydajności downstream.
🔗Pełny raport:

307
Andrew Ng właśnie rozwiązał jeden z największych problemów z Agentami.
Wydał Context Hub, narzędzie CLI do pobierania na żywo dokumentacji API.
Jedno polecenie. Agent otrzymuje dokładnie to, czego potrzebuje, zanim napisze jedną linię kodu.
Agenci szkoleni miesiące temu działają w ciemno. Wymyślają nazwy parametrów. Wywołują funkcje, które już nie istnieją. Pewnie piszą kod na podstawie specyfikacji, która zmieniła się w ostatnim wydaniu.
> Koniec z halucynowanymi parametrami
> Dokumentacja pobierana na świeżo przed każdym wywołaniem
> Agenci rejestrują przydatne odkrycia
> Notatki utrzymują się między sesjami
Agent wykonuje polecenie CLI przed dotknięciem kodu. Zamiast polegać na przestarzałych danych, odczytuje aktualną specyfikację.
Szybko zmieniające się API oznaczało wcześniej utrzymywanie zrzutu dokumentacji w każdym zapytaniu. Teraz agent wykonuje tę pracę samodzielnie.
Kiedy znajdzie obejście, zapisuje notatkę na przyszłość.

1,51K
Najlepsze
Ranking
Ulubione
