Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Lior Alexander

Budowanie Bloomberga AI @AlphaSignalAI (280 tys. subskrybentów) • wykładowca MIT • badacz MILA • 9 lat w ML

Każdy model bazowy, z którego kiedykolwiek korzystałeś, ma ten sam błąd. Właśnie został naprawiony. Od 2015 roku każda głęboka sieć była budowana w ten sam sposób: każda warstwa wykonuje jakieś obliczenia, dodaje swój wynik do bieżącej sumy i przekazuje go dalej. Proste. Ale jest problem, po 100. warstwie sygnał z jakiejkolwiek pojedynczej warstwy jest zakopany pod sumą wszystkiego innego. Każda nowa warstwa ma coraz mniejsze znaczenie. Nikt tego nie naprawił, ponieważ działało wystarczająco dobrze. Moonshot AI właśnie to zmieniło. Ich nowa metoda, Attention Residuals, pozwala każdej warstwie spojrzeć wstecz na wszystkie poprzednie warstwy i wybrać te, które naprawdę mają znaczenie w danym momencie. Zamiast ślepej bieżącej sumy, otrzymujesz selektywne pobieranie. Analogicznie: wyobraź sobie pisanie eseju, w którym każdy szkic automatycznie łączy się w jeden dokument. Po 50. szkicu twoje najnowsze poprawki są niewidoczne. AttnRes pozwala ci zachować każdy szkic oddzielnie i korzystać z tych, które potrzebujesz. Co to naprawia: 1. Głębsze warstwy nie są już zagłuszane 2. Trening staje się bardziej stabilny w całej sieci 3. Model wykorzystuje swoją głębokość bardziej efektywnie Aby uczynić to praktycznym na dużą skalę, grupują warstwy w bloki i zwracają uwagę na podsumowania bloków zamiast na każdą pojedynczą warstwę. Obciążenie przy wnioskowaniu: mniej niż 2%. Rezultat: 25% mniej obliczeń, aby osiągnąć tę samą wydajność. Testowane na modelu o 48 miliardach parametrów. Działa w różnych rozmiarach. Połączenia resztkowe były niewidoczną instalacją przez dekadę. Teraz stają się dynamiczne. Następna generacja modeli nie tylko będzie przechodzić przez swoje warstwy, ale także je przeszukiwać.

Najlepsze

Ranking

Ulubione