Jedes Basis-Modell, das du jemals verwendet hast, hat denselben Fehler. Er wurde gerade behoben. Seit 2015 wurde jedes tiefe Netzwerk auf die gleiche Weise aufgebaut: Jede Schicht führt einige Berechnungen durch, addiert ihr Ergebnis zu einer laufenden Summe und gibt es weiter. Einfach. Aber es gibt ein Problem: Ab Schicht 100 ist das Signal einer einzelnen Schicht unter der Summe von allem anderen begraben. Jede neue Schicht zählt immer weniger. Niemand hat das behoben, weil es gut genug funktionierte. Moonshot AI hat das gerade geändert. Ihre neue Methode, Attention Residuals, ermöglicht es jeder Schicht, auf alle vorherigen Schichten zurückzublicken und auszuwählen, welche gerade wirklich wichtig sind. Statt einer blinden laufenden Summe erhältst du eine selektive Abfrage. Die Analogie: Stell dir vor, du schreibst einen Aufsatz, bei dem jeder Entwurf automatisch in ein Dokument zusammengeführt wird. Ab Entwurf 50 sind deine neuesten Änderungen unsichtbar. AttnRes ermöglicht es dir, jeden Entwurf separat zu halten und aus denjenigen zu ziehen, die du benötigst. Was das behebt: 1. Tiefere Schichten werden nicht mehr übertönt 2. Das Training wird stabiler über das gesamte Netzwerk 3. Das Modell nutzt seine eigene Tiefe effizienter Um es praktisch im großen Maßstab zu machen, gruppieren sie Schichten in Blöcke und achten auf Blockzusammenfassungen anstelle jeder einzelnen Schicht. Überhead bei der Inferenz: weniger als 2%. Das Ergebnis: 25% weniger Rechenleistung, um die gleiche Leistung zu erreichen. Getestet an einem Modell mit 48B-Parametern. Hält über Größen hinweg....