Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Bloomberg des KI-@AlphaSignalAI aufbauen (280.000 Abonnenten) • MIT-Dozent • MILA-Forscher • 9 Jahre in ML • SF 🌁
Jedes Basis-Modell, das du jemals verwendet hast, hat denselben Fehler. Er wurde gerade behoben.
Seit 2015 wurde jedes tiefe Netzwerk auf die gleiche Weise aufgebaut: Jede Schicht führt einige Berechnungen durch, addiert ihr Ergebnis zu einer laufenden Summe und gibt es weiter.
Einfach. Aber es gibt ein Problem: Ab Schicht 100 ist das Signal einer einzelnen Schicht unter der Summe von allem anderen begraben.
Jede neue Schicht zählt immer weniger.
Niemand hat das behoben, weil es gut genug funktionierte.
Moonshot AI hat das gerade geändert. Ihre neue Methode, Attention Residuals, ermöglicht es jeder Schicht, auf alle vorherigen Schichten zurückzublicken und auszuwählen, welche gerade wirklich wichtig sind.
Statt einer blinden laufenden Summe erhältst du eine selektive Abfrage.
Die Analogie: Stell dir vor, du schreibst einen Aufsatz, bei dem jeder Entwurf automatisch in ein Dokument zusammengeführt wird. Ab Entwurf 50 sind deine neuesten Änderungen unsichtbar.
AttnRes ermöglicht es dir, jeden Entwurf separat zu halten und aus denjenigen zu ziehen, die du benötigst.
Was das behebt:
1. Tiefere Schichten werden nicht mehr übertönt
2. Das Training wird stabiler über das gesamte Netzwerk
3. Das Modell nutzt seine eigene Tiefe effizienter
Um es praktisch im großen Maßstab zu machen, gruppieren sie Schichten in Blöcke und achten auf Blockzusammenfassungen anstelle jeder einzelnen Schicht.
Überhead bei der Inferenz: weniger als 2%.
Das Ergebnis:
25% weniger Rechenleistung, um die gleiche Leistung zu erreichen. Getestet an einem Modell mit 48B-Parametern. Hält über Größen hinweg.
Residualverbindungen waren ein Jahrzehnt lang unsichtbare Rohrleitungen. Jetzt werden sie dynamisch.
Die nächste Generation von Modellen wird nicht nur durch ihre eigenen Schichten hindurchgehen, sondern sie auch durchsuchen.

Kimi.ai16. März, 11:03
Einführung von 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Überdenken der tiefen Aggregation.
Residualverbindungen haben lange auf feste, einheitliche Akkumulationen gesetzt. Inspiriert von der Dualität von Zeit und Tiefe, stellen wir Attention Residuals vor, die die standardmäßige tiefenweise Rekurrenz durch lernabhängige, eingangsabhängige Aufmerksamkeit über vorhergehende Schichten ersetzen.
🔹 Ermöglicht es Netzwerken, vergangene Repräsentationen selektiv abzurufen, wodurch Verdünnung und Wachstum des verborgenen Zustands auf natürliche Weise gemildert werden.
🔹 Führt Block AttnRes ein, das Schichten in komprimierte Blöcke unterteilt, um die interschichtliche Aufmerksamkeit in großem Maßstab praktikabel zu machen.
🔹 Dient als effizienter Drop-in-Ersatz und zeigt einen 1,25-fachen Rechenvorteil mit vernachlässigbarem (<2%) Inferenzlatenzaufwand.
🔹 Validiert auf der Kimi Linear-Architektur (48B insgesamt, 3B aktivierte Parameter), die konsistente Leistungssteigerungen im Downstream liefert.
🔗Vollständiger Bericht:

218
Andrew Ng hat gerade eines der größten Probleme mit Agenten gelöst.
Er hat Context Hub veröffentlicht, ein CLI-Tool, um aktuelle API-Dokumentationen abzurufen.
Ein Befehl. Der Agent erhält genau das, was er braucht, bevor er eine einzige Zeile Code schreibt.
Agenten, die vor Monaten trainiert wurden, fliegen blind. Sie erfinden Parameternamen. Sie rufen Funktionen auf, die nicht mehr existieren. Sie schreiben selbstbewusst Code gegen eine Spezifikation, die sich in der letzten Version geändert hat.
> Keine halluzinierten Parameter mehr
> Dokumente frisch vor jedem Aufruf abgerufen
> Agenten protokollieren nützliche Entdeckungen
> Notizen bleiben zwischen den Sitzungen bestehen
Der Agent führt einen CLI-Befehl aus, bevor er den Code berührt. Anstatt sich auf veraltete Daten zu verlassen, liest er die tatsächliche Spezifikation.
Schnelllebige APIs bedeuteten früher, dass man einen Dokumentenstapel in jedem Prompt pflegen musste. Jetzt erledigt der Agent diese Arbeit selbst.
Wenn er eine Umgehungslösung findet, speichert er eine Notiz für das nächste Mal.

1,48K
Top
Ranking
Favoriten
