Es ist wichtig zu bestätigen, dass Ihre Bibliothek von LLMs verwendet werden kann. Der LLM, der Flash Attention in Tinygrad codiert hat, übertrifft den AOTriton in PyTorch auf meinem AMD Strix Halo.
harshbajpai
harshbajpaiVor 14 Stunden
Haha, geohot taggt PRs mit der Zeile "ai slop" XD
Und es ist nicht einmal nah. Es ist 1,8x schneller. Dies geschieht mit der tinygrad DSL. Der Ersatz für BEAM wird LLM sein.
74