Det är viktigt att bekräfta att ditt bibliotek kan användas av LLM:er. Den LLM-kodade flash attention i tinygrad överträffar AOTriton-flashen i PyTorch på min AMD Strix Halo.
harshbajpai
harshbajpai18 timmar sedan
Haha, geohot taggar PR med raden "ai slop" XD
Och det är inte nära. Det är 1,8 gånger snabbare. Detta är med hjälp av tinygrad DSL. Ersättningen för BEAM kommer att vara LLM.
194