1/ Temos uma crise de escalabilidade de hardware. Os núcleos de tensor GPU estão dobrando de velocidade, mas a largura de banda de memória e as unidades matemáticas exponenciais estão estagnadas. Os seus kernels de atenção estão ociosos enquanto esperam que a matemática básica termine. 🧵