Aviso: Se você tem vários MacBooks que suportam RDMA, pode agrupá-los usando @exolabs e rodar modelos 30B+ a 70 tok/s via thunderbolt5. O paralelismo tensorial em hardware de consumo é um problema resolvido. você está alugando GPUs que são piores que o laptop no seu sofá. 2X M4 Max (64GB cada) rodando mlx-community/Qwen3-30B-A3B-4bit @ 70 TPS