AVISO: Si tienes múltiples MacBooks que soportan RDMA, puedes agruparlos usando @exolabs y ejecutar modelos de 30B+ a 70 tok/s a través de thunderbolt5. El paralelismo tensorial en hardware de consumo es un problema resuelto. Estás alquilando GPUs que son peores que la laptop en tu sofá. 2X M4 Max (64GB cada uno) ejecutando mlx-community/Qwen3-30B-A3B-4bit a 70 TPS