We hebben nieuwe benchmarks nodig voor oplossingen met lage complexiteit om codeproblemen op te lossen. Elke nieuwe functie is als een jenga-blok in een toren, en de huidige benchmarks rangschikken alleen hoe goed elk blok is samengesteld. We hebben evaluaties nodig die bijhouden hoe hoog je de blokken kunt stapelen voordat de toren instort.