我們需要新的基準來評估低複雜度解決方案以解決問題。 每個新功能就像塔中的一個積木,而當前的基準僅僅評估每個積木的組裝效果。 我們需要能夠追蹤在塔倒塌之前可以堆疊多高的評估。