🚨 Mengejutkan: LLM Frontier mendapat skor 85-95% pada tolok ukur pengkodean standar. Kami memberi mereka masalah yang setara dalam bahasa yang tidak dapat mereka hafal. Mereka runtuh menjadi 0-11%. Menghadirkan EsoLang-Bench. Diterima di lokakarya Penalaran Logis dan ICBINB di ICLR 2026 🧵