Jadi Esolang-Bench menjadi viral dalam semalam! Banyak diskusi terjadi; membahas beberapa poin umum yang muncul. a) Mengapa melakukannya? Apakah itu mengukur sesuatu yang berguna? b) Tetapi manusia juga tidak bisa menulis bahasa esoteris dengan baik. Ini adalah perbandingan yang tidak adil. c) Tapi Claude Code menghancurkannya. Anda membatasi model secara artifisial. d) Jadi, apakah LLM digembar-gemborkan? Atau apakah studi kami adalah clickbait?