Итак, Esolang-Bench стал вирусным за одну ночь! Начались обсуждения; рассмотрим некоторые общие вопросы, которые возникли. a) Зачем это делать? Измеряет ли это что-то полезное? b) Но люди тоже не могут хорошо писать эзотерические языки. Это несправедливое сравнение. c) Но Claude Code справляется с этим. Вы искусственно ограничили модели. d) Так, LLMs переоценены? Или наше исследование - это кликбейт?