Vậy là Esolang-Bench đã trở nên nổi tiếng chỉ sau một đêm! Rất nhiều cuộc thảo luận đã diễn ra; đề cập đến một số điểm chung đã được nêu ra. a) Tại sao lại làm điều đó? Nó có đo lường được điều gì hữu ích không? b) Nhưng con người cũng không thể viết các ngôn ngữ huyền bí một cách tốt. Đây là một so sánh không công bằng. c) Nhưng Claude Code thì lại làm rất tốt. Bạn đã giới hạn các mô hình một cách nhân tạo. d) Vậy, liệu các LLM có bị thổi phồng không? Hay nghiên cứu của chúng tôi chỉ là clickbait?