Ответы на несколько вопросов о нашем Esolang-Bench. a) Зачем это делать? Измеряет ли это что-то полезное? Это был проект, движимый любопытством. Нам интересно, как люди демонстрируют эффективность выборки в обучении и обобщение вне распределения (OOD). Поэтому мы просто спросили: если модели могут давать правильные ответы с нулевым/немногими примерами для простых программных задач на Python, могут ли они сделать то же самое на эзотерических языках? Бенчмарк таков, каков он есть. Разные люди могут по-разному интерпретировать его полезность, и мы это приветствуем. b) Но люди тоже не могут хорошо писать на эзотерических языках. Это несправедливое сравнение. Прежде всего, нас интересует измерение возможностей LLM. С учетом разговоров об ASI предполагается, что их возможности вскоре станут сверхчеловеческими. Поэтому наша основная мотивация заключалась не в сравнении с людьми, а в проверке того, что они могут сделать с этим сложным бенчмарком, созданным по конструкции. Тем не менее, мы действительно верим, что люди могут обучать себя новому направлению, передавая свои старые навыки. Поэтому этот бенчмарк был установлен как отправная точка для изучения того, как AI-системы могут делать то же самое (что мы сейчас и исследуем). c) Но Claude Code справляется с этим. Вы искусственно ограничили модели. Да, мы тестировали модели на нулевых и немногих примерах. И в агентном цикле, который мы описываем в статье, мы ограничиваем количество итераций. Как мы уже писали выше, мы хотели понять их производительность с сравнительной точки зрения (например, на высоко представленных языках, таких как Python), и именно поэтому бенчмарк по дизайну таков. После завершения статьи мы экспериментировали с агентными системами, где мы предоставили моделям инструменты, такие как bash, и разрешили неограниченное количество итераций (но ограничили попытки отправки). Они действительно показывают гораздо лучшие результаты. Вопрос, который имеет значение, заключается в том, что заставляет эти модели так хорошо работать, когда вы даете им инструменты и итерации по сравнению с тем, когда вы этого не делаете. Они рассуждают/учатся как люди или это что-то другое? d) Так, LLM переоценены? Или наше исследование — это кликбейт? Статья, код и бенчмарк все открыты 👇 Мы призываем всех заинтересованных прочитать это и составить собственное мнение. (Мы не могли не заметить, что *одинаковый* набор результатов был интерпретирован совершенно по-разному в сообществе. Разразилась дискуссия между противостоящими лагерями LLM. Возможно, это хорошая вещь?)