Beantwortung einiger Fragen zu unserem Esolang-Bench. a) Warum das? Misst es etwas Nützliches? Es war ein neugiergesteuertes Projekt. Wir sind daran interessiert, wie Menschen Effizienz im Lernen und OOD-Generalisation zeigen. Also haben wir einfach gefragt: Wenn Modelle in der Lage sind, bei einfachen Programmierproblemen in Python mit Null- oder wenigen Beispielen korrekte Antworten zu geben, können sie das auch in esoterischen Sprachen? Der Benchmark ist, was er ist. Verschiedene Menschen können seinen Nutzen unterschiedlich interpretieren, und das ermutigen wir. b) Aber Menschen können auch keine esoterischen Sprachen gut schreiben. Es ist ein unfairer Vergleich. Primär sind wir daran interessiert, die Fähigkeiten von LLMs zu messen. Mit dem Gespräch über ASI wird angenommen, dass ihre Fähigkeiten bald übermenschlich sein werden. Daher war unsere primäre Motivation nicht, einen Vergleich zu Menschen anzustellen, sondern zu überprüfen, was sie mit diesem absichtlich schwierigen Benchmark leisten können. Wir glauben jedoch, dass Menschen in der Lage sind, sich ein neues Gebiet beizubringen, indem sie ihre alten Fähigkeiten übertragen. Dieser Benchmark sollte also einen Ausgangspunkt setzen, um zu erkunden, wie KI-Systeme das Gleiche tun können (was wir jetzt erkunden). c) Aber Claude Code übertrifft es. Sie haben die Modelle künstlich limitiert. Ja, wir haben Modelle in Bezug auf Null- und wenige Beispiele getestet. Und im agentischen Loop, den wir im Papier beschreiben, begrenzen wir die Anzahl der Iterationen. Wie oben geschrieben, wollten wir ihre Leistung aus einem vergleichenden Blickwinkel verstehen (sagen wir bei stark vertretenen Sprachen wie Python), und das ist absichtlich so gestaltet. Nachdem das Papier finalisiert war, experimentierten wir mit agentischen Systemen, bei denen wir den Modellen Werkzeuge wie Bash gaben und unbegrenzte Iterationen erlaubten (aber die Anzahl der Einreichungsversuche begrenzten). Sie schneiden tatsächlich viel besser ab. Die relevante Frage ist, was diese Modelle so gut abschneiden lässt, wenn man ihnen Werkzeuge und Iterationen gibt, im Vergleich dazu, wenn man das nicht tut. Lernen sie wie Menschen oder ist es etwas anderes? d) Sind LLMs überbewertet? Oder ist unsere Studie Clickbait? Das Papier, der Code und der Benchmark sind alle Open Source 👇 Wir ermutigen jeden, der interessiert ist, es zu lesen und sich eine eigene Meinung zu bilden. (Wir konnten nicht umhin zu bemerken, dass die *gleichen* Ergebnisse innerhalb der Community völlig unterschiedlich interpretiert wurden. Eine Debatte zwischen gegensätzlichen Lagern von LLMs entbrannte. Vielleicht ist das eine gute Sache?)