DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Répondre à quelques questions sur notre Esolang-Bench. a) Pourquoi le faire ? Cela mesure-t-il quelque chose d'utile ? C'était un projet motivé par la curiosité. Nous sommes intéressés par la façon dont les humains montrent une efficacité d'échantillonnage dans l'apprentissage et la généralisation OOD. Nous avons donc simplement demandé : si les modèles peuvent donner des réponses correctes en zéro ou peu d'exemples pour des problèmes de programmation simples en Python, peuvent-ils faire de même dans des langages ésotériques ? Le benchmark est ce qu'il est. Différentes personnes peuvent interpréter son utilité de manière différente, et nous encourageons cela. b) Mais les humains ne peuvent pas non plus bien écrire des langages ésotériques. C'est une comparaison injuste. Principalement, nous sommes intéressés par la mesure des capacités des LLM. Avec le discours sur l'ASI, il est supposé que leurs capacités seront bientôt surhumaines. Donc, notre motivation principale n'était pas de comparer aux humains mais de vérifier ce qu'ils peuvent faire avec ce benchmark difficile par construction. Cependant, nous croyons que les humains sont capables de s'enseigner un nouveau domaine en transférant leurs anciennes compétences. Donc, ce benchmark était pour établir un point de départ pour explorer comment les systèmes d'IA peuvent faire de même (ce que nous explorons maintenant). c) Mais Claude Code le surpasse. Vous avez limité les modèles artificiellement. Oui, nous avons testé les modèles en capacités zéro et peu d'exemples. Et dans la boucle agentique que nous décrivons dans le document, nous limitons le nombre d'itérations. Comme nous l'avons écrit ci-dessus, nous voulions comprendre leur performance d'un point de vue comparatif (par exemple sur des langages très représentés comme Python) et c'est ainsi que le benchmark est conçu. Après que le document a été finalisé, nous avons expérimenté avec des systèmes agentiques où nous avons donné aux modèles des outils comme bash et permis des itérations illimitées (mais limitées en tentatives de soumission). Ils performent effectivement beaucoup mieux. La question pertinente est de savoir ce qui fait que ces modèles performent si bien lorsque vous leur donnez des outils et des itérations par rapport à quand vous ne le faites pas. Raisonnent-ils / apprennent-ils comme des humains ou est-ce autre chose ? d) Alors, les LLM sont-ils surestimés ? Ou notre étude est-elle du clickbait ? Le document, le code et le benchmark sont tous open source 👇 Nous encourageons quiconque intéressé à le lire et à se faire sa propre opinion. (Nous n'avons pas pu nous empêcher de remarquer que le *même* ensemble de résultats a été interprété de manière très différente au sein de la communauté. Un débat entre des camps opposés de LLMs a eu lieu. Peut-être que c'est une bonne chose ?)

Meilleurs

Classement

Favoris