Affrontare alcune domande sul nostro Esolang-Bench. a) Perché farlo? Misura qualcosa di utile? È stato un progetto guidato dalla curiosità. Siamo interessati a come gli esseri umani mostrano efficienza nei campioni nell'apprendimento e generalizzazione OOD. Quindi abbiamo semplicemente chiesto: se i modelli possono fornire risposte corrette in zero/poche prove per semplici problemi di programmazione in Python, possono fare lo stesso anche in linguaggi esoterici? Il benchmark è ciò che è. Diverse persone possono interpretarne l'utilità in modi diversi, e incoraggiamo questo. b) Ma gli esseri umani non possono nemmeno scrivere bene i linguaggi esoterici. È un confronto ingiusto. Principalmente, siamo interessati a misurare le capacità dei LLM. Con il discorso sull'ASI, si suppone che le loro capacità diventeranno presto sovrumane. Quindi, la nostra motivazione principale non era confrontarli con gli esseri umani, ma verificare cosa possono fare con questo benchmark difficile per costruzione. Tuttavia, crediamo che gli esseri umani siano in grado di insegnare a se stessi un nuovo dominio trasferendo le loro vecchie abilità. Quindi questo benchmark è stato impostato come punto di partenza per esplorare come i sistemi AI possano fare lo stesso (che è ciò che stiamo esplorando ora). c) Ma Claude Code lo schiaccia. Hai limitato i modelli artificialmente. Sì, abbiamo testato i modelli nelle capacità di zero e poche prove. E nel ciclo agentico che descriviamo nel documento, limitiamo il numero di iterazioni. Come abbiamo scritto sopra, volevamo comprendere le loro prestazioni da un punto di vista comparativo (ad esempio su linguaggi altamente rappresentati come Python) e questo è come il benchmark è progettato. Dopo che il documento è stato finalizzato, abbiamo sperimentato con sistemi agentici dove abbiamo dato ai modelli strumenti come bash e consentito iterazioni illimitate (ma limitato i tentativi di invio). In effetti, si comportano molto meglio. La domanda rilevante è cosa rende questi modelli così performanti quando gli dai strumenti e iterazioni rispetto a quando non lo fai. Stanno ragionando / apprendendo come gli esseri umani o è qualcos'altro? d) Quindi, i LLM sono sopravvalutati? O il nostro studio è clickbait? Il documento, il codice e il benchmark sono tutti open source 👇 Incoraggiamo chiunque sia interessato a leggerlo e a farsi una propria opinione. (Non possiamo fare a meno di notare che lo *stesso* insieme di risultati è stato interpretato in modo molto diverso all'interno della comunità. È emerso un dibattito tra campi opposti di LLM. Forse è una cosa positiva?)