Jeg svarer på noen spørsmål om vår Esolang-benk. a) Hvorfor gjøre det? Måler den noe nyttig? Det var et prosjekt drevet av nysgjerrighet. Vi er interessert i hvordan mennesker viser utvalgseffektivitet i læring og OOD-generalisering. Så vi spurte enkelt: hvis modeller kan null/få skudd riktige svar på enkle programmeringsproblemer i Python, kan de gjøre det samme i esoteriske språk også? Referansepunktet er som det er. Ulike personer kan tolke nytten forskjellig, og vi oppmuntrer til det. b) Men mennesker kan heller ikke skrive esoteriske språk godt. Det er en urettferdig sammenligning. Først og fremst er vi interessert i å måle LLM-kapasiteter. Med snakk om ASI antas det at deres evner snart vil bli overmenneskelige. Så vår primære motivasjon var ikke å sammenligne oss med mennesker, men å sjekke hva de kan gjøre denne vanskelige referansepunktet som en bykonstruksjon. Vi tror imidlertid at mennesker kan lære seg et nytt domene ved å overføre sine gamle ferdigheter. Så denne målestokken var for å sette et utgangspunkt for å utforske hvordan AI-systemer også kan gjøre det samme (som er det vi utforsker nå). c) Men Claude Code knuser det. Du begrenset modellene kunstig. Ja, vi testet modeller med null og få skudd. Og i den agentiske løkken vi beskriver i artikkelen, begrenser vi antall iterasjoner. Som vi skrev ovenfor, ønsket vi å forstå ytelsen deres fra et komparativt ståsted (for eksempel på høyt representerte språk som Python), og det er etter målestokken som er designet slik. Etter at artikkelen var ferdigstilt, eksperimenterte vi med agentiske systemer hvor vi ga modellene verktøy som bash og tillot ubegrensede iterasjoner (men begrensede innsendingsforsøk). De presterer faktisk mye bedre. Det relevante spørsmålet er hva som gjør at disse modellene presterer så godt når du gir dem verktøy og iterasjoner, kontra når du ikke gjør det. Resonnerer eller lærer de som mennesker, eller er det noe annet? d) Så, er LLM-er hypet? Eller er studiene våre clickbait? Artikkelen, koden og benchmarken er alle åpen kildekode 👇 Vi oppfordrer alle som er interessert til å lese den, og danne seg en egen mening. (Vi kunne ikke unngå å legge merke til at det *samme* settet med resultater ble tolket svært forskjellig i fellesskapet. En debatt mellom motstridende leirer av LLM-er fulgte. Kanskje det er en god ting?)