Jag svarar på några frågor om vår Esolang-Bench. a) Varför göra det? Mäter den något användbart? Det var ett projekt drivet av nyfikenhet. Vi är intresserade av hur människor uppvisar proveffektivitet i inlärning och OOD-generalisering. Så vi frågade helt enkelt: om modeller kan ge noll/få rätt svar på enkla programmeringsproblem i Python, kan de då göra detsamma i esoteriska språk också? Riktmärket är vad det är. Olika personer kan tolka dess användbarhet olika, och vi uppmuntrar det. b) Men människor kan inte heller skriva esoteriska språk särskilt bra. Det är en orättvis jämförelse. Främst är vi intresserade av att mäta LLM:s kapacitet. Med talet om ASI antas det att deras förmågor snart kommer att vara övermänskliga. Så vår främsta motivation var inte att jämföra med människor utan att se vad de kan göra denna svåra och bikonstruktionsmässiga riktmärke. Vi tror dock att människor kan lära sig ett nytt område genom att överföra sina gamla färdigheter. Så denna riktlinje var för att sätta en utgångspunkt för att utforska hur AI-system också kan göra samma sak (vilket är vad vi undersöker nu). c) Men Claude Code krossar det. Du begränsade modellerna konstgjort. Ja, vi testade modeller med noll och få skott. Och i den agentiska slinga vi beskriver i artikeln begränsar vi antalet iterationer. Som vi skrev ovan ville vi förstå deras prestanda ur ett jämförande perspektiv (till exempel på mycket representerade språk som Python) och det är enligt riktmärket så här. Efter att artikeln var färdigställd experimenterade vi med agentiska system där vi gav modeller verktyg som bash och tillät obegränsade iterationer (men begränsade inskickningsförsök). De presterar faktiskt mycket bättre. Den relevanta frågan är vad som gör att dessa modeller presterar så bra när man ger dem verktyg och iterationer jämfört med när man inte gör det. Resonerar eller lär de sig som människor eller är det något annat? d) Så, är LLM hypade? Eller är vår studie clickbait? Artikeln, koden och benchmarken är alla open source 👇 Vi uppmuntrar alla som är intresserade att läsa den och bilda sig en egen uppfattning. (Vi kunde inte låta bli att märka att *samma* uppsättning resultat tolkades helt olika inom gemenskapen. En debatt mellan motsatta läger av LLM:er följde. Kanske är det en bra sak?)