Odpowiadając na kilka pytań dotyczących naszego Esolang-Bench. a) Po co to robić? Czy to mierzy coś użytecznego? To był projekt napędzany ciekawością. Interesuje nas, jak ludzie wykazują efektywność próbkowania w uczeniu się i generalizację OOD. Po prostu zapytaliśmy: jeśli modele mogą w trybie zero/few shot udzielać poprawnych odpowiedzi na proste problemy programistyczne w Pythonie, czy mogą to samo zrobić w językach ezoterycznych? Benchmark jest tym, czym jest. Różni ludzie mogą różnie interpretować jego użyteczność i zachęcamy do tego. b) Ale ludzie też nie potrafią dobrze pisać w językach ezoterycznych. To niesprawiedliwe porównanie. Głównie interesuje nas pomiar możliwości LLM. W związku z rozmowami o ASI, zakłada się, że ich możliwości wkrótce będą ponadludzkie. Naszą główną motywacją nie było porównywanie do ludzi, ale sprawdzenie, co mogą zrobić w tym trudnym benchmarku, który został stworzony. Jednak wierzymy, że ludzie są w stanie nauczyć się nowej dziedziny, przenosząc swoje stare umiejętności. Dlatego ten benchmark miał na celu ustalenie punktu wyjścia do zbadania, jak systemy AI mogą zrobić to samo (co teraz badamy). c) Ale Claude Code radzi sobie z tym świetnie. Ograniczyliście modele sztucznie. Tak, testowaliśmy modele w zakresie możliwości zero i few shot. A w pętli agentowej, którą opisujemy w artykule, ograniczamy liczbę iteracji. Jak napisaliśmy powyżej, chcieliśmy zrozumieć ich wydajność z punktu widzenia porównawczego (powiedzmy w przypadku języków o wysokiej reprezentacji, takich jak Python) i dlatego benchmark został zaprojektowany w ten sposób. Po sfinalizowaniu artykułu eksperymentowaliśmy z systemami agentowymi, w których daliśmy modelom narzędzia, takie jak bash, i pozwoliliśmy na nieograniczone iteracje (ale ograniczone próby przesyłania). Rzeczywiście radzą sobie znacznie lepiej. Pytanie, które jest istotne, to co sprawia, że te modele radzą sobie tak dobrze, gdy dajesz im narzędzia i iteracje w porównaniu do sytuacji, gdy tego nie robisz. Czy rozumieją / uczą się jak ludzie, czy to coś innego? d) Czy LLM są przereklamowane? Czy nasze badanie to clickbait? Artykuł, kod i benchmark są wszystkie open source 👇 Zachęcamy każdego, kto jest zainteresowany, do przeczytania tego i wyrobienia sobie własnej opinii. (Nie mogliśmy nie zauważyć, że *ta sama* grupa wyników była interpretowana w bardzo różny sposób w społeczności. Rozpoczęła się debata między przeciwnymi obozami LLM. Może to dobra rzecz?)