Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abordando algumas questões sobre o nosso Esolang-Bench.
a) Por que fazê-lo? Mede algo útil?
Foi um projeto impulsionado pela curiosidade. Estamos interessados em como os humanos exibem eficiência amostral na aprendizagem e generalização fora da distribuição (OOD). Então, simplesmente perguntamos: se os modelos conseguem respostas corretas em zero/poucas tentativas para problemas simples de programação em Python, conseguem fazer o mesmo em linguagens esotéricas também?
O benchmark é o que é. Diferentes pessoas podem interpretar sua utilidade de maneiras diferentes, e encorajamos isso.
b) Mas os humanos também não conseguem escrever bem em linguagens esotéricas. É uma comparação injusta.
Principalmente, estamos interessados em medir as capacidades dos LLMs. Com a conversa sobre ASI, supõe-se que suas capacidades em breve serão sobre-humanas. Portanto, nossa motivação principal não era comparar com humanos, mas verificar o que eles podem fazer neste benchmark difícil por construção.
No entanto, acreditamos que os humanos são capazes de se ensinar um novo domínio transferindo suas habilidades antigas. Portanto, este benchmark foi para estabelecer um ponto de partida para explorar como os sistemas de IA podem fazer o mesmo (que é o que estamos explorando agora).
c) Mas o Claude Code arrasa. Você limitou os modelos artificialmente.
Sim, testamos modelos em capacidades de zero e poucas tentativas. E no loop agente que descrevemos no artigo, limitamos o número de iterações. Como escrevemos acima, queríamos entender seu desempenho de um ponto de vista comparativo (digamos, em linguagens altamente representadas como Python) e é assim que o benchmark foi projetado.
Após a finalização do artigo, experimentamos com sistemas agentes onde fornecemos ferramentas como bash e permitimos iterações ilimitadas (mas limitamos as tentativas de submissão). Eles realmente se saem muito melhor.
A questão relevante é o que faz esses modelos se saírem tão bem quando você lhes dá ferramentas e iterações em comparação a quando não dá. Eles estão raciocinando/aprendendo como humanos ou é algo diferente?
d) Então, os LLMs estão superestimados? Ou nosso estudo é clickbait?
O artigo, o código e o benchmark são todos de código aberto 👇
Encorajamos quem estiver interessado a lê-lo e formar sua própria opinião.
(Não pudemos deixar de notar que o *mesmo* conjunto de resultados foi interpretado de maneira muito diferente dentro da comunidade. Um debate entre campos opostos de LLMs surgiu. Talvez isso seja uma coisa boa?)
Top
Classificação
Favoritos
