Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Menjawab beberapa pertanyaan tentang Esolang-Bench kami.
a) Mengapa melakukannya? Apakah itu mengukur sesuatu yang berguna?
Itu adalah proyek yang didorong oleh rasa ingin tahu. Kami tertarik pada bagaimana manusia menunjukkan efisiensi sampel dalam pembelajaran dan generalisasi OOD. Jadi kami hanya bertanya: jika model dapat nol/beberapa jawaban yang benar untuk masalah pemrograman sederhana di Python, dapatkah mereka melakukan hal yang sama dalam bahasa esoterik juga?
Tolok ukurnya adalah apa adanya. Orang yang berbeda dapat menafsirkan kegunaannya secara berbeda, dan kami mendorong itu.
b) Tetapi manusia juga tidak bisa menulis bahasa esoteris dengan baik. Ini adalah perbandingan yang tidak adil.
Terutama, kami tertarik untuk mengukur kemampuan LLM. Dengan pembicaraan tentang ASI, diduga bahwa kemampuan mereka akan segera menjadi manusia super. Jadi, motivasi utama kami bukan untuk membandingkan dengan manusia tetapi untuk memeriksa apa yang dapat mereka lakukan dengan tolok ukur sulit konstruksi ini.
Namun, kami percaya bahwa manusia mampu mengajari diri mereka sendiri domain baru dengan mentransfer keterampilan lama mereka. Jadi tolok ukur ini adalah untuk menetapkan titik awal untuk mengeksplorasi bagaimana sistem AI dapat melakukan hal yang sama juga (yang sedang kita jelajahi sekarang)
c) Tapi Claude Code menghancurkannya. Anda membatasi model secara artifisial.
Ya, kami menguji model dalam kemampuan tembakan nol dan sedikit. Dan dalam loop agen yang kita jelaskan dalam makalah, kita membatasi jumlah iterasi. Seperti yang kami tulis di atas, kami ingin memahami kinerja mereka dari sudut pandang komparatif (katakanlah pada bahasa yang sangat terwakili seperti Python) dan itu dengan tolok ukur dengan desain seperti ini.
Setelah makalah selesai, kami bereksperimen dengan sistem agen di mana kami memberi model alat seperti bash dan mengizinkan iterasi tak terbatas (tetapi upaya pengiriman terbatas). Mereka memang tampil jauh lebih baik.
Pertanyaan yang relevan adalah apa yang membuat model-model ini berkinerja sangat baik ketika Anda memberi mereka alat dan iterasi v/s ketika Anda tidak melakukannya. Apakah mereka bernalar / belajar seperti manusia atau apakah itu sesuatu yang lain?
d) Jadi, apakah LLM digembar-gemborkan? Atau apakah studi kami adalah clickbait?
Kertas, kode, dan benchmark semuanya open source 👇
Kami mendorong siapa pun yang tertarik untuk membacanya, dan mengambil keputusan sendiri.
(Kami tidak dapat tidak memperhatikan bahwa serangkaian hasil yang *sama* ditafsirkan secara sangat berbeda dalam komunitas. Perdebatan antara kubu LLM yang berlawanan terjadi. Mungkin itu hal yang baik?)
Teratas
Peringkat
Favorit
