Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esolang-Bench'imiz hakkında birkaç soruya yanıtlanıyorum.
a) Neden yapıyorsun? Faydalı bir şey ölçüyor mu?
Merak odaklı bir projeydi. İnsanların öğrenmede ve OOD genellemesinde örnek verimliliği nasıl gösterdikleriyle ilgileniyoruz. Bu yüzden sadece sorduk: Modeller Python'da basit programlama problemlerine sıfır/az doğru cevap verebiliyorsa, ezoterik dillerde de aynı şeyi yapabilirler mi?
Kıyaslama noktası olduğu gibi. Farklı insanlar faydasını farklı şekilde yorumlayabilir ve biz bunu teşvik ediyoruz.
b) Ama insanlar ezoterik dilleri de iyi yazamaz. Bu haksız bir karşılaştırma.
Öncelikle, LLM yeteneklerini ölçmekle ilgileniyoruz. ASI hakkında konuşulan bir şekilde, yeteneklerinin yakında süper insan olacağı varsayılır. Bu yüzden birincil motivasyonumuz insanlarla karşılaştırmak değil, bu yapısal olarak zor bir kıyasa nasıl yaklaşabileceklerini kontrol etmekti.
Ancak, insanların eski becerilerini aktararak kendilerine yeni bir alan öğretebildiklerine inanıyoruz. Bu kıyas, yapay zeka sistemlerinin de aynı şeyi nasıl yapabileceğini keşfetmek için bir başlangıç noktası belirlemekti (şimdi de bunu araştırıyoruz).
c) Ama Claude Code bunu eziyor. Modelleri yapay olarak sınırladın.
Evet, modelleri sıfır ve az atış yeteneğiyle test ettik. Makalede anlattığımız ajanik döngüde, yineleme sayısını sınırlıyoruz. Yukarıda yazdığımız gibi, performanslarını karşılaştırmalı bir bakış açısından anlamak istedik (örneğin Python gibi yüksek temsil edilen dillerde) ve bu tasarım kıyaslaması böyle.
Makale tamamlandıktan sonra, modellere bash gibi araçlar verdiğimiz ve sınırsız yinelemelere izin verdiğimiz (ama sınırlı gönderim denemeleri) sunan ajanik sistemlerle denemeler yaptık. Gerçekten çok daha iyi performans gösteriyorlar.
İlgili olan soru, bu modellerin araçlar ve yinelemeler verdiğinizde bu kadar iyi performans gösteren nesi olduğu, vermediğinizde ise neden bu kadar iyi performans gösterdiği. İnsanlar gibi mu akıl yürüyor / öğreniyorlar yoksa başka bir şey mi?
d) Peki, LLM'ler çok mu heyecanlanıyor? Yoksa çalışmamız tıklama tuzağı mı?
Makale, kod ve kıyaslama tamamen açık kaynaklıdır 👇
İlgilenen herkesi okumaya ve kendi kararlarını vermeye teşvik ediyoruz.
(Aynı sonuçların topluluk içinde çok farklı yorumlandığını fark etmeden edemeydik. LLM'lerin karşıt kampları arasında bir tartışma başladı. Belki de bu iyi bir şey?)
En İyiler
Sıralama
Takip Listesi
