Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giải đáp một vài câu hỏi về Esolang-Bench của chúng tôi.
a) Tại sao lại làm điều đó? Nó có đo lường điều gì hữu ích không?
Đây là một dự án được thúc đẩy bởi sự tò mò. Chúng tôi quan tâm đến cách mà con người thể hiện hiệu quả mẫu trong việc học và tổng quát OOD. Vì vậy, chúng tôi đơn giản đã đặt câu hỏi: nếu các mô hình có thể đưa ra câu trả lời đúng trong một vài lần thử cho các vấn đề lập trình đơn giản bằng Python, thì liệu chúng có thể làm điều tương tự trong các ngôn ngữ kỳ quái không?
Bảng chuẩn là như vậy. Những người khác nhau có thể diễn giải tính hữu ích của nó khác nhau, và chúng tôi khuyến khích điều đó.
b) Nhưng con người cũng không thể viết các ngôn ngữ kỳ quái tốt. Đây là một so sánh không công bằng.
Chủ yếu, chúng tôi quan tâm đến việc đo lường khả năng của LLM. Với cuộc nói chuyện về ASI, người ta cho rằng khả năng của chúng sẽ sớm vượt trội hơn con người. Vì vậy, động lực chính của chúng tôi không phải là so sánh với con người mà là kiểm tra xem chúng có thể làm gì với bảng chuẩn khó khăn này.
Tuy nhiên, chúng tôi tin rằng con người có khả năng tự dạy mình một lĩnh vực mới bằng cách chuyển giao kỹ năng cũ của họ. Vì vậy, bảng chuẩn này được thiết lập như một điểm khởi đầu để khám phá cách mà các hệ thống AI có thể làm điều tương tự (đó là điều mà chúng tôi đang khám phá bây giờ)
c) Nhưng Claude Code vượt trội hơn. Bạn đã giới hạn các mô hình một cách nhân tạo.
Vâng, chúng tôi đã thử nghiệm các mô hình trong khả năng zero và few shot. Và trong vòng lặp tác động mà chúng tôi mô tả trong bài báo, chúng tôi giới hạn số lần lặp lại. Như chúng tôi đã viết ở trên, chúng tôi muốn hiểu hiệu suất của chúng từ góc độ so sánh (ví dụ trên các ngôn ngữ được đại diện nhiều như Python) và đó là lý do bảng chuẩn được thiết kế như vậy.
Sau khi bài báo được hoàn thiện, chúng tôi đã thử nghiệm với các hệ thống tác động mà chúng tôi đã cung cấp cho các mô hình công cụ như bash và cho phép số lần lặp không giới hạn (nhưng giới hạn số lần nộp). Chúng thực sự hoạt động tốt hơn nhiều.
Câu hỏi liên quan là điều gì khiến các mô hình này hoạt động tốt như vậy khi bạn cung cấp cho chúng công cụ và số lần lặp so với khi bạn không làm vậy. Chúng có lý luận / học hỏi như con người hay đó là điều gì khác?
d) Vậy, LLM có bị thổi phồng không? Hay nghiên cứu của chúng tôi chỉ là clickbait?
Bài báo, mã nguồn và bảng chuẩn đều là mã nguồn mở 👇
Chúng tôi khuyến khích bất kỳ ai quan tâm đọc nó và tự đưa ra quyết định của riêng mình.
(Chúng tôi không thể không nhận thấy rằng bộ kết quả *giống hệt* đã được diễn giải rất khác nhau trong cộng đồng. Một cuộc tranh luận giữa các trại đối lập của LLM đã nổ ra. Có lẽ đó là điều tốt?)
Hàng đầu
Thứ hạng
Yêu thích
