Bảng điểm AI 1 triệu đô la Thay vì hỏi "nó có đúng không?" Điều này hỏi: "Có ai sẵn sàng trả tiền cho nó không?" Trên 1 triệu đô la cho các nhiệm vụ thực tế của chuyên gia, các mô hình hàng đầu chỉ hoàn thành khoảng 40–48%. Mô hình tốt nhất: Claude Opus-4.6. Khoảng cách lớn không phải là kiến thức, mà là khả năng thực hiện. Các mô hình bỏ lỡ các bước, ràng buộc và chi tiết. AI rất mạnh mẽ. Chỉ là chưa đáng tin cậy từ đầu đến cuối. Thú vị khi thấy con số này tăng lên 📈
Liên kết đến nghiên cứu:
174