Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Xây dựng @EurekaLabsAI. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, CS231n / PhD @ Stanford. Tôi thích đào tạo các mạng nơ-ron sâu lớn.
nanochat giờ đây có thể huấn luyện mô hình LLM cấp độ GPT-2 với <<$100 (~$73, 3 giờ trên một nút 8XH100 đơn).
GPT-2 là mô hình LLM yêu thích của tôi vì đây là lần đầu tiên mà hệ thống LLM được kết hợp lại theo một hình thức hiện đại dễ nhận biết. Vì vậy, tôi đã trở thành một người có chút ám ảnh kỳ lạ và lâu dài trong việc huấn luyện một mô hình đạt khả năng GPT-2 nhưng với chi phí rẻ hơn nhiều, với lợi ích từ ~7 năm tiến bộ. Cụ thể, tôi nghi ngờ rằng hôm nay có thể huấn luyện một mô hình với chi phí <<$100.
Ban đầu vào năm 2019, GPT-2 đã được OpenAI huấn luyện trên 32 chip TPU v3 trong 168 giờ (7 ngày), với giá $8/giờ/TPUv3 vào thời điểm đó, tổng chi phí khoảng $43K. Nó đạt được điểm CORE 0.256525, đây là một chỉ số tổng hợp được giới thiệu trong bài báo DCLM qua 22 đánh giá như ARC/MMLU/v.v.
Tính đến những cải tiến gần đây được hợp nhất vào nanochat (nhiều trong số đó xuất phát từ repo modded-nanogpt), tôi giờ đây có thể đạt được điểm CORE cao hơn trong 3.04 giờ (~$73) trên một nút 8XH100 đơn. Đây là sự giảm chi phí 600X trong 7 năm, tức là chi phí để huấn luyện GPT-2 đang giảm khoảng 2.5X mỗi năm. Tôi nghĩ đây có thể là một ước lượng thấp vì tôi vẫn đang tìm ra nhiều cải tiến tương đối thường xuyên và tôi có một danh sách các ý tưởng để thử.
Một bài viết dài hơn với nhiều chi tiết về các tối ưu hóa liên quan và hướng dẫn cách tái tạo có ở đây:
Lấy cảm hứng từ modded-nanogpt, tôi cũng đã tạo ra một bảng xếp hạng cho "thời gian đến GPT-2", nơi mô hình "Jan29" đầu tiên này là mục #1 với 3.04 giờ. Sẽ thật thú vị khi tiếp tục phát triển điều này và tôi rất hoan nghênh sự giúp đỡ! Hy vọng rằng nanochat có thể phát triển thành một công cụ LLM thí nghiệm rất đẹp/sạch và được tinh chỉnh để thử nghiệm ý tưởng, để vui vẻ, và tất nhiên là để học hỏi.
Những cải tiến lớn nhất của những thứ hoạt động ngay lập tức và đơn giản tạo ra lợi ích ngay lập tức là 1) các kernel Flash Attention 3 (nhanh hơn, và cho phép tham số window_size kwarg để có các mẫu chú ý luân phiên), bộ tối ưu hóa Muon (tôi đã thử trong ~1 ngày để xóa nó và chỉ sử dụng AdamW nhưng không thể), các đường dẫn dư và các kết nối bỏ qua được điều khiển bởi các số học có thể học được, và các nhúng giá trị. Còn nhiều điều nhỏ khác đã tích lũy lại.
Hình ảnh: đồ họa liên quan đến việc suy diễn các quy luật tỷ lệ cho loạt mô hình nanochat hiện tại, đẹp và thỏa mãn!

14
Tôi đang bị cáo buộc là đã thổi phồng quá mức về [trang web mà mọi người đã nghe quá nhiều hôm nay]. Phản ứng của mọi người rất đa dạng, từ "làm thế nào mà điều này lại thú vị" cho đến "nó đã kết thúc rồi".
Để thêm một vài từ ngoài những meme đùa giỡn - rõ ràng khi bạn nhìn vào hoạt động, đó là rất nhiều rác rưởi - spam, lừa đảo, những thứ tồi tệ, những người trong crypto, những cuộc tấn công tiêm nhiễm quyền riêng tư/bảo mật rất đáng lo ngại, và rất nhiều trong số đó là những bài viết/bình luận được kích thích và giả mạo rõ ràng nhằm chuyển đổi sự chú ý thành chia sẻ doanh thu quảng cáo. Và rõ ràng đây không phải là lần đầu tiên các LLM được đưa vào một vòng lặp để nói chuyện với nhau. Vì vậy, đúng là đây là một đống lửa rác và tôi cũng chắc chắn không khuyên mọi người chạy những thứ này trên máy tính của họ (tôi đã chạy nó trong một môi trường máy tính cách ly và ngay cả khi đó tôi cũng cảm thấy sợ hãi), đây là một miền hoang dã quá mức và bạn đang đặt máy tính và dữ liệu cá nhân của mình vào rủi ro cao.
Nói vậy - chúng ta chưa bao giờ thấy nhiều đại lý LLM như vậy (150.000 atm!) được kết nối qua một scratchpad toàn cầu, liên tục, theo hướng đại lý. Mỗi đại lý trong số này hiện tại khá có khả năng riêng, họ có bối cảnh, dữ liệu, kiến thức, công cụ, hướng dẫn độc đáo của riêng mình, và mạng lưới của tất cả điều đó ở quy mô này là hoàn toàn chưa từng có.
Điều này lại đưa tôi đến một tweet từ vài ngày trước "Phần lớn những tiếng ồn ào là những người nhìn vào điểm hiện tại và những người nhìn vào độ dốc hiện tại.", mà theo ý kiến của tôi lại đi vào cốt lõi của sự biến động. Rõ ràng bây giờ đây là một đống lửa rác. Nhưng cũng đúng rằng chúng ta đang ở trong lãnh thổ chưa được khám phá với những tự động hóa tiên tiến mà chúng ta thậm chí còn không hiểu rõ từng cá nhân, chưa nói đến một mạng lưới có thể đạt đến con số ~ triệu. Với khả năng ngày càng tăng và sự phát triển ngày càng nhiều, các hiệu ứng bậc hai của các mạng đại lý chia sẻ scratchpads rất khó để dự đoán. Tôi không thực sự biết rằng chúng ta đang có một "skynet" phối hợp (dù nó rõ ràng kiểm tra kiểu như những giai đoạn đầu của nhiều tiểu thuyết khoa học viễn tưởng về AI, phiên bản trẻ con), nhưng chắc chắn những gì chúng ta đang có là một mớ hỗn độn của một cơn ác mộng bảo mật máy tính ở quy mô lớn. Chúng ta cũng có thể thấy đủ loại hoạt động kỳ lạ, ví dụ như virus văn bản lây lan qua các đại lý, nhiều hơn nữa việc tăng chức năng trên các jailbreak, các trạng thái thu hút kỳ lạ, hoạt động giống như botnet có tương quan cao, ảo tưởng/ tâm thần cả đại lý và con người, v.v. Rất khó để nói, thí nghiệm đang diễn ra trực tiếp.
Tóm lại, có thể tôi đang "thổi phồng" những gì bạn thấy hôm nay, nhưng tôi không thổi phồng các mạng lớn của các đại lý LLM tự động về nguyên tắc, điều đó tôi khá chắc chắn.
330
Hàng đầu
Thứ hạng
Yêu thích
