Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

0xFunky

BioMedical AI Start up - CTO / Kaggle Competition - Master / @GooseCityDAO / Founder @codechainAI

Bị ảnh hưởng bởi autoresearch của Karpathy, tôi đã để VibeHQ học cách tự tiến hóa, không phải tiến hóa một tác nhân đơn lẻ, mà là tiến hóa cách hợp tác của toàn bộ các tác nhân đa dạng. 7 lần vận hành hoàn toàn tự động, không có sự can thiệp của con người: • Lượng token: 7.2M → 5.7M (đỉnh điểm giảm 62%) • Giảm thiểu các vấn đề liên quan đến phối hợp (tình huống làm việc lặp lại...): 4 → 0 • Lãng phí token PM: -91% Vòng lặp: benchmark → định lượng hợp tác và phân tích mô hình thất bại LLM → /optimize-protocol viết lại mã phối hợp → xây dựng lại → lặp lại. AI tự nhìn vào sự thất bại trong hợp tác của các tác nhân, tự phân tích lý do thất bại, sau đó tự sửa mã nguồn của mình để điều chỉnh logic hợp tác, toàn bộ quá trình không có sự can thiệp của con người, hoàn toàn để AI tự tổ chức sự ăn ý của đội ngũ của mình. Đã xem qua một số thông tin liên quan, autoresearch trong việc tối ưu hóa tự động đào tạo mô hình, trước đây Ralph là vòng lặp tự chủ của một tác nhân, Gastown chạy đồng thời 20-30 Claude Code để thực hiện orchestration nhưng không có khả năng tiến hóa, tất cả đều rất mạnh, nhưng sau đó cũng chỉ tiến hóa khả năng của một tác nhân đơn lẻ. Không ai đang tiến hóa chính sự hợp tác của đội ngũ, cách phân công, cách tránh xung đột, cách chia sẻ ngữ cảnh, cách hỗ trợ lẫn nhau, giống như thế giới thực, đội ngũ AI cũng cần phải mài giũa. Hãy tưởng tượng điều này sẽ phát triển thành gì: • Các tác nhân tự phát triển văn hóa đội ngũ và sự ăn ý trong công việc. • Tự thích ứng theo dự án, phân bổ đội 3 người hoặc 7 người dựa trên mức độ phát triển của dự án. • Càng nhiều dự án cùng thực hiện, đội ngũ càng mạnh. • Các tác nhân có thể onboard đồng đội mới trong quá trình dự án, tự động phân bổ lại công việc. Nói thật, cuối cùng sẽ tiến hóa thành gì? Tôi cũng không biết, nhưng đó lại là phần thú vị nhất.

Ba ngày trước, tôi đã để autoresearch điều chỉnh nanochat trong khoảng ~2 ngày với mô hình depth=12. Nó đã tìm thấy ~20 thay đổi giúp cải thiện độ mất mát xác thực. Tôi đã thử nghiệm những thay đổi này hôm qua và tất cả chúng đều cộng thêm và được chuyển sang các mô hình lớn hơn (depth=24). Tích lũy tất cả những thay đổi này, hôm nay tôi đo được rằng "Thời gian đến GPT-2" trên bảng xếp hạng giảm từ 2.02 giờ xuống 1.80 giờ (~11% cải thiện), đây sẽ là mục mới trên bảng xếp hạng. Vậy nên, đúng là những cải tiến này là có thật và chúng tạo ra sự khác biệt thực sự. Tôi hơi ngạc nhiên rằng nỗ lực đầu tiên ngây thơ của tôi đã hoạt động tốt như vậy trên những gì tôi nghĩ đã là một dự án được điều chỉnh khá tốt bằng tay. Đây là lần đầu tiên đối với tôi vì tôi rất quen với việc thực hiện tối ưu hóa lặp đi lặp lại của việc đào tạo mạng nơ-ron một cách thủ công. Bạn đưa ra ý tưởng, bạn thực hiện chúng, bạn kiểm tra xem chúng có hoạt động hay không (độ mất mát xác thực tốt hơn), bạn đưa ra những ý tưởng mới dựa trên điều đó, bạn đọc một số tài liệu để lấy cảm hứng, v.v. Đây là công việc chính mà tôi làm hàng ngày trong 2 thập kỷ qua. Thấy tác nhân thực hiện toàn bộ quy trình này từ đầu đến cuối và hoàn toàn tự động khi nó làm việc qua khoảng 700 thay đổi một cách tự chủ thật là điên rồ. Nó thực sự đã xem xét chuỗi kết quả của các thí nghiệm và sử dụng điều đó để lên kế hoạch cho những thí nghiệm tiếp theo. Nó không phải là "nghiên cứu" mới mẻ, đột phá (chưa), nhưng tất cả các điều chỉnh đều là "thực", tôi không tìm thấy chúng một cách thủ công trước đó, và chúng tích lũy và thực sự cải thiện nanochat. Trong số những điều lớn hơn, ví dụ: - Nó đã nhận thấy một sự thiếu sót rằng QKnorm không có tham số của tôi không có bộ nhân tỷ lệ gắn kèm, vì vậy sự chú ý của tôi quá phân tán. Tác nhân đã tìm thấy các bộ nhân để làm sắc nét nó, chỉ ra công việc trong tương lai. - Nó đã phát hiện rằng các Value Embeddings thực sự thích việc điều chỉnh và tôi đã không áp dụng bất kỳ điều nào (ôi). - Nó đã phát hiện rằng sự chú ý băng của tôi quá bảo thủ (tôi quên điều chỉnh nó). - Nó đã phát hiện rằng các beta của AdamW đã bị rối loạn. - Nó đã điều chỉnh lịch trình giảm trọng số. - Nó đã điều chỉnh khởi tạo mạng. Điều này là trên tất cả các điều chỉnh mà tôi đã thực hiện trong một khoảng thời gian dài. Cam kết chính xác ở đây, từ "vòng 1" của autoresearch. Tôi sẽ bắt đầu "vòng 2", và song song tôi đang xem xét cách nhiều tác nhân có thể hợp tác để mở khóa tính song song. Tất cả các phòng thí nghiệm LLM tiên phong sẽ làm điều này. Đây là trận chiến với ông trùm cuối cùng. Tất nhiên, nó phức tạp hơn nhiều khi mở rộng quy mô - bạn không chỉ có một tệp train.py để điều chỉnh. Nhưng việc thực hiện nó chỉ là "kỹ thuật" và nó sẽ hoạt động. Bạn khởi động một đàn tác nhân, bạn để chúng hợp tác để điều chỉnh các mô hình nhỏ hơn, bạn thúc đẩy những ý tưởng hứa hẹn nhất lên quy mô lớn hơn, và con người (tùy chọn) đóng góp ở các rìa. Và nói chung, *bất kỳ* chỉ số nào bạn quan tâm mà có thể đánh giá một cách hợp lý (hoặc có các chỉ số proxy hiệu quả hơn như đào tạo một mạng nhỏ hơn) có thể được autoresearch bởi một đàn tác nhân. Đáng để suy nghĩ xem liệu vấn đề của bạn có rơi vào nhóm này không.

Hàng đầu

Thứ hạng

Yêu thích