متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

0xFunky

بدء تشغيل الذكاء الاصطناعي الطب الحيوي - CTO / مسابقة Kaggle - ماجستير / @GooseCityDAO / مؤسس @codechainAI

مستوحى من أبحاث كارباثي الذاتية، علمت VibeHQ أن يتطور نفسه، ليس لتطوير وكيل واحد، بل لتطوير طريقة التعاون متعددة الوكلاء بالكامل. 7 عمليات تشغيل أوتوماتيكية بالكامل بدون أي تدخل يدوي: • استخدام الرموز: 7.2 مليون → 5.7 مليون (انخفاض ذروة بنسبة 62٪) • تقليل المشاكل المتعلقة بالتنسيق (تكرار العمل، إلخ...) :4 → 0 • هدر رموز PM Token: -91٪ الحلقة: اختبار → الكم التعاوني وتحليل نماذج اللغة الكبيرة في وضع الفشل → /بروتوكول تحسين إعادة كتابة كود التنسيق → إعادة بناء → التكرار. يراقب الذكاء الاصطناعي فشل العملاء في العمل الجماعي، يحلل سبب فشله، ثم يغير شيفرته المصدرية لتنسيق منطق التعاون، دون أي عمل يدوي طوال العملية، مما يسمح للذكاء الاصطناعي بتنظيم فهمه الضمني للفريق. بعد النظر في الأمور ذات الصلة، يقوم الأبحاث التلقائية بتحسين تدريب النموذج تلقائيا، أما رالف السابق فكان حلقة مستقلة من وكيل واحد، وغاستاون كان يشغل 20-30 كود كلود في نفس الوقت التنسيق الموسيقي لكنه لا يملك القدرة على التطور، فهو قوي جدا، لكنه لاحقا يتطور أيضا قدرات عميل واحد. لا أحد يطور العمل الجماعي نفسه، وكيفية تقسيم العمل، وكيفية تجنب الصراعات، وكيفية مشاركة السياق، وكيفية فك الحواجز بين بعضنا البعض. تخيل ماذا سيصبح هذا الشيء لو هرب: • يقوم الوكلاء بتطوير ثقافة الفريق الخاصة بهم وكيمياء عملهم. • التكيف مع كل مشروع، مع تخصيص فريق مكون من 3 أو 7 أشخاص حسب مستوى تطوير المشروع. • كلما أنجزتما مشاريع أكثر معا، أصبح فريقك أقوى. • يمكن للوكلاء ضم زملاء جدد أثناء سير المشروع، وإعادة توزيع العمل تلقائيا. بجدية، إلى ماذا ستتطور في النهاية؟ لا أعلم، لكن هذه هي أكثر جزء إثارة.

قبل ثلاثة أيام تركت برنامج AutoResearch Tuning Nanochat لمدة ~2 يوم على نموذج depth=12. وجد ~20 تغييرا حسنا من فقدان التحقق. اختبرت هذه التغييرات أمس وجميعها كانت مضافة وانتقلت إلى نماذج أكبر (عمق = 24). بجمع كل هذه التغييرات، قمت اليوم بقياس أن "الوقت إلى GPT-2" في لوحة المتصدرين انخفض من 2.02 ساعة إلى 1.80 ساعة (~11٪ تحسن)، وسيكون هذا هو إدخال لوحة المتصدرين الجديد. لذا نعم، هذه تحسينات حقيقية وتحدث فرقا حقيقيا. أنا مندهش قليلا من أن محاولتي الساذجة الأولى نجحت بهذا الشكل فوق ما اعتقدت أنه مشروع مضبوطا يدويا إلى حد ما. هذه أول مرة لي لأنني معتاد جدا على القيام بالتحسين التكراري لتدريب الشبكات العصبية يدويا. تطرح أفكارا، تنفذها، تتحقق مما إذا كانت تعمل (فقدان التحقق أفضل)، تبتكر أفكارا جديدة بناء على ذلك، تقرأ بعض الأوراق البحثية للإلهام، وهكذا. هذا هو جوهر ما أفعله يوميا لمدة عقدين. رؤية الوكيل يقوم بسير العمل بالكامل من البداية إلى النهاية وبمفرده أثناء عمله على حوالي 700 تغيير بشكل تلقائي أمر مذهل. لقد نظر فعليا إلى تسلسل نتائج التجارب واستخدمه لتخطيط التجارب القادمة. ليست بحثا جديدا أو ثوريا (حتى الآن)، لكن كل التعديلات "حقيقية"، لم أجدها يدويا من قبل، وهي تتراكم وحسنت nanochat فعليا. من بين الأمور الكبيرة مثل: - لاحظ خطأ في أن QKnorm بدون معلمات لم يكن يحتوي على مضاعف مقياس مرفق، لذا كان انتباهي مشتتا جدا. وجد العميل مضاعفات لتشحذه، مشيرة إلى أعمال مستقبلية. - وجد أن تضمينات القيمة تحب التنظيم ولم أطبق أي منها (عفوا). - وجد أن انتباهي المخطط كان محافظا جدا (نسيت ضبطه). - وجدت أن بيتا AdamW كانوا كلهم في حالة اضطراب. - ضبطت جدول فقدان الوزن. - قام بضبط تهيئة الشبكة. هذا بالإضافة إلى كل الضبط الذي قمت به بالفعل على مدى فترة طويلة. الالتزام الدقيق هنا، من هذه "الجولة الأولى" من البحث التلقائي. سأبدأ "الجولة الثانية"، وبالتوازي أنظر في كيفية تعاون عدة وكلاء لفتح التوازي. جميع مختبرات LLM Frontier تقوم بذلك. إنها معركة الزعيم النهائية. بالطبع الأمر أكثر تعقيدا على نطاق واسع - ليس لديك قطار واحد فقط. ملف py ليتم ضبطه. لكن القيام بذلك هو "مجرد هندسة" وسينجح. تقوم بإنشاء سرب من العملاء، وتجعلهم يتعاونون لضبط نماذج أصغر، وتروج لأكثر الأفكار الواعدة على مقاييس أكبر بشكل متزايد، ويساهم البشر (اختياريا) على الأطراف. وبشكل عام، *أي مقياس* تهتم به ويكون فعالا إلى حد معقول في التقييم (أو لديه مقاييس بديلة أكثر كفاءة مثل تدريب شبكة أصغر) يمكن أن يتم البحث عنه تلقائيا بواسطة سرب وكلاء. من المفيد التفكير فيما إذا كانت مشكلتك تندرج تحت هذا الجانب أيضا.

الأفضل

المُتصدِّرة

التطبيقات المفضلة