المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
قمت ب 71 تجربة سريعة ل 500 من أصل 13,000 خطوة لتحدي OpenAI
1. مزيج الخبراء هو الفائز المطلق
(مفاجئ جدا لأنه لا ينبغي أن يكون كذلك لنماذج اللغة الصغيرة)
> عدد الخبراء هو الأهم. 4 (الأفضل) > 3 >> 2.
2. التضمين غير المرتبط يعمل، والربط هو كارثة
3. الالتفاف العميق - نهاية مسدودة
رؤى:
1. 4-خبير MOE + تسرب ReLU -> -0.048 BPB، فائز واضح
2. التضمينات غير المرتبطة (bn128) -> -0.031 BPB، تستحق الجمع مع MOE
3. تركيبة MOE + QAT -> تحافظ على الجودة الكمومية للتقديم
نهايات مسدودة
1. الالتفاف العميق - > كل نوع يؤلم، النوى الأكبر تؤلم أكثر
2. التضمينات المرتبطة بعوامل العامل - > كارثية، خاصة عند عنق الزجاجة الصغيرة
3. تقاسم الوزن - > غير تنافسي MOE من حيث الجودة
4. Conv + أي تركيبة — يزيد من الضرر
الخطوات التالية
1. التحقق من MOE 4e + تسرب عند 2000-5000 خطوة، مع عدة بذور
2. اختبار MOE 4e + Leaky + untied bn128 — أكبر انتصارين قد يتراكمان
3. جولة كاملة (13780 خطوة) من أفضل تركيبة لمعرفة ما إذا كانت تتفوق على لوحة الصدارة BPB البالغة 1.2244
71 تجربة، 3 بطاقات رسوميات، ~500 خطوة لكل واحدة. فوك روزيتش...



الأفضل
المُتصدِّرة
التطبيقات المفضلة
