قمت ب 71 تجربة سريعة ل 500 من أصل 13,000 خطوة لتحدي OpenAI 1. مزيج الخبراء هو الفائز المطلق (مفاجئ جدا لأنه لا ينبغي أن يكون كذلك لنماذج اللغة الصغيرة) > عدد الخبراء هو الأهم. 4 (الأفضل) > 3 >> 2. 2. التضمين غير المرتبط يعمل، والربط هو كارثة 3. الالتفاف العميق - نهاية مسدودة رؤى: 1. 4-خبير MOE + تسرب ReLU -> -0.048 BPB، فائز واضح 2. التضمينات غير المرتبطة (bn128) -> -0.031 BPB، تستحق الجمع مع MOE 3. تركيبة MOE + QAT -> تحافظ على الجودة الكمومية للتقديم نهايات مسدودة 1. الالتفاف العميق - > كل نوع يؤلم، النوى الأكبر تؤلم أكثر 2. التضمينات المرتبطة بعوامل العامل - > كارثية، خاصة عند عنق الزجاجة الصغيرة 3. تقاسم الوزن - > غير تنافسي MOE من حيث الجودة 4. Conv + أي تركيبة — يزيد من الضرر الخطوات التالية 1. التحقق من MOE 4e + تسرب عند 2000-5000 خطوة، مع عدة بذور 2. اختبار MOE 4e + Leaky + untied bn128 — أكبر انتصارين قد يتراكمان 3. جولة كاملة (13780 خطوة) من أفضل تركيبة لمعرفة ما إذا كانت تتفوق على لوحة الصدارة BPB البالغة 1.2244 71 تجربة، 3 بطاقات رسوميات، ~500 خطوة لكل واحدة. فوك روزيتش...