أجيب على بعض الأسئلة حول مجلس إسولانغ الخاص بنا. أ) لماذا تفعل ذلك؟ هل يقيس أي شيء مفيد؟ كان مشروعا مدفوعا بالفضول. نحن مهتمون بكيفية إظهار البشر كفاءة العينات في التعلم وتعميم OOD. لذا كنا نسأل ببساطة: إذا كانت النماذج تستطيع إجابات دقيقة أو قليلة لمشاكل البرمجة البسيطة في بايثون، هل يمكنها فعل الشيء نفسه في اللغات الغامضة أيضا؟ المعيار هو ما هو عليه. يمكن لكل شخص أن يفسر فائدته بشكل مختلف، ونحن نشجع ذلك. ب) لكن البشر لا يستطيعون أيضا كتابة اللغات الباطنية بشكل جيد. إنها مقارنة غير عادلة. نحن مهتمون بشكل أساسي بقياس قدرات نماذج اللغة الكبيرة (LLM). مع الحديث عن ASI، من المفترض أن قدراتهم ستصبح قريبا خارقة للبشر. لذا، لم يكن دافعنا الأساسي هو المقارنة بالبشر، بل لمعرفة ما يمكنهم فعله في هذا المعيار الصعب من حيث البناء. ومع ذلك، نعتقد أن البشر قادرون على تعليم أنفسهم مجالا جديدا من خلال نقل مهاراتهم القديمة. لذا كان هذا المعيار هو وضع نقطة انطلاق لاستكشاف كيف يمكن لأنظمة الذكاء الاصطناعي أن تفعل الشيء نفسه أيضا (وهذا ما نستكشفه الآن) ج) لكن كلود كود يسحقها. لقد حددت النماذج بشكل مصطنع. نعم، اختبرنا نماذج بقدرات صفر وقليل من الطلقات. وفي الحلقة الفاعلية التي وصفناها في الورقة، نحدد عدد التكرارات. كما كتبنا أعلاه، أردنا فهم أدائهم من وجهة نظر مقارنة (مثلا في اللغات ذات التمثيل العالي مثل بايثون)، وهذا بناء على المعيار المصمم هو كالتالي. بعد الانتهاء من الورقة، جربنا أنظمة وكلاء حيث قدمنا للنماذج أدوات مثل bash وسمحنا بتكرارات غير محدودة (لكن محاولات التقديم محدودة). هم بالفعل يؤدون بشكل أفضل بكثير. السؤال المهم هو ما الذي يجعل هذه النماذج تؤدي أداء جيدا عندما تعطيها أدوات وتكرارات مقابل عندما لا تفعل ذلك. هل هم يفكرون أو يتعلمون مثل البشر أم أن هناك شيئا آخر؟ د) إذا، هل يتم ترويج نماذج اللغة الكبيرة (LLMs)؟ أم أن دراستنا هي جاذبية للنقر؟ الورقة والشيفرة والمعيار كلها مفتوحة المصدر 👇 نشجع من يهتم بقراءته واتخاذ قراره بنفسه. (لم نلاحظ أن نفس مجموعة النتائج تم تفسيرها بشكل مختلف تماما داخل المجتمع. نشب نقاش بين معسكرات متعارضة من نماذج اللغة الكبيرة. ربما هذا أمر جيد؟)