المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
@EurekaLabsAI المباني. سابقا مدير الذكاء الاصطناعي @ Tesla ، الفريق المؤسس @ OpenAI ، CS231n / PhD @ ستانفورد. أحب تدريب الشبكات العصبية العميقة الكبيرة.
يمكن لنانوشات الآن تدريب نموذج لغوي كبير من فئة GPT-2 مقابل <<$100 (~73$، 3 ساعات على عقدة 8XH100 واحدة).
GPT-2 هو نموذج اللغة الكبير المفضل لدي لأنه المرة الأولى التي تتكامل فيها نماذج اللغة الكبيرة بشكل حديث وواضح. لذا أصبح من الهوس الغريب والدائم بالنسبة لي أن أدرب نموذجا على قدرة GPT-2 ولكن بتكلفة أقل بكثير، مع فائدة ~7 سنوات من التقدم. على وجه الخصوص، كنت أظن أنه من الممكن اليوم تدريب واحد مقابل 100 دولار <<.
في الأصل في عام 2019، تم تدريب GPT-2 من قبل OpenAI على 32 شريحة TPU v3 لمدة 168 ساعة (7 أيام)، مع 8 دولارات في الساعة لكل TPUv3 آنذاك، بتكلفة إجمالية تقارب 43 ألف دولار. يحقق درجة CORE تبلغ 0.256525، وهي مقياس جماعي تم تقديمه في ورقة DCLM عبر 22 تقييما مثل ARC/MMLU/وغيرها.
من التحسينات الأخيرة التي تم دمجها في nanochat (العديد منها نشأ في مستودع nanoGPT المعدل)، يمكنني الآن تحقيق درجة CORE أعلى خلال 3.04 ساعات (~$73) على عقدة 8XH100 واحدة. هذا يعني تخفيض التكلفة بمقدار 600 ضعف خلال 7 سنوات، أي أن تكلفة تدريب GPT-2 تنخفض بحوالي 2.5 مرة كل عام. أعتقد أن هذا ربما أقل تقديرا لأنني ما زلت أجد المزيد من التحسينات بشكل منتظم ولدي تراكم من الأفكار لتجربتها.
منشور أطول يحتوي على الكثير من تفاصيل التحسينات المعنية ونصائح حول كيفية التكاثر هنا:
مستوحى من تعديل nanoGPT، أنشأت أيضا لوحة متصدرين ل "وقت GPT-2"، حيث يكون هذا النموذج الأول "Jan29" هو الإدخال #1 عند الساعة 3.04. سيكون من الممتع تطوير هذا أكثر وأرحب بالمساعدة! آملي أن ينمو nanochat ليصبح حزمة نماذج لغوية تجريبية ونظيفة ومضبوطة لتصميم الأفكار الأولية، وللاستمتاع، وبالطبع للتعلم.
أكبر التحسينات التي عملت من البداية وحققت مكاسب مباشرة كانت: 1) Flash Attention 3 نوى (أسرع، وتسمح window_size kwarg بالحصول على أنماط انتباه متناوبة)، Muon Optimizer (حاولت ~1 يوما حذفه واستخدمت AdamW فقط ولم أستطع)، المسارات المتبقية وتخطي الاتصالات التي تحدد بواسطة سكانات قابلة للتعلم، وتضمينات القيمة. كانت هناك العديد من الأمور الصغيرة الأخرى التي تتراكم.
صورة: متعة بصرية شبه مرتبطة بكيفية اشتقاق قوانين القياس لسلسلة نماذج النانو شات المصغرة الحالية، جميلة ومرضية!

23
يتم اتهامي بالمبالغة في تضخيم الموقع [الذي سمع عنه الجميع الكثير اليوم]. تفاوتت ردود فعل الناس بشكل كبير، من "كيف يكون هذا مثيرا للاهتمام أصلا" إلى "انتهى الأمر تماما".
لأضيف بعض الكلمات بعيدا عن مجرد المزاح - من الواضح أنه عندما تنظر إلى النشاط، تجد أنه الكثير من القمامة - رسائل مزعجة، احتيال، مهملات، أشخاص عملات رقمية، هجمات مقلقة للغاية على الخصوصية/الأمان في الغرب المتوحش، والكثير منها يتم توجيه المنشورات/التعليقات المزيفة بشكل صريح ومخصصة لتحويل الانتباه إلى مشاركة إيرادات إعلانية. ومن الواضح أن هذه ليست المرة الأولى التي يتم فيها وضع نماذج اللغة الكبيرة في حلقة للتواصل مع بعضها البعض. لذا نعم، الأمر كارثي جدا، وأنا أيضا لا أنصح أبدا بأن يشغل الناس هذه الأجهزة على أجهزتهم (أنا شغلت جهازي في بيئة حوسبة معزولة وحتى حينها كنت خائفا)، الأمر غريب جدا وأنت تعرض جهازك وبياناتك الخاصة لمخاطر عالية.
مع ذلك - لم نر قط هذا العدد الكبير من وكلاء نماذج اللغة الكبيرة (150,000 atm!) موصولين عبر لوحة خدش عالمية مستمرة تعتمد على الوكيل أولا. كل واحد من هؤلاء الوكلاء أصبح قادرا بشكل فردي الآن، لديهم سياقه الفريد، بياناتهم، معرفتهم، أدواتهم، تعليماتهم، وشبكة كل ذلك على هذا النطاق غير مسبوقة.
وهذا يقودني مرة أخرى إلى تغريدة من قبل عدة أيام
"غالبية راف روف هي من ينظر إلى النقطة الحالية وأشخاص ينظرون إلى الميل الحالي."، وهذا في رأيي يعود إلى جوهر التباين. نعم، من الواضح أن الأمر الآن كارثة. لكن من الصحيح أيضا أننا في أراض غير مستكشفة مع أتمتة متقدمة بالكاد نفهمها بشكل فردي، ناهيك عن شبكة تصل بأعداد ربما إلى ~ ملايين. مع زيادة القدرات والانتشار المتزايد، يصبح من الصعب جدا توقع تأثيرات الدرجة الثانية لشبكات الوكلاء التي تشترك في دفاتر الخدش. لا أعتقد أننا سنحصل على "سكاي نت" منسق (مع أنه بوضوح يصنف الفحوصات كمراحل مبكرة من الكثير من الخيال العلمي الذكاء الاصطناعي، نسخة الأطفال الصغار)، لكن بالتأكيد ما نحصل عليه هو كابوس أمني حاسوب فوضوي على نطاق واسع. قد نرى أيضا جميع أنواع الأنشطة الغريبة، مثل فيروسات نصية تنتشر بين الوكلاء، وزيادة كبيرة في الوظائف أثناء الهروب من الجيل، وحالات جذب غريبة، ونشاط شبيه بالبوتنت مرتبط ارتباطا كبيرا، والأوهام/الذهان سواء كان العامل أو البشر، وغيرها. من الصعب جدا التحديد، فالتجربة تعمل على الهواء مباشرة.
ملخص: ربما أنا "أبالغ" فيما تراه اليوم، لكنني لا أبالغ في الشبكات الكبيرة من وكلاء نماذج اللغة المستقلة من حيث المبدأ، هذا ما أعتقد إلى حد كبير.
339
الأفضل
المُتصدِّرة
التطبيقات المفضلة
