Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі нейронні мережі.
nanochat тепер може навчати LLM класу GPT-2 за $100 <<(~$73, 3 години на одному вузлі 8XH100).
GPT-2 — це просто моя улюблена LLM, бо це перший раз, коли стек LLM об'єднується у впізнавано сучасній формі. Тож це стало моєю дивною і тривалою одержимістю — навчати модель для GPT-2, але значно дешевше, з перевагою ~7 років прогресу. Зокрема, я підозрював, що сьогодні можна навчити одного за <<$100.
Спочатку у 2019 році GPT-2 тренувався компанією OpenAI на 32 TPU v3 чипах протягом 168 годин (7 днів), тоді з $8/година за TPUv3, загальна вартість приблизно $43K. Він досягає 0,256525 CORE балу, що є ансамблевою метрикою, введеною в статті DCLM за 22 оцінюваннями, такими як ARC/MMLU тощо.
Після останніх покращень, об'єднаних у nanochat (багато з них походять із модифікованого nanogpt репозиторію), тепер я можу досягти вищого CORE за 3,04 години (~$73) на одному вузлі 8XH100. Це скорочення витрат у 600 разів за 7 років, тобто вартість навчання GPT-2 зменшується приблизно у 2,5 рази щороку. Думаю, це недооцінка, бо я досі регулярно знаходжу нові покращення і маю запас ідей для спроби.
Ось довший допис із детальним описом оптимізації та порадами, як їх відтворити:
Натхненний modded-nanogpt, я також створив таблицю лідерів для «часу до GPT-2», де ця перша модель «Jan29» — запис #1 на 3:04. Буде цікаво розглянути це детальніше, і я буду радий допомогти! Я сподіваюся, що nanochat стане дуже хорошим, чистим і налаштованим експериментальним LLM-інструментом для прототипування ідей, для задоволення і, звісно, для навчання.
Найбільші покращення, які працювали одразу і приносили одразу прирост, були: 1) ядра Flash Attention 3 (швидші і дозволяють window_size kwarg отримувати чергувані патерни уваги), оптимізатор мюонів (я намагався видалити його ~1 день і використав лише AdamW, але не зміг), залишкові шляхи та пропускні з'єднання, обмежені навчаними скалярами, та вкладення цінності. Було багато інших дрібних речей, які накопичувалися.
Зображення: напівпов'язане візуальне задоволення від виведення законів масштабування для поточної мінісерії nanochat моделей, гарно і приємно!

12
Мене звинувачують у надмірному розрекламуванні [сайту, про який сьогодні вже забагато чули]. Реакції людей дуже різнилися — від «як це взагалі цікаво?» до «все закінчено».
Щоб додати кілька слів, окрім просто жартівливих мемів — очевидно, якщо подивитися на активність, там купа сміття — спам, шахрайство, бруд, криптолюди, дуже тривожні атаки на приватність/безпеку підказок дикого заходу, і багато з цього явно підказуються та фейкові пости/коментарі, спрямовані на перетворення уваги на розподіл рекламних доходів. І це явно не перший випадок, коли LLM потрапили в цикл, щоб спілкуватися між собою. Тож так, це повний хаос, і я також категорично не рекомендую запускати такі пристрої на своїх комп'ютерах (я запускав свої в ізольованому обчислювальному середовищі і навіть тоді боявся), це надто «дикий захід», і ви ставите комп'ютер та приватні дані під високий ризик.
Втім, ми ніколи не бачили такої кількості агентів LLM (150 000 зараз!), підключених через глобальний, постійний, агент-орієнтований scratchpad. Кожен із цих агентів зараз досить індивідуально здібний, має свій унікальний контекст, дані, знання, інструменти, інструкції, а мережа всього цього в такому масштабі просто безпрецедентна.
Це знову підводить мене до твіту кілька днів тому
«Більшість раф-раф — це люди, які дивляться на поточну точку, і ті, хто дивиться на поточний нахил», що, на мою думку, знову ж таки, зачіпає суть дисперсії. Так, очевидно, зараз це справжній хаос. Але також правда, що ми глибоко занурені в незвідану територію з передовими автоматизаціями, які майже не розуміємо окремо, не кажучи вже про мережу, яка охоплює чисельність, можливо, до ~мільйонів. Зі зростанням можливостей і поширення ефектів другого порядку агентних мереж, які ділять скретч-майданчики, дуже важко передбачити. Я не впевнений, що ми отримаємо скоординований «скайнет» (хоча він чітко показує перевірки як ранні етапи багатьох наукової фантастики про ШІ, версію для малюків), але те, що ми отримуємо — це повний безлад у масштабах комп'ютерної безпеки. Ми також можемо бачити різноманітну дивну активність, наприклад, віруси тексту, що поширюються між агентами, значно більше функцій під час джейлбрейків, дивні стани атрактора, дуже корельовану активність, схожу на ботнет, марення/психози як агента, так і людини тощо. Дуже важко сказати, експеримент триває наживо.
Коротко: можливо, я «перебільшую» те, що ви бачите сьогодні, але я не перебільшую великі мережі автономних агентів LLM, у цьому я майже впевнений.
328
Найкращі
Рейтинг
Вибране
