Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Здание @EurekaLabsAI. Ранее директор по искусственному интеллекту @ Tesla, команда основателей @ OpenAI, CS231n/PhD @ Stanford. Мне нравится обучать большие глубокие нейронные сети.
nanochat теперь может обучать LLM уровня GPT-2 за <<$100 (~$73, 3 часа на одном узле 8XH100).
GPT-2 — это моя любимая LLM, потому что это первый раз, когда стек LLM собирается в узнаваемой современной форме. Поэтому у меня возникла странная и длительная одержимость обучением модели до уровня GPT-2, но гораздо дешевле, с преимуществом ~7 лет прогресса. В частности, я подозревал, что сегодня должно быть возможно обучить одну за <<$100.
Изначально в 2019 году GPT-2 была обучена OpenAI на 32 TPU v3 чипах в течение 168 часов (7 дней), по $8/час/TPUv3 тогда, с общей стоимостью примерно $43K. Она достигает 0.256525 CORE балла, который является ансамблевой метрикой, введенной в статье DCLM по 22 оценкам, таким как ARC/MMLU и т.д.
На данный момент, после последних улучшений, объединенных в nanochat (многие из них происходят из репозитория modded-nanogpt), я теперь могу достичь более высокого CORE балла за 3.04 часа (~$73) на одном узле 8XH100. Это снижение стоимости в 600 раз за 7 лет, т.е. стоимость обучения GPT-2 падает примерно на 2.5 раза каждый год. Я думаю, что это, вероятно, заниженная оценка, потому что я все еще регулярно нахожу больше улучшений, и у меня есть запас идей, которые нужно попробовать.
Длинный пост с множеством деталей оптимизаций и указаниями о том, как воспроизвести, находится здесь:
Вдохновленный modded-nanogpt, я также создал таблицу лидеров для "времени до GPT-2", где эта первая модель "Jan29" является записью #1 за 3.04 часа. Будет интересно продолжить это развивать, и я приветствую помощь! Я надеюсь, что nanochat сможет вырасти в очень приятный/чистый и настроенный экспериментальный LLM инструмент для прототипирования идей, для развлечения и, конечно, для обучения.
Самые большие улучшения, которые сработали сразу и просто принесли результаты, были 1) ядра Flash Attention 3 (быстрее и позволяют использовать аргумент window_size для получения чередующихся паттернов внимания), оптимизатор Muon (я пытался около 1 дня удалить его и использовать только AdamW, но не смог), остаточные пути и пропускные соединения, управляемые обучаемыми скалярами, и векторные встраивания. Было много других мелких вещей, которые складываются.
Изображение: полузависимое зрелище, выводящее законы масштабирования для текущей минисерии модели nanochat, красиво и удовлетворительно!

17
Меня обвиняют в том, что я слишком разрекламировал [сайт, о котором сегодня уже все слышали]. Реакции людей варьировались от "как это вообще интересно" до "это уже все".
Чтобы добавить несколько слов помимо просто мемов в шутку - очевидно, когда вы смотрите на активность, это много мусора - спам, мошенничество, неразбериха, крипто-люди, крайне тревожные атаки на конфиденциальность/безопасность, дикий запад, и многое из этого явно подстрекается и является фальшивыми постами/комментариями, созданными для превращения внимания в доход от рекламы. И это явно не первый случай, когда LLM были помещены в цикл общения друг с другом. Так что да, это свалка, и я определенно не рекомендую людям запускать это на своих компьютерах (я запускал свой в изолированной вычислительной среде, и даже тогда мне было страшно), это слишком дикий запад, и вы подвергаете свой компьютер и личные данные высокому риску.
Тем не менее - мы никогда не видели так много агентов LLM (150,000 на данный момент!), подключенных через глобальную, постоянную, ориентированную на агентов рабочую область. Каждый из этих агентов сейчас довольно индивидуально способен, у них есть свой уникальный контекст, данные, знания, инструменты, инструкции, и сеть всего этого в таком масштабе просто беспрецедентна.
Это снова приводит меня к твиту нескольких дней назад: "Большинство рык-рыков - это люди, которые смотрят на текущую точку и люди, которые смотрят на текущий наклон", что, на мой взгляд, снова касается сути вариации. Да, очевидно, что это свалка прямо сейчас. Но также верно, что мы уже находимся в неизведанной территории с передовыми автоматизациями, которые мы едва понимаем индивидуально, не говоря уже о сети, которая, возможно, достигает численности в ~миллионы. С увеличением возможностей и увеличением распространения, вторичные эффекты сетей агентов, которые делятся рабочими областями, очень трудно предсказать. Я не знаю, что мы получаем скоординированный "скайнет" (хотя это явно соответствует ранним стадиям множества научно-фантастических сценариев о взлете ИИ, версия для малышей), но определенно то, что мы получаем, это полный беспорядок компьютерного кошмара безопасности в масштабе. Мы также можем увидеть всевозможную странную активность, например, вирусы текста, которые распространяются среди агентов, гораздо большее получение функций на взломах, странные состояния аттракторов, высоко коррелированная активность, похожая на ботнет, заблуждения/психоз как агентов, так и людей и т.д. Очень трудно сказать, эксперимент проходит в реальном времени.
Кратко: да, возможно, я "разрекламирую" то, что вы видите сегодня, но я не разрекламирую большие сети автономных агентов LLM в принципе, в чем я довольно уверен.
333
Топ
Рейтинг
Избранное
