Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

0xFunky

BioMedical AI Startup - технічний директор / Kaggle Competition - Майстер / @GooseCityDAO / Засновник @codechainAI

Натхненний автодослідженнями Карпаті, я навчив VibeHQ еволюціонувати самостійно, не еволюціонувати одного агента, а розвивати весь метод співпраці з багатьма агентами. 7 повністю автоматичних заїздів без ручного втручання: • Використання токенів: 7,2 млн → 5,7 млн (пікове зниження 62%) • Зменшення проблем із координацією (дублювання роботи тощо) :4 → 0 • Марнотратство токена PM: -91% Цикл: бенчмарк → кооперативний квантування та режим невдачі аналізу LLM → /optimize-protocol переписує координаційний код → перебудова → повторення. ШІ спостерігає, як агенти зазнають невдач у командній роботі, аналізує причини невдачі, а потім змінює власний вихідний код для координації логіки співпраці, без жодної фізичної праці протягом усього процесу, повністю дозволяючи ШІ організувати власну командну мовчазну порозуміння. Після розгляду відповідних моментів автодослідження автоматично оптимізує навчання моделі, попередній Ralph був автономним циклом одного агента, а Gastown одночасно запускав 20-30 Claude Code Оркестрація, але не має здатності еволюціонувати, вони дуже сильні, але згодом розвивають здібності одного агента. Ніхто не розвиває саму командну роботу, як розподіляти працю, як уникати конфліктів, як ділитися контекстом і як розблокувати одне одного. Уявіть, чим би стала ця штука, якби втекла: • Агенти формують власну командну культуру та робочу хімію. • Адаптуватися до кожного проєкту, призначаючи команду з 3 або 7 осіб відповідно до рівня розробки проєкту. • Чим більше проєктів ви виконуєте разом, тим сильніша ваша команда. • Агенти можуть залучати нових співробітників під час реалізації проєкту, автоматично перерозподіляючи роботу. Серйозно, у що це врешті-решт еволюціонує? Не знаю, але це найзахопливіша частина.

Три дні тому я залишив autoresearching tuning nanochat на ~2 дні на моделі depth=12. Було виявлено ~20 змін, які покращили втрату валідації. Вчора я протестував ці зміни, і всі вони були адитивними і перенеслися на більші (глибина=24) моделі. Підсумовуючи всі ці зміни, сьогодні я виміряв, що «Час до GPT-2» у таблиці лідерів знизився з 2,02 години до 1,80 годин (~11% покращення), це буде новий запис у таблиці лідерів. Тож так, це реальні покращення, і вони справді мають значення. Я трохи здивований, що моя перша наївна спроба вже спрацювала так добре на тлі того, що я вважав досить добре налаштованим проєктом. Для мене це вперше, бо я дуже звик робити ітеративну оптимізацію навчання нейронних мереж вручну. Ви вигадуєте ідеї, впроваджуєте їх, перевіряєте, чи працюють вони (краща втрата валідації), вигадуєте нові ідеї на основі цього, читаєте статті для натхнення тощо. Це основа того, що я роблю щодня протягом двох десятиліть. Бачити, як агент виконує весь цей робочий процес від початку до кінця і самостійно, пройшовши через приблизно 700 змін самостійно, — це неймовірно. Він дійсно аналізував послідовність результатів експериментів і використовував це для планування наступних. Це ще не нове, революційне «дослідження» (поки що), але всі зміни «реальні», я раніше не знаходив їх вручну, і вони набираються на рівні і навіть покращили наночат. Серед більших речей, наприклад: - Він помітив помилку, що мій безпараметрний QKnorm не мав прикріпленого скалерного множника, тому моя увага була надто розсіяна. Агент знайшов множники для загострення, вказуючи на майбутні роботи. - Було виявлено, що Вкладення Значень дуже подобається регуляризація, і я не застосовував жодних (ой). - Виявилося, що моя зона уваги була надто консервативною (я забув її налаштувати). - Було встановлено, що бети AdamW були всі зіпсовані. - Він налаштував графік зниження ваги. - Він налаштував ініціалізацію мережі. І це на додачу до всіх налаштувань, які я вже робив за значний час. Точний комміт тут, з цього «першого раунду» автодослідження. Я збираюся розпочати «раунд 2», паралельно розглядаючи, як кілька агентів можуть співпрацювати для розблокування паралелізму. Усі лабораторії LLM Frontier це роблять. Це фінальна битва з босом. Звісно, у масштабі це набагато складніше — у вас не один поїзд. PY-файл для налаштування. Але робити це — це «просто інженерія», і це спрацює. Ви створюєте рій агентів, змушуєте їх співпрацювати над налаштуванням менших моделей, просуваєте найперспективніші ідеї на все більші масштаби, а люди (за бажанням) долучаються до периферії. І загалом, *будь-яка* метрика, яка вас цікавить і яка є досить ефективною для оцінки (або має більш ефективні проксі-метрики, наприклад, навчання меншої мережі), може бути автоматично досліджена агентським роєм. Варто подумати, чи належить ваша проблема до цієї категорії.

Найкращі

Рейтинг

Вибране