Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Startup - технічний директор / Kaggle Competition - Майстер / @GooseCityDAO / Засновник @codechainAI
Зараз це дуже емоційно
"Ручне гравіювання передньої частини фактично завершено"
AI + Figma — це як відкриття і підвішування: знайти правильний метод можна швидко гравірувати майже таку ж версію, як у Figma, і її можна змінювати в обох напрямках без ручних змін.
Раніше я витрачав найбільше часу на гравіювання на гравіювання, яке могло працювати цілий день під час атаки ОКР, але тепер ШІ може закінчити гравірування за кілька хвилин, і ступінь відновлення все одно надто високий...
У цю епоху народилася захоплення.
181
Натхненний автодослідженнями Карпаті, я навчив VibeHQ еволюціонувати самостійно, не еволюціонувати одного агента, а розвивати весь метод співпраці з багатьма агентами.
7 повністю автоматичних заїздів без ручного втручання:
• Використання токенів: 7,2 млн → 5,7 млн (пікове зниження 62%)
• Зменшення проблем із координацією (дублювання роботи тощо) :4 → 0
• Марнотратство токена PM: -91%
Цикл: бенчмарк → кооперативний квантування та режим невдачі аналізу LLM → /optimize-protocol переписує координаційний код → перебудова → повторення.
ШІ спостерігає, як агенти зазнають невдач у командній роботі, аналізує причини невдачі, а потім змінює власний вихідний код для координації логіки співпраці, без жодної фізичної праці протягом усього процесу, повністю дозволяючи ШІ організувати власну командну мовчазну порозуміння.
Після розгляду відповідних моментів автодослідження автоматично оптимізує навчання моделі, попередній Ralph був автономним циклом одного агента, а Gastown одночасно запускав 20-30 Claude Code
Оркестрація, але не має здатності еволюціонувати, вони дуже сильні, але згодом розвивають здібності одного агента.
Ніхто не розвиває саму командну роботу, як розподіляти працю, як уникати конфліктів, як ділитися контекстом і як розблокувати одне одного.
Уявіть, чим би стала ця штука, якби втекла:
• Агенти формують власну командну культуру та робочу хімію.
• Адаптуватися до кожного проєкту, призначаючи команду з 3 або 7 осіб відповідно до рівня розробки проєкту.
• Чим більше проєктів ви виконуєте разом, тим сильніша ваша команда.
• Агенти можуть залучати нових співробітників під час реалізації проєкту, автоматично перерозподіляючи роботу.
Серйозно, у що це врешті-решт еволюціонує? Не знаю, але це найзахопливіша частина.


Andrej Karpathy10 бер., 06:28
Три дні тому я залишив autoresearching tuning nanochat на ~2 дні на моделі depth=12. Було виявлено ~20 змін, які покращили втрату валідації. Вчора я протестував ці зміни, і всі вони були адитивними і перенеслися на більші (глибина=24) моделі. Підсумовуючи всі ці зміни, сьогодні я виміряв, що «Час до GPT-2» у таблиці лідерів знизився з 2,02 години до 1,80 годин (~11% покращення), це буде новий запис у таблиці лідерів. Тож так, це реальні покращення, і вони справді мають значення. Я трохи здивований, що моя перша наївна спроба вже спрацювала так добре на тлі того, що я вважав досить добре налаштованим проєктом.
Для мене це вперше, бо я дуже звик робити ітеративну оптимізацію навчання нейронних мереж вручну. Ви вигадуєте ідеї, впроваджуєте їх, перевіряєте, чи працюють вони (краща втрата валідації), вигадуєте нові ідеї на основі цього, читаєте статті для натхнення тощо. Це основа того, що я роблю щодня протягом двох десятиліть. Бачити, як агент виконує весь цей робочий процес від початку до кінця і самостійно, пройшовши через приблизно 700 змін самостійно, — це неймовірно. Він дійсно аналізував послідовність результатів експериментів і використовував це для планування наступних. Це ще не нове, революційне «дослідження» (поки що), але всі зміни «реальні», я раніше не знаходив їх вручну, і вони набираються на рівні і навіть покращили наночат. Серед більших речей, наприклад:
- Він помітив помилку, що мій безпараметрний QKnorm не мав прикріпленого скалерного множника, тому моя увага була надто розсіяна. Агент знайшов множники для загострення, вказуючи на майбутні роботи.
- Було виявлено, що Вкладення Значень дуже подобається регуляризація, і я не застосовував жодних (ой).
- Виявилося, що моя зона уваги була надто консервативною (я забув її налаштувати).
- Було встановлено, що бети AdamW були всі зіпсовані.
- Він налаштував графік зниження ваги.
- Він налаштував ініціалізацію мережі.
І це на додачу до всіх налаштувань, які я вже робив за значний час. Точний комміт тут, з цього «першого раунду» автодослідження. Я збираюся розпочати «раунд 2», паралельно розглядаючи, як кілька агентів можуть співпрацювати для розблокування паралелізму.
Усі лабораторії LLM Frontier це роблять. Це фінальна битва з босом. Звісно, у масштабі це набагато складніше — у вас не один поїзд. PY-файл для налаштування. Але робити це — це «просто інженерія», і це спрацює. Ви створюєте рій агентів, змушуєте їх співпрацювати над налаштуванням менших моделей, просуваєте найперспективніші ідеї на все більші масштаби, а люди (за бажанням) долучаються до периферії.
І загалом, *будь-яка* метрика, яка вас цікавить і яка є досить ефективною для оцінки (або має більш ефективні проксі-метрики, наприклад, навчання меншої мережі), може бути автоматично досліджена агентським роєм. Варто подумати, чи належить ваша проблема до цієї категорії.

302
Це найкращий і найтривожніший час.
Щомісячна підписка на AI-інструменти стає все дорожчою, GPT-5.4 дуже хороший після тесту, тому я оновився одразу, Claude, мабуть, максимум 20x до повного, Google також підписався на план Ultra, головним чином для використання Antigravity для Claude Opus 4.6.
Останні кілька днів я зосередився на оптимізації мультиагентного фреймворку VibHQ, який я розробив, і використав цей фреймворк для створення платформи, сумісної між мобільними телефонами та комп'ютерами для керування всіма агентами CLI.
Я використовував це для роботи з багатьма командами проєктів, включно з командою оптимізації стратегії PM Bot, де AI планує, виконує та контролює якість.
Компанія з однієї людини з цілою професійною командою інженерів ШІ.
330
Найкращі
Рейтинг
Вибране
