跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-18.63%
USELESS
-24.93%
IKUN
-10.75%
gib
-19.93%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-13.91%
ALON
-10.21%
LAUNCHCOIN
-18.54%
GOONC
-13.01%
KLED
-12.25%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.39%
Boopa
-8.61%
PORK
0.00%
主頁
Andrej Karpathy
建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉,創始團隊 @ OpenAI,CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。
查看原文
Andrej Karpathy
19 分鐘前
nanochat 現在可以以 <<$100 (~$73,單個 8XH100 節點上 3 小時) 的價格訓練 GPT-2 級別的 LLM。 GPT-2 是我最喜歡的 LLM,因為這是 LLM 堆疊首次以可識別的現代形式結合在一起。因此,我對以更便宜的價格訓練一個具備 GPT-2 能力的模型產生了一種奇怪且持久的癖好,受益於大約 7 年的進步。特別是,我懷疑今天應該可以以 <<$100 的價格訓練一個。 最初在 2019 年,GPT-2 是由 OpenAI 在 32 個 TPU v3 芯片上訓練的,持續 168 小時(7 天),當時的價格是每小時 $8/TPUv3,總成本約為 $43K。它達到了 0.256525 的 CORE 分數,這是一個在 DCLM 論文中引入的集成指標,基於 22 次評估,如 ARC/MMLU 等。 隨著最近幾次合併到 nanochat 的改進(其中許多源自 modded-nanogpt 倉庫),我現在可以在單個 8XH100 節點上以 3.04 小時 (~$73) 的時間達到更高的 CORE 分數。這是 7 年來成本降低的 600 倍,即訓練 GPT-2 的成本每年大約下降 2.5 倍。我認為這可能是低估,因為我仍然相對定期地發現更多的改進,並且我有一堆更多的想法待嘗試。 一篇更長的帖子詳細介紹了涉及的優化細節以及如何重現的指導在這裡: 受到 modded-nanogpt 的啟發,我還創建了一個 "時間到 GPT-2" 的排行榜,其中這個第一個 "Jan29" 模型是第 1 項,耗時 3.04 小時。進一步迭代這個將會很有趣,我歡迎幫助!我希望 nanochat 能夠成長為一個非常好/乾淨且調整過的實驗 LLM 平台,用於原型設計、娛樂,當然還有學習。 那些能夠立即產生增益的最大改進是 1) Flash Attention 3 核心(更快,並允許 window_size kwarg 獲得交替注意模式)、Muon 優化器(我嘗試了大約 1 天刪除它並僅使用 AdamW,但我做不到)、由可學習標量控制的殘差路徑和跳過連接,以及值嵌入。還有許多其他較小的改進累積起來。 圖片:與當前 nanochat 模型迷你系列的縮放法則推導相關的半相關視覺效果,既美觀又令人滿意!
7
Andrej Karpathy
18 小時前
我被指控過度炒作[今天大家已經聽得太多的網站]。人們的反應差異很大,從「這根本有什麼有趣的」到「這一切都結束了」。 除了開玩笑的迷因之外,明顯地,當你看看活動時,這裡有很多垃圾——垃圾郵件、詐騙、混亂,加密貨幣的人,隱私/安全的提示注入攻擊的狂野西部,很多都是明確提示的假帖子/評論,旨在將注意力轉換為廣告收入分享。而這顯然不是第一次讓LLM互相對話。所以,是的,這是一場垃圾場火災,我也絕對不建議人們在他們的電腦上運行這些東西(我在一個隔離的計算環境中運行我的,即使那樣我也感到害怕),這實在是太過於狂野西部,你正在將你的電腦和私人數據置於高風險之中。 話雖如此——我們從未見過這麼多的LLM代理(目前150,000個!)通過一個全球性的、持久的、以代理為先的草稿板連接起來。這些代理每個都相當獨立且相當有能力,他們擁有自己獨特的上下文、數據、知識、工具、指令,而在這個規模下,所有這些的網絡簡直是前所未有的。 這再次讓我想起幾天前的一條推文 「大多數的吠叫聲是那些看著當前點的人和那些看著當前斜率的人。」在我看來,這再次觸及了變異的核心。是的,顯然現在是一場垃圾場火災。但同樣真的是,我們已經深入了未開發的領域,擁有邊緣自動化,我們幾乎甚至無法單獨理解,更不用說可能達到數百萬的網絡了。隨著能力的增強和擴散,分享草稿板的代理網絡的二次效應是非常難以預測的。我不確定我們是否會得到一個協調的「天網」(雖然它顯然符合許多AI起飛科幻小說的早期階段,幼兒版本),但我們肯定得到的是一個在規模上完全混亂的計算機安全噩夢。我們也可能會看到各種奇怪的活動,例如在代理之間傳播的文本病毒,越來越多的功能獲得越獄,奇怪的吸引子狀態,高度相關的僵屍網絡活動,妄想/精神病,無論是代理還是人類等等。這很難說,實驗正在實時進行。 簡而言之,或許我今天所見的確是「過度炒作」,但我並不在原則上過度炒作大型自主LLM代理網絡,我相當確定。
325
Andrej Karpathy
22 小時前
我正在 @moltbook 上認領我的 AI 代理人 "KarpathyMolty"🦞 驗證:marine-FAYV
242
熱門
排行
收藏