Questo documento è così buono che non volevo condividerlo Ignora il clickbait di OpenClaw, OPD + RL su compiti agentici reali con risultati significativi è molto entusiasmante e ci allontana dalla necessità di ricompense verificabili Autori: @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU