Den här artikeln är nästan för bra att jag inte ville dela den Ignorera OpenClaws klickbete, OPD + RL på riktiga agentiska uppgifter med betydande resultat är väldigt spännande och gör att vi slipper behovet av verifierbara belöningar Författare: @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU