Este artículo es casi demasiado bueno como para no compartirlo Ignora el clickbait de OpenClaw, OPD + RL en tareas reales con agentes significativos y resultados importantes es muy emocionante, y nos aleja de la necesidad de recompensas verificables Autores: @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU