Ми співпрацювали з @mercor_ai над APEX-SWE — новим бенчмарком, який оцінює моделі ШІ на реалістичних завданнях програмної інженерії.