Традиційні тести кодування не відображають, як насправді створюється та підтримується програмне забезпечення. Саме тому ми створили новий бенчмарк APEX-SWE у партнерстві з @cognition. Він вимірює, чи можуть моделі ШІ виконувати складну реальну інженерну роботу з програмного забезпечення, щоб забезпечити системи, які працюють, і налагоджувати їх, коли вони не працюють. @OpenAI GPT 5.3 Codex (High) очолює таблицю лідерів із 41,5% на Pass@1.