Бенчмарк AI на 1 миллион долларов Вместо того чтобы спрашивать "это правильно?" Это спрашивает: "платил бы кто-то за это?" На протяжении 1 миллиона долларов реальных экспертных задач лучшие модели выполняют только около 40–48%. Лучшая: Claude Opus-4.6. Большой разрыв не в знаниях, а в исполнении. Модели пропускают шаги, ограничения и детали. AI мощный. Просто еще не надежен от начала до конца. Интересно увидеть, как это число растет 📈
Ссылка на исследование:
150