O Benchmark de IA de 1 milhão de dólares Em vez de perguntar "está correto?" Isso pergunta: "alguém pagaria por isso?" Em 1 milhão de dólares de tarefas reais de especialistas, os melhores modelos completam apenas cerca de 40–48%. O melhor: Claude Opus-4.6. A grande lacuna não é o conhecimento, é a execução. Os modelos perdem etapas, restrições e detalhes. A IA é poderosa. Apenas não é confiável de ponta a ponta ainda. Curioso para ver esse número crescer 📈
Link para o estudo:
164