1 miljoonan dollarin tekoälyvertailu Sen sijaan, että kysyisit "onko se oikein?" Tässä kysytään: "maksaisiko joku siitä?" Miljoonan dollarin oikeiden asiantuntijatehtävien aikana huippumallit suorittavat vain noin 40–48 %. Paras: Claude Opus-4.6. Iso aukko ei ole tieto, vaan toteutus. Mallit jättävät vaiheet, rajoitteet ja yksityiskohdat huomaamatta. Tekoäly on voimakas. Ei kuitenkaan vielä luotettava päästä päähän. Olen utelias näkemään tämän luvun kasvavan 📈
Linkki tutkimukseen:
182