Folk feiltolker raskt denne grafen som hype Her er en tydelig forklaring på hva som skjer: METR bygger en referanse for programvareoppgaver (feilsøking av komplekse systemer, trening av ML-modeller eller å finne sikkerhetssårbarheter) De måler hvor lang tid hver oppgave tar for en dyktig menneskelig ekspert å fullføre, og tester deretter AI-agenter på de samme oppgavene. «Tidshorisonten» er en oppsummerende statistikk: oppgavelengden hvor en gitt AI lykkes 50 % av gangene. En modell med en 2-timers tidshorisont fullfører halvparten av oppgavene som ville tatt en menneskelig ekspert 2 timer. METR rapporterte nettopp at Claude Opus 4.6 har en 50 % tidshorisont på ~14,5 timer, noe som selvfølgelig ville vært utrolig imponerende... men METR sier at vi må være forsiktige! Det er et statistisk problem. Det er rett og slett ikke nok vanskelige oppgaver igjen til å forankre den øvre enden av kurven, og frontier-modeller lykkes nå med nesten alt i oppgavesettet. Så, små tilfeldige variasjoner i resultatene svinger estimatet dramatisk: 95 % konfidensintervallet varierer fra 6 timer til 98 timer, noe som åpenbart er et upålitelig område for noen å trekke konklusjoner fra. METR selv jobber med nye metoder for å måle på dette nivået, så trappe ned forventningene litt :)