Tämä BullshitBench-tulos selittää pitkälti laajalle levinnyttä intuitiota siitä, että Claude on paras päivittäinen kuljettaja, huolimatta Googlen ja OAI:n hämmästyttävistä vertailuarvoista. Vertaa BullshitBenchiä ongelmanratkaisun vertailuarvoihin. Kaikki jälkimmäiset edellyttävät oikeita ratkaisuja. Mutta oikeassa elämässä ongelmat ovat huonosti määriteltyjä, eikä usein ole selvää, mitkä kysymykset ovat kysymisen arvoisia tai mitkä niistä on edes vastauksia. Tarvitset mallin, joka voi ohjata sinut väärälle polulle — eli kutsua sitä hölynpölyksi.