Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paras Chopra
Elämä on peliä 🕹️ • @lossfunk rakentaminen
Joten Esolang-Bench levisi viraaliksi yhdessä yössä!
Paljon keskustelua seurasi; Käsittelen joitakin yleisiä esiin nousseita seikkoja.
a) Miksi tehdä se? Mittaako se jotain hyödyllistä?
b) Mutta ihmiset eivät osaa myös kirjoittaa esoteerisia kieliä hyvin. Se on epäreilu vertailu.
c) Mutta Claude Code murskaa sen. Rajoitit malleja keinotekoisesti.
d) Joten, ovatko LLM:t hypetettyjä? Vai onko tutkimuksemme klikkiotsikoita?

Lossfunk20.3. klo 10.57
Vastaamme muutamiin kysymyksiin Esolang-Benchistämme.
a) Miksi tehdä se? Mittaako se jotain hyödyllistä?
Se oli uteliaisuuteen perustuva projekti. Olemme kiinnostuneita siitä, miten ihmiset osoittavat otostehokkuutta oppimisessa ja OOD-yleistyksessä. Joten kysyimme yksinkertaisesti: jos mallit voivat nollalla tai muutamalla antaa oikeita vastauksia yksinkertaisiin ohjelmointiongelmiin Pythonissa, voivatko ne tehdä saman myös esoteerisissa kielissä?
Vertailukohta on mitä se on. Eri ihmiset voivat tulkita sen hyödyllisyyden eri tavoin, ja kannustamme siihen.
b) Mutta ihmiset eivät osaa myös kirjoittaa esoteerisia kieliä hyvin. Se on epäreilu vertaus.
Ensisijaisesti olemme kiinnostuneita mittaamaan LLM:n kykyjä. ASI:n puheiden myötä heidän kykyjensä oletetaan pian olevan yli-inhimillisiä. Siksi ensisijainen motivaatiomme ei ollut verrata ihmisiin, vaan tarkistaa, mitä he pystyvät tähän rakenteellisesti vaikeaan mittapuuhun.
Uskomme kuitenkin, että ihmiset pystyvät opettamaan itselleen uuden alueen siirtämällä vanhoja taitojaan. Tämä vertailukohta oli siis luoda lähtökohta tutkia, miten tekoälyjärjestelmät voivat tehdä saman (mitä tutkimme nyt).
c) Mutta Claude Code murskaa sen. Rajoitit malleja keinotekoisesti.
Kyllä, testasimme malleja nolla- ja vähäisellä laukauksella. Ja agenttisessa silmukassa, jonka kuvaamme artikkelissa, rajoitamme iteraatioiden määrää. Kuten yllä kirjoitimme, halusimme ymmärtää niiden suorituskykyä vertailevasta näkökulmasta (esimerkiksi hyvin edustetuilla kielillä kuten Python), ja se on benchmarkin mukaan, joka on suunnittelun mukaan tällainen.
Kun artikkeli oli valmis, kokeilimme agenttisia järjestelmiä, joissa annoimme malleille työkaluja kuten bashin ja sallimme rajattomasti iteraatioita (mutta rajoitettuja lähetysyrityksiä). Ne toimivat todellakin paljon paremmin.
Kysymys, joka on relevantti, on, mikä saa nämä mallit toimimaan niin hyvin, kun niille annetaan työkaluja ja iteraatioita, kun ei anneta. Päättelevätkö he / oppivatko he kuten ihmiset vai onko kyse jostain muusta?
d) Joten, ovatko LLM:t hypetettyjä? Vai onko tutkimuksemme klikkiotsikoita?
Paperi, koodi ja vertailuohjelma ovat kaikki avoimen lähdekoodin 👇
Kannustamme kiinnostuneita lukemaan sen ja muodostamaan oman mielipiteensä.
(Emme voineet olla huomaamatta, että *samat* tulokset tulkittiin täysin eri tavoin yhteisössä. Vastakkaisten LLM-leirien välillä käytiin keskustelua. Ehkä se on hyvä asia?)
831
Johtavat
Rankkaus
Suosikit

