Vi fant en oppgave hvor LLM-er sliter enormt! Gi dem et kodeproblem i Python, så vil de fungere utmerket. Gir samme problem i brainfuck og zero-shot, ytelsen deres er ~0 % +[--------->+<]>+.++[--->++<]>+.