Das Rezept hinter den heutigen Grenzmodellierungsansätzen ist überraschend ähnlich wie bei AlphaGo: 1) Imitiere große Mengen menschlicher Daten 2) Skaliere die Inferenzberechnung, um besser zu denken (damals war es Monte Carlo Tree Search, heute ist es Chain of Thought) 3) Nutze RL, um über die Imitation hinauszugehen