Het recept achter de redeneermodellen van vandaag is verrassend vergelijkbaar met AlphaGo: 1) Imiteer grote hoeveelheden menselijke data 2) Schaal de inferentiecomputing om beter te redeneren (toen was het Monte Carlo Tree Search, vandaag is het Chain of Thought) 3) Gebruik RL om verder te gaan dan imitatie