Цікаво, що ніхто не розуміє, що RL-пайплайн — це найскладніша частина побудови моделі Sota (принаймні менше розміру параметра 1T).