Thú vị làm sao mà không ai hiểu rằng quy trình RL là phần khó nhất trong việc xây dựng một mô hình sota ngày nay (ít nhất là dưới kích thước 1T tham số)