興味深いことに、今のところ強化学習パイプライン(SOTAモデル構築で最も難しい部分)が1Tパラメータサイズ未満では難しい部分であることを誰も理解していません。