Avaliamo muitos modelos base em avaliações baseadas em perplexidade e o Kimi k2.5 provou ser o mais forte! Depois disso, fazemos um pré-treinamento contínuo e RL de alto desempenho (um aumento de 4x). A combinação da base forte, CPT e RL, e os inferidores e amostradores de RL do Fireworks tornam o Composer-2 de nível fronteira. Foi um erro não mencionar a base Kimi no nosso blog desde o início. Vamos corrigir isso para o próximo modelo.