Oceniliśmy wiele modeli bazowych na podstawie ewaluacji opartej na perplexity, a Kimi k2.5 okazał się najsilniejszy! Po tym przeprowadzamy kontynuację wstępnego szkolenia i intensywne RL (czterokrotne zwiększenie skali). Połączenie silnej bazy, CPT i RL oraz samplery inferencyjne i RL Fireworks sprawia, że Composer-2 osiąga poziom frontier. To był błąd, że nie wspomnieliśmy o bazie Kimi w naszym blogu od samego początku. Naprawimy to przy następnym modelu.