Grok 4.20 Beta 在 Grok 4 的基础上有三大改进: ➤ 我们在 AA-Omniscience 评估中创下了有史以来最低的幻觉率。当 Grok 不知道答案时,它错误地幻觉出一个答案的概率为 22% - 这是我们测试过的任何模型中最低的幻觉率,超过了 Claude Haiku 4.5(25%) ➤ 在指令遵循和提示遵守方面得分最高。在 IFBench 上,Grok 4.20 以 82.9% 的成绩位居第一,比 Grok 4 提高了 29.2 分 ➤ 在智能方面领先的速度。在 xAI 的 API 上,Grok 4.20 的输出速度为每秒 265 个标记,显著快于同类产品,且超过了 Grok 4.1 Fast 的输出速度的 2 倍 祝贺 @xai 和 @elonmusk 推出 4.20 Beta 0309!
对人工分析的进一步分析:
32.43K