Mistral a lancé Mistral Small 4, un modèle à poids ouverts avec raisonnement hybride et entrée d'image, obtenant un score de 27 sur l'Indice d'Intelligence d'Analyse Artificielle. Le Small 4 de @MistralAI est un modèle à mélange d'experts de 119 milliards de paramètres avec 6,5 milliards de paramètres actifs par token, prenant en charge à la fois les modes de raisonnement et de non-raisonnement. En mode raisonnement, Mistral Small 4 obtient un score de 27 sur l'Indice d'Intelligence d'Analyse Artificielle, une amélioration de 12 points par rapport à Small 3.2 (15) et maintenant parmi les modèles les plus intelligents que Mistral a publiés, surpassant Mistral Large 3 (23) et égalant le Magistral Medium 1.2 propriétaire (27). Cependant, il est à la traîne par rapport à ses pairs à poids ouverts avec des comptes de paramètres totaux similaires tels que gpt-oss-120B (élevé, 33), NVIDIA Nemotron 3 Super 120B A12B (Raisonnement, 36) et Qwen3.5 122B A10B (Raisonnement, 42). Points clés à retenir : ➤ Modes de raisonnement et de non-raisonnement dans un seul modèle : Mistral Small 4 prend en charge un raisonnement hybride configurable avec des modes de raisonnement et de non-raisonnement, plutôt que les variantes de raisonnement séparées que Mistral a publiées précédemment avec leurs modèles Magistral. En mode raisonnement, le modèle obtient un score de 27 sur l'Indice d'Intelligence d'Analyse Artificielle. En mode non-raisonnement, le modèle obtient un score de 19, une amélioration de 4 points par rapport à son prédécesseur Mistral Small 3.2 (15). ➤ Plus efficace en termes de tokens que les pairs de taille similaire : Avec ~52 millions de tokens de sortie, Mistral Small 4 (Raisonnement) utilise moins de tokens pour exécuter l'Indice d'Intelligence d'Analyse Artificielle par rapport à des modèles de raisonnement tels que gpt-oss-120B (élevé, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Raisonnement, ~110M) et Qwen3.5 122B A10B (Raisonnement, ~91M). En mode non-raisonnement, le modèle utilise ~4 millions de tokens de sortie. ➤ Prise en charge native de l'entrée d'image : Mistral Small 4 est un modèle multimodal, acceptant l'entrée d'image ainsi que le texte. Lors de notre évaluation multimodale, MMMU-Pro, Mistral Small 4 (Raisonnement) obtient un score de 57 %, devant Mistral Large 3 (56 %) mais derrière Qwen3.5 122B A10B (Raisonnement, 75 %). Ni gpt-oss-120B ni NVIDIA Nemotron 3 Super 120B A12B ne prennent en charge l'entrée d'image. Tous les modèles ne prennent en charge que la sortie de texte. ➤ Amélioration dans les tâches agentiques du monde réel : Mistral Small 4 obtient un Elo de 871 sur GDPval-AA, notre évaluation basée sur le jeu de données GDPval d'OpenAI qui teste les modèles sur des tâches du monde réel dans 44 professions et 9 grandes industries, les modèles produisant des livrables tels que des documents, des tableurs et des diagrammes dans une boucle agentique. C'est plus du double de l'Elo de Small 3.2 (339) et proche de Mistral Large 3 (880), mais derrière gpt-oss-120B (élevé, 962), NVIDIA Nemotron 3 Super 120B A12B (Raisonnement, 1021) et Qwen3.5 122B A10B (Raisonnement, 1130). ➤ Taux de hallucination inférieur à celui des modèles pairs de taille similaire : Mistral Small 4 obtient -30 sur AA-Omniscience, notre évaluation de la fiabilité des connaissances et des hallucinations, où les scores varient de -100 à 100 (plus c'est mieux) et un score négatif indique plus de réponses incorrectes que correctes. Mistral Small 4 obtient un score supérieur à gpt-oss-120B (élevé, -50), Qwen3.5 122B A10B (Raisonnement, -40) et NVIDIA Nemotron 3 Super 120B A12B (Raisonnement, -42). Détails clés du modèle : ➤ Fenêtre de contexte : 256K tokens (en hausse par rapport à 128K sur Small 3.2) ➤ Tarification : 0,15 $ / 0,6 $ par 1M de tokens d'entrée/sortie. ➤ Disponibilité : API de première partie Mistral uniquement. À la précision FP8 native, les 119 milliards de paramètres de Mistral Small 4 nécessitent ~119 Go pour auto-héberger les poids (plus que les 80 Go de mémoire HBM3 sur un seul NVIDIA H100). ➤ Modalité : Entrée d'image et de texte avec sortie de texte uniquement. ➤ Licence : Licence Apache 2.0.
En ce qui concerne l'intelligence par rapport au nombre total de paramètres, Mistral Small 4 (Raisonnement, 27) offre un compromis moins favorable que ses pairs de tailles similaires tels que gpt-oss-120B (élevé, 33), NVIDIA Nemotron 3 Super 120B A12B (Raisonnement, 36) et Qwen3.5 122B A10B (Raisonnement, 42)
Avec environ 52 millions de tokens de sortie, Mistral Small 4 (Raisonnement) utilise moins de tokens pour exécuter l'Indice d'Analyse Intelligente Artificielle par rapport à des modèles concurrents tels que gpt-oss-120B (élevé, environ 78 millions), NVIDIA Nemotron 3 Super 120B A12B (Raisonnement, environ 110 millions) et Qwen3.5 122B A10B (Raisonnement, environ 91 millions)
Détail complet des résultats :
Tous les résultats sont disponibles sur la page du modèle Mistral Small 4 sur Artificial Analysis :
8,63K