Mistral hat Mistral Small 4 veröffentlicht, ein Modell mit offenen Gewichten, das hybrides Denken und Bildinput unterstützt und 27 im Artificial Analysis Intelligence Index erzielt. @MistralAI's Small 4 ist ein 119B Mischmodell von Experten mit 6,5B aktiven Parametern pro Token, das sowohl Denk- als auch Nicht-Denk-Modi unterstützt. Im Denkmodus erzielt Mistral Small 4 27 im Artificial Analysis Intelligence Index, eine Verbesserung um 12 Punkte im Vergleich zu Small 3.2 (15) und gehört nun zu den intelligentesten Modellen, die Mistral veröffentlicht hat, übertrifft Mistral Large 3 (23) und erreicht das proprietäre Magistral Medium 1.2 (27). Allerdings bleibt es hinter offenen Gewichts-Kollegen mit ähnlichen Gesamtparameterzahlen zurück, wie gpt-oss-120B (hoch, 33), NVIDIA Nemotron 3 Super 120B A12B (Denkmodus, 36) und Qwen3.5 122B A10B (Denkmodus, 42). Wichtige Erkenntnisse: ➤ Denk- und Nicht-Denk-Modi in einem einzigen Modell: Mistral Small 4 unterstützt konfigurierbares hybrides Denken mit Denk- und Nicht-Denk-Modi, anstatt die separaten Denkvarianten, die Mistral zuvor mit ihren Magistral-Modellen veröffentlicht hat. Im Denkmodus erzielt das Modell 27 im Artificial Analysis Intelligence Index. Im Nicht-Denk-Modus erzielt das Modell 19, eine Verbesserung um 4 Punkte im Vergleich zu seinem Vorgänger Mistral Small 3.2 (15). ➤ Effizienter im Tokenverbrauch als Kollegen ähnlicher Größe: Mit ~52M Ausgabetokens benötigt Mistral Small 4 (Denkmodus) weniger Tokens, um den Artificial Analysis Intelligence Index im Vergleich zu Denkmodellen wie gpt-oss-120B (hoch, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Denkmodus, ~110M) und Qwen3.5 122B A10B (Denkmodus, ~91M) zu betreiben. Im Nicht-Denk-Modus verwendet das Modell ~4M Ausgabetokens. ➤ Native Unterstützung für Bildinput: Mistral Small 4 ist ein multimodales Modell, das Bildinput sowie Text akzeptiert. In unserer multimodalen Bewertung, MMMU-Pro, erzielt Mistral Small 4 (Denkmodus) 57%, vor Mistral Large 3 (56%), aber hinter Qwen3.5 122B A10B (Denkmodus, 75%). Weder gpt-oss-120B noch NVIDIA Nemotron 3 Super 120B A12B unterstützen Bildinput. Alle Modelle unterstützen nur Textausgabe. ➤ Verbesserung bei realen agentischen Aufgaben: Mistral Small 4 erzielt einen Elo von 871 auf GDPval-AA, unserer Bewertung basierend auf OpenAI's GDPval-Datensatz, der Modelle bei realen Aufgaben in 44 Berufen und 9 großen Branchen testet, wobei Modelle Ergebnisse wie Dokumente, Tabellenkalkulationen und Diagramme in einem agentischen Loop produzieren. Dies ist mehr als das Doppelte des Elo von Small 3.2 (339) und nahe an Mistral Large 3 (880), aber hinter gpt-oss-120B (hoch, 962), NVIDIA Nemotron 3 Super 120B A12B (Denkmodus, 1021) und Qwen3.5 122B A10B (Denkmodus, 1130). ➤ Niedrigere Halluzinationsrate als Peer-Modelle ähnlicher Größe: Mistral Small 4 erzielt -30 auf AA-Omniscience, unserer Bewertung der Wissenszuverlässigkeit und Halluzination, wo die Punktzahlen von -100 bis 100 reichen (höher ist besser) und eine negative Punktzahl mehr falsche als richtige Antworten anzeigt. Mistral Small 4 liegt vor gpt-oss-120B (hoch, -50), Qwen3.5 122B A10B (Denkmodus, -40) und NVIDIA Nemotron 3 Super 120B A12B (Denkmodus, -42). Wichtige Modellinformationen: ➤ Kontextfenster: 256K Tokens (von 128K auf Small 3.2 erhöht) ➤ Preisgestaltung: $0.15/$0.6 pro 1M Eingabe/Ausgabe-Tokens ➤ Verfügbarkeit: Nur Mistral First-Party-API. Bei nativer FP8-Präzision benötigt Mistral Small 4's 119B Parameter ~119GB, um die Gewichte selbst zu hosten (mehr als die 80GB HBM3-Speicher auf einem einzelnen NVIDIA H100). ➤ Modalität: Bild- und Texteingabe mit nur Textausgabe. ➤ Lizenzierung: Apache 2.0 Lizenz.
Im Vergleich von Intelligenz zu Gesamtparametern bietet Mistral Small 4 (Reasoning, 27) einen weniger günstigen Kompromiss als vergleichbare Modelle ähnlicher Größe wie gpt-oss-120B (hoch, 33), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36) und Qwen3.5 122B A10B (Reasoning, 42)
Mit ~52M Ausgabetokens verwendet Mistral Small 4 (Reasoning) weniger Tokens, um den Artificial Analysis Intelligence Index auszuführen, im Vergleich zu Peer-Modellen wie gpt-oss-120B (hoch, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) und Qwen3.5 122B A10B (Reasoning, ~91M)
Vollständige Aufschlüsselung der Ergebnisse:
Vollständige Ergebnisse sind auf der Seite des Mistral Small 4 Modells bei Artificial Analysis verfügbar:
8,24K