Mistral ha rilasciato Mistral Small 4, un modello a pesi aperti con ragionamento ibrido e input di immagini, ottenendo 27 nell'Artificial Analysis Intelligence Index. Il Small 4 di @MistralAI è un modello a miscela di esperti da 119B con 6.5B di parametri attivi per token, che supporta sia modalità di ragionamento che non di ragionamento. In modalità di ragionamento, Mistral Small 4 ottiene 27 nell'Artificial Analysis Intelligence Index, un miglioramento di 12 punti rispetto a Small 3.2 (15) e ora è tra i modelli più intelligenti rilasciati da Mistral, superando Mistral Large 3 (23) e pareggiando con il proprietario Magistral Medium 1.2 (27). Tuttavia, è in ritardo rispetto ai pari a pesi aperti con conteggi totali di parametri simili come gpt-oss-120B (alto, 33), NVIDIA Nemotron 3 Super 120B A12B (Ragionamento, 36) e Qwen3.5 122B A10B (Ragionamento, 42). Punti chiave: ➤ Modalità di ragionamento e non di ragionamento in un unico modello: Mistral Small 4 supporta un ragionamento ibrido configurabile con modalità di ragionamento e non di ragionamento, piuttosto che le varianti di ragionamento separate che Mistral ha rilasciato in precedenza con i loro modelli Magistral. In modalità di ragionamento, il modello ottiene 27 nell'Artificial Analysis Intelligence Index. In modalità non di ragionamento, il modello ottiene 19, un miglioramento di 4 punti rispetto al suo predecessore Mistral Small 3.2 (15). ➤ Più efficiente in termini di token rispetto ai pari di dimensioni simili: Con ~52M di token di output, Mistral Small 4 (Ragionamento) utilizza meno token per eseguire l'Artificial Analysis Intelligence Index rispetto a modelli di ragionamento come gpt-oss-120B (alto, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Ragionamento, ~110M) e Qwen3.5 122B A10B (Ragionamento, ~91M). In modalità non di ragionamento, il modello utilizza ~4M di token di output. ➤ Supporto nativo per input di immagini: Mistral Small 4 è un modello multimodale, accettando input di immagini oltre al testo. Nella nostra valutazione multimodale, MMMU-Pro, Mistral Small 4 (Ragionamento) ottiene il 57%, davanti a Mistral Large 3 (56%) ma dietro a Qwen3.5 122B A10B (Ragionamento, 75%). Né gpt-oss-120B né NVIDIA Nemotron 3 Super 120B A12B supportano input di immagini. Tutti i modelli supportano solo output di testo. ➤ Miglioramento nelle attività agentiche nel mondo reale: Mistral Small 4 ottiene un Elo di 871 su GDPval-AA, la nostra valutazione basata sul dataset GDPval di OpenAI che testa i modelli su compiti reali in 44 professioni e 9 settori principali, con modelli che producono deliverables come documenti, fogli di calcolo e diagrammi in un ciclo agentico. Questo è più del doppio dell'Elo di Small 3.2 (339) e vicino a Mistral Large 3 (880), ma dietro a gpt-oss-120B (alto, 962), NVIDIA Nemotron 3 Super 120B A12B (Ragionamento, 1021) e Qwen3.5 122B A10B (Ragionamento, 1130). ➤ Tasso di allucinazione inferiore rispetto ai modelli pari di dimensioni simili: Mistral Small 4 ottiene -30 su AA-Omniscience, la nostra valutazione dell'affidabilità della conoscenza e delle allucinazioni, dove i punteggi variano da -100 a 100 (più alto è meglio) e un punteggio negativo indica più risposte errate che corrette. Mistral Small 4 ottiene punteggi superiori a gpt-oss-120B (alto, -50), Qwen3.5 122B A10B (Ragionamento, -40) e NVIDIA Nemotron 3 Super 120B A12B (Ragionamento, -42). Dettagli chiave del modello: ➤ Finestra di contesto: 256K token (aumento rispetto a 128K su Small 3.2) ➤ Prezzi: $0.15/$0.6 per 1M di token di input/output. ➤ Disponibilità: Solo API di prima parte di Mistral. A precisione FP8 nativa, i 119B parametri di Mistral Small 4 richiedono ~119GB per auto-ospitare i pesi (più dei 80GB di memoria HBM3 su un singolo NVIDIA H100). ➤ Modalità: Input di immagini e testo con solo output di testo. ➤ Licenza: Licenza Apache 2.0.
Sull'Intelligenza rispetto ai Parametri Totali, Mistral Small 4 (Ragionamento, 27) offre un compromesso meno favorevole rispetto ai concorrenti di dimensioni simili come gpt-oss-120B (alto, 33), NVIDIA Nemotron 3 Super 120B A12B (Ragionamento, 36) e Qwen3.5 122B A10B (Ragionamento, 42)
Con circa 52M di token in output, Mistral Small 4 (Reasoning) utilizza meno token per eseguire l'Artificial Analysis Intelligence Index rispetto a modelli concorrenti come gpt-oss-120B (alto, circa 78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, circa 110M) e Qwen3.5 122B A10B (Reasoning, circa 91M)
Analisi completa dei risultati:
Risultati completi disponibili nella pagina del modello Mistral Small 4 su Artificial Analysis:
8,24K