DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Artificial Analysis

Analisis independen model AI dan penyedia hosting - pilih model dan penyedia API terbaik untuk kasus penggunaan Anda

Mistral telah merilis Mistral Small 4, model bobot terbuka dengan penalaran hibrida dan input gambar, mencetak 27 pada Indeks Kecerdasan Analisis Buatan @MistralAI's Small 4 adalah model campuran ahli 119B dengan 6,5 miliar parameter aktif per token, mendukung mode penalaran dan non-penalaran. Dalam mode penalaran, Mistral Small 4 mendapat skor 27 pada Indeks Kecerdasan Analisis Buatan, peningkatan 12 poin dari Small 3.2 (15) dan sekarang di antara model paling cerdas yang telah dirilis Mistral, melampaui Mistral Large 3 (23) dan menyamai Magistral Medium 1.2 (27). Namun, ia tertinggal dari rekan bobot terbuka dengan jumlah parameter total yang serupa seperti gpt-oss-120B (tinggi, 33), NVIDIA Nemotron 3 Super 120B A12B (Penalaran, 36), dan Qwen3.5 122B A10B (Penalaran, 42). Kesimpulan utama: ➤ Mode penalaran dan non-penalaran dalam satu model: Mistral Small 4 mendukung penalaran hibrida yang dapat dikonfigurasi dengan mode penalaran dan non-penalaran, daripada varian penalaran terpisah yang telah dirilis Mistral sebelumnya dengan model Magistral mereka. Dalam mode penalaran, model mendapat skor 27 pada Indeks Kecerdasan Analisis Buatan. Dalam mode non-penalaran, model ini mendapat skor 19, peningkatan 4 poin dari pendahulunya Mistral Small 3.2 (15) ➤ Lebih efisien token daripada rekan dengan ukuran yang sama: Pada ~52 juta token keluaran, Mistral Small 4 (Reasoning) menggunakan lebih sedikit token untuk menjalankan Indeks Kecerdasan Analisis Buatan dibandingkan dengan model penalaran seperti gpt-oss-120B (tinggi, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M), dan Qwen3.5 122B A10B (Reasoning, ~91M). Dalam mode non-penalaran, model menggunakan ~4 juta token keluaran ➤ Dukungan asli untuk input gambar: Mistral Small 4 adalah model multimodal, menerima input gambar serta teks. Pada evaluasi multimodal kami, MMMU-Pro, Mistral Small 4 (Reasoning) mendapat skor 57%, di depan Mistral Large 3 (56%) tetapi di belakang Qwen3.5 122B A10B (Reasoning, 75%). Baik gpt-oss-120B maupun NVIDIA Nemotron 3 Super 120B A12B tidak mendukung input gambar. Semua model hanya mendukung output teks ➤ Peningkatan dalam tugas agen dunia nyata: Mistral Small 4 mencetak Elo 871 pada GDPval-AA, evaluasi kami berdasarkan kumpulan data GDPval OpenAI yang menguji model pada tugas dunia nyata di 44 pekerjaan dan 9 industri besar, dengan model menghasilkan hasil akhir seperti dokumen, spreadsheet, dan diagram dalam lingkaran agen. Ini lebih dari dua kali lipat Elo Small 3.2 (339) dan mendekati Mistral Large 3 (880), tetapi di belakang gpt-oss-120B (tinggi, 962), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 1021), dan Qwen3.5 122B A10B (Reasoning, 1130) ➤ Tingkat halusinasi lebih rendah daripada model sebaya dengan ukuran yang sama: Mistral Small 4 skor -30 pada AA-Omniscience, evaluasi kami tentang keandalan pengetahuan dan halusinasi, di mana skor berkisar dari -100 hingga 100 (lebih tinggi lebih baik) dan skor negatif menunjukkan lebih banyak jawaban yang salah daripada yang benar. Skor Mistral Small 4 di depan gpt-oss-120B (tinggi, -50), Qwen3.5 122B A10B (Penalaran, -40), dan NVIDIA Nemotron 3 Super 120B A12B (Penalaran, -42) Detail model utama: ➤ Jendela konteks: 256 ribu token (naik dari 128 ribu pada Small 3.2) ➤ Harga: $0.15/$0.6 per 1 juta token input/output ➤ Ketersediaan: Hanya API pihak pertama Mistral. Pada presisi FP8 asli, parameter 119B Mistral Small 4 membutuhkan ~119GB untuk menghosting bobot sendiri (lebih dari memori HBM3 80GB pada satu NVIDIA H100) ➤ Modalitas: Input gambar dan teks hanya dengan output teks ➤ Lisensi: Lisensi Apache 2.0

Teratas

Peringkat

Favorit