Mistral выпустил Mistral Small 4, модель с открытыми весами, обладающую гибридным мышлением и возможностью ввода изображений, набрав 27 баллов в Индексе Искусственного Анализа Интеллекта. Модель Small 4 от @MistralAI — это модель с 119 миллиардами параметров, использующая смесь экспертов с 6,5 миллиарда активных параметров на токен, поддерживающая как режимы мышления, так и немышления. В режиме мышления Mistral Small 4 набирает 27 баллов в Индексе Искусственного Анализа Интеллекта, что на 12 пунктов лучше, чем у Small 3.2 (15), и теперь она среди самых интеллектуальных моделей, выпущенных Mistral, превосходя Mistral Large 3 (23) и соответствуя запатентованной модели Magistral Medium 1.2 (27). Однако она отстает от аналогичных моделей с открытыми весами с похожим количеством параметров, таких как gpt-oss-120B (высокий, 33), NVIDIA Nemotron 3 Super 120B A12B (Мышление, 36) и Qwen3.5 122B A10B (Мышление, 42). Ключевые выводы: ➤ Режимы мышления и немышления в одной модели: Mistral Small 4 поддерживает настраиваемое гибридное мышление с режимами мышления и немышления, в отличие от отдельных вариантов мышления, которые Mistral выпускал ранее с их моделями Magistral. В режиме мышления модель набирает 27 баллов в Индексе Искусственного Анализа Интеллекта. В режиме немышления модель набирает 19 баллов, что на 4 пункта лучше, чем у ее предшественника Mistral Small 3.2 (15). ➤ Более эффективен по токенам, чем аналогичные модели: При ~52 миллионах выходных токенов Mistral Small 4 (Мышление) использует меньше токенов для работы с Индексом Искусственного Анализа Интеллекта по сравнению с моделями мышления, такими как gpt-oss-120B (высокий, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Мышление, ~110M) и Qwen3.5 122B A10B (Мышление, ~91M). В режиме немышления модель использует ~4 миллиона выходных токенов. ➤ Нативная поддержка ввода изображений: Mistral Small 4 — это мультимодальная модель, принимающая ввод изображений, а также текст. В нашей мультимодальной оценке MMMU-Pro Mistral Small 4 (Мышление) набирает 57%, опережая Mistral Large 3 (56%), но уступая Qwen3.5 122B A10B (Мышление, 75%). Ни gpt-oss-120B, ни NVIDIA Nemotron 3 Super 120B A12B не поддерживают ввод изображений. Все модели поддерживают только текстовый вывод. ➤ Улучшение в реальных агентных задачах: Mistral Small 4 набирает 871 Elo на GDPval-AA, нашей оценке, основанной на наборе данных GDPval от OpenAI, которая тестирует модели на реальных задачах в 44 профессиях и 9 основных отраслях, с моделями, создающими результаты, такие как документы, таблицы и диаграммы в агентном цикле. Это более чем в два раза превышает Elo Small 3.2 (339) и близко к Mistral Large 3 (880), но отстает от gpt-oss-120B (высокий, 962), NVIDIA Nemotron 3 Super 120B A12B (Мышление, 1021) и Qwen3.5 122B A10B (Мышление, 1130). ➤ Более низкий уровень галлюцинаций, чем у аналогичных моделей: Mistral Small 4 набирает -30 на AA-Omniscience, нашей оценке надежности знаний и галлюцинаций, где баллы варьируются от -100 до 100 (чем выше, тем лучше), и отрицательный балл указывает на большее количество неправильных, чем правильных ответов. Mistral Small 4 опережает gpt-oss-120B (высокий, -50), Qwen3.5 122B A10B (Мышление, -40) и NVIDIA Nemotron 3 Super 120B A12B (Мышление, -42). Ключевые детали модели: ➤ Контекстное окно: 256K токенов (увеличено с 128K на Small 3.2) ➤ Цены: $0.15/$0.6 за 1M входных/выходных токенов ➤ Доступность: только API первого лица Mistral. При нативной точности FP8 параметры Mistral Small 4 с 119B требуют ~119GB для самостоятельного хостинга весов (больше, чем 80GB памяти HBM3 на одном NVIDIA H100). ➤ Модальность: ввод изображений и текста с только текстовым выводом. ➤ Лицензирование: лицензия Apache 2.0.
По сравнению с Общими Параметрами, Mistral Small 4 (Рассуждение, 27) предлагает менее выгодный компромисс, чем аналогичные модели, такие как gpt-oss-120B (высокий, 33), NVIDIA Nemotron 3 Super 120B A12B (Рассуждение, 36) и Qwen3.5 122B A10B (Рассуждение, 42)
При ~52M выходных токенов, Mistral Small 4 (Reasoning) использует меньше токенов для работы Индекса Искусственного Анализа Интеллекта по сравнению с аналогичными моделями, такими как gpt-oss-120B (высокий, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) и Qwen3.5 122B A10B (Reasoning, ~91M)
Полный анализ результатов:
Полные результаты доступны на странице модели Mistral Small 4 на Artificial Analysis:
8,55K