Вышла Qwen 3.7 Max, которая умнее Claude Opus 4.6

Alibaba представила Qwen 3.7 Max — флагманскую модель, заточенную под автономных ИИ-агентов. Модель сможет писать код, автоматизировать офисные задачи и работать без перерыва сотни и тысячи шагов подряд. На сложных тестах Qwen 3.7 Max обходит Claude Opus 4.6 Max в математике и научных рассуждениях, а в одном из экспериментов 35 часов сама оптимизировала ядро GPU и ускорила его в 10 раз.

На математическом тесте HMMT 2026 модель набрала 97,1 балла — лучший результат среди всех существующих моделей. На GPQA Diamond по сложным научным вопросам — 92,4 (Opus 4.6 Max — 91,3). На бенчмарке Apex по рассуждениям — 44,5 против 38,3 у DeepSeek V4 Pro.

Owen

Главный фокус Alibaba — длинные автономные задачи. В одном из экспериментов компания дала Qwen 3.7 Max задачу оптимизировать ядро Extend Attention на новой архитектуре T-Head ZW-M890, которую модель никогда не видела в обучении. На старте у модели был только пустой рабочий стол, описание задачи и реферрнсная реализация. За 35 часов непрерывной работы Qwen 3.7 Max сделала 1 158 вызовов инструментов, провела 432 проверки производительности и в итоге ускорила код в 10 раз. Другие модели в тех же условиях справились хуже: GLM 5.1 — ускорение в 7,3 раза, Kimi K2.6 — в 5 раз, DeepSeek V4 Pro — всего в 3,3 раза. Несколько моделей сами завершили работу до окончания, заключив, что не могут больше улучшить результат.

Еще один эксперимент — YC-Bench, симулятор работы стартапа в течение года. Агент сам нанимал сотрудников, проверял контракты, отсеивал мошеннических клиентов и держал маржу. В результате нейросеть принесла «стартапу» 2,08 миллиона долларов выручки за моделируемый год — вдвое больше, чем предыдущая Qwen 3.6 Plus (1,05 миллиона). Модель сама исследовала рынок, добавляла подозрительных клиентов в черный список и выходила из кризисов.

Qwen 3.7 Max поддерживает контекст в 1 миллион токенов и совместима с протоколом Anthropic API — то есть может работать как замена Claude в Claude Code без переделки кода. Также есть готовые интеграции с OpenClaw и собственным Qwen Code.

Источник: Qwen Blog

0 Комментарий

Alibaba выпустила Qwen 3.7 Max, которая обходит Claude Opus 4.6 в математике и сложных рассуждениях