Китайская компания Moonshot AI выпустила Kimi K2.6 — открытую модель для программирования, которая обогнала флагманские модели Claude Opus 4.6 и GPT-5.4 на ключевом тесте автономного кода SWE-Bench Pro. Модель доступна на сайте Kimi, в приложении, через API и в инструменте Kimi Code.

До сих пор открытые модели уступали закрытым решениям OpenAI и Anthropic в задачах, где ИИ работает самостоятельно — пишет код, отлаживает ошибки и запускает программы без подсказок человека. Kimi K2.6 закрыла этот разрыв и на SWE-Bench Pro набрала 58,6% против 53,4% у Claude Opus 4.6 и 57,7% у GPT-5.4. На Terminal-Bench 2.0 — 66,7%, тоже впереди Opus и GPT-5.4 (65,4% у обоих), но позади Gemini 3.1 Pro (68,5%).

Главный прорыв — длительные задачи. В тестах Moonshot K2.6 работала 12 часов и сделала более 4 000 вызовов инструментов, скачала и развернула на Mac модель Qwen3.5-0.8B, написав ее реализацию на редком языке Zig. За 14 итераций модель разогнала скорость генерации с 15 до 193 токенов в секунду — это примерно на 20% быстрее, чем у популярного инструмента LM Studio. В другом эксперименте K2.6 за 13 часов переработала восьмилетний движок биржевого матчинга exchange-core: проанализировала загрузку процессора, перестроила архитектуру потоков и подняла производительность на 185%.

Параллельно с моделью Moonshot обновила механизм Agent Swarm — он сможет запускать до 300 специализированных субагентов одновременно, против 100 в предыдущей версии. Новый сервис Claw Groups позволит подключать к рабочему пространству агентов с разных устройств: ноутбуков, телефонов и облачных серверов. K2.6 будет распределять задачи между ними и сама перенаправит работу, если кто-то из агентов даст сбой.

Также прокачались проактивные сценарии. Внутри Moonshot агент на базе K2.6 отработал целых пять дней подряд — он мониторил систему, реагировал на инциденты и доводил задачи от обнаружения до исправления без участия человека.

Источник: Moonshot AI

Поделиться ВКонтакте Telegram