Nvidia представила Nemotron 3 Nano Omni — ИИ-модель, которая объединяет в одном инструменте обработку видео, аудио, изображений и текста.
Современные ИИ-агенты часто решают задачи, в которых нужно одновременно смотреть на экран, слушать звук и читать документ — например, разобрать запись совещания, проанализировать график на слайде и сравнить ее с текстовым отчетом. Чтобы это сделать, в продакшене обычно соединяют несколько специализированных моделей. Из-за этого каждая передача данных между моделями добавляет задержку и увеличивает стоимость работы нейросети. В Nemotron 3 Nano Omni все эти задачи будут обрабатываться одновременно внутри одной модели.
В тестах на реальной нагрузке модель оказалась в десятки раз быстрее и умнее других мультимодальных моделей. А на тесте MediaPerf, где модели сравнивают по качеству, стоимости и скорости работы с видео, Nemotron заняла первое место по пропускной способности на всех типах задач и оказалась самой дешевой при разметке видео. Также модель лидирует на тестах по работе с длинными документами (MMLongBench-Doc), сложными OCR-задачами (OCRBenchV2), пониманию видео (WorldSense, DailyOmni) и распознаванию речи (VoiceBench).
Архитектурно модель построена на гибридной схеме MoE («смесь экспертов») с 30 миллиардами параметров, из которых одновременно работают только 3 миллиарда — нужные под конкретную задачу. Это снижает требования к памяти и вычислениям в 4 раза по сравнению с традиционными моделями такого размера.
Nvidia открыла все: веса модели, обучающие наборы данных и рецепты обучения. Модель доступна на Hugging Face, через NVIDIA NIM, на Amazon SageMaker, скоро появится в Microsoft Foundry. Локально ее можно будет запустить через Ollama, llama.cpp или LM Studio. Для дообучения под свои задачи Nvidia подготовила готовые рецепты — от LoRA-настройки до обучения с подкреплением.
Источник: NVIDIA Developer Blog