Компания Reve представила Reve 2.0 — модель для генерации и редактирования изображений, которая строит картинку через редактируемый макет, а не только через текстовый запрос.

Сейчас большинство современных генераторов сначала превращают запрос пользователя в длинное текстовое описание, а затем рисуют по нему изображение. Reve считает, что в этом подходе слишком много неопределенности: небольшая правка запроса может изменить всю картинку, а точное место объекта или цвет трудно закрепить словами. Поэтому компания заменила длинное описание на макет — структуру, где у каждого элемента есть место, размер, описание, цвет и при необходимости ссылка на исходное изображение.
В Reve 2.0 пользователь сможет править результат двумя способами: обычной текстовой командой или напрямую через структуру макета. То есть, сможет отдельно двигать объект, уточнять его размер или менять цвет, не переписывая весь запрос заново.
Для такого подхода Reve создала большую модель макетов — систему, которая принимает изображения, инструкции и готовые макеты, сначала составляет план сцены, а потом превращает его в пиксели. Команда обучала ее на миллиардах изображений и плотной разметке от людей, а за основу взяла открытые языковые модели Qwen.
Reve проверила подход на сравнении моделей одинакового размера: версии с макетами давали более качественные изображения, чем генераторы, которые работали только с текстом. В задаче восстановления изображения по описанию показатель сходства CLIP, где больше значит ближе к оригиналу, вырос с 0,865 без областей до 0,929 при 50 областях.
Источник: Reve Blog