Сегодня генерация картинок кажется почти магией. Пользователь пишет запрос, нажимает кнопку и через несколько секунд получает готовое изображение. Но за этим простым действием стоит довольно сложная система. В случае Алисы AI вся работа строится вокруг диффузионной модели, а функции вроде объедини фото или оживи фото показывают, как одна и та же технология может решать совсем разные задачи - от синтеза нового кадра до превращения фотографии в видео. Как работает генерация В основе генерации изображений у Алисы AI лежит диффузионный подход. Это когда модель не рисует картинку сразу, а начинает с шума и постепенно превращает его в осмысленное изображение. Этот процесс называется денойзингом. Сначала появляется общая композиция, затем формы объектов, а потом текстуры, детали и свет. Именно поэтому генерация часто сравнивают с проявлением фотографии, когда изображение будто постепенно проступает из хаоса. Чтобы модель точнее понимала запрос, она обучалась на огромном массиве пар картинка-описание, а описания для обучения создавались внутренней VLM-моделью, которая подробно расписывала содержимое изображения. За счёт этого система лучше улавливает не только основной объект, но и контекст сцены, мелкие детали и взаимосвязи между элементами. Это и даёт Алисе AI способность довольно точно следовать текстовым инструкциям. Как работает - Объедини фото Функция объедини фото - это уже не просто генерация по тексту, а работа с несколькими изображениями одновременно. Пользователь загружает два фото и описывает, что хочет получить на выходе. Дальше изображения проходят через энкодер, где превращаются в латентные представления - внутренний формат, с которым уже работает модель. После этого диффузионная модель получает текстовый запрос и эти латенты как условия генерации. То есть система не просто смешивает два снимка, а заново строит сцену так, чтобы результат был согласован с исходными объектами, освещением, перспективой и стилем. На практике это позволяет, например, виртуально примерить одежду, объединить людей на одном кадре или собрать реалистичную композицию из разных исходников. Как устроено - оживи фото Оживи фото переносит ту же идею в видео. Здесь тоже используется диффузионная логика, но уже для последовательности кадров. Первый кадр кодируется в латенты и задаёт исходную сцену, а дальше модель генерирует движение, сохраняя узнаваемость объекта и следуя заданной анимационной логике. В этой версии применяется архитектура mixture-of-experts. Это когда разные части модели отвечают за разные аспекты задачи, например за геометрию движения и за детализацию. Это удобно, потому что видео более сложная задача, чем статичная картинка. Здесь нужно одновременно сохранить лицо, фон, композицию и при этом добавить правдоподобное движение. Важно и то, что кадры генерируются не по одному, а сразу целой последовательностью, чтобы анимация выглядела цельной. Почему это важно С точки зрения пользователя всё выглядит просто, но на уровне технологий это хороший пример того, как диффузия превращается из исследовательской идеи в прикладной продукт. Алиса AI не просто генерирует картинку, а умеет редактировать, объединять и анимировать изображения в одном интерфейсе. Такие функции особенно важны потому, что снимают барьер между идеей и результатом. Пользователю не нужно знать, что такое латентное пространство, энкодеры или денойзинг. Он просто задаёт задачу, а модель сама решает, как собрать финальный кадр. В этом смысле Алиса AI хорошо показывает, как сложная генеративная архитектура может быть упакована в очень простой и понятный сценарий. Итог Если коротко, под капотом Алисы AI работает диффузионная модель, которая сначала создаёт изображение из шума, а потом постепенно уточняет его до готового результата. В объедини фото она использует несколько изображений как условия и собирает из них новую сцену. В оживи фото та же логика помогает превратить статичное изображение в видео, где кадры формируются как единая последовательность. То есть главная идея проста. Алиса AI использует одну и ту же технологическую основу, но по-разному упаковывает её в прикладные функции. И именно это делает генерацию изображений и анимации не просто интересной технологией, а удобным массовым инструментом.