InPersona Блог
9 мин чтения

Оживить фото нейросетью: как сделать видео из фото

Пошаговый гайд по image-to-video: как превратить статичный кадр в живое видео, какой нейросетью это сделать и как лечить типичные артефакты.

Оживить фото нейросетью: превращение статичного кадра в видео с помощью ИИ (AI image-to-video)

Оживить фото нейросетью значит превратить статичный кадр в короткое видео: модель получает картинку, достраивает движение и отдаёт клип на 5–15 секунд. Технология называется image-to-video, сокращённо i2v, и работает она сегодня на уровне, который пару лет назад показывали только в рекламных демо.

Запрос «оживить фото нейросетью» вводят в Яндекс больше 70 тысяч раз в месяц (Wordstat, июль 2026). Массовое увлечение началось ещё в 2021-м, когда MyHeritage запустил Deep Nostalgia: по данным компании, за первые 18 дней люди создали 50 миллионов анимаций архивных портретов. С тех пор технология шагнула далеко вперёд. Раньше сервис двигал лицо по готовому шаблону, теперь вы словами описываете, что происходит в кадре: куда едет камера, что делает герой, как ведёт себя свет. Я прогнал через i2v-модели не одну сотню кадров, и в этом гайде собрал рецепт, который экономит и кредиты, и нервы.

Что такое image-to-video простыми словами

Модель i2v обучена на огромном массиве видео и «знает», как в реальном мире движутся люди, ткань, вода и камера. Вы даёте ей стартовый кадр и текстовое описание движения. Кадр фиксирует композицию, героя, свет и цвет, а модель отвечает только за то, что происходит дальше во времени.

Этим i2v отличается от text-to-video (t2v), где ролик генерируется из одного текста. В t2v вы почти не контролируете, как будет выглядеть сцена. В i2v картинка уже утверждена, и споров о внешности героя или цвете упаковки не возникает. Поэтому для брендов и всех, кому нужен предсказуемый результат, видео из фото сейчас основной рабочий режим. Есть и третий вариант, frame-to-frame: вы задаёте первый и последний кадр, а модель достраивает переход между ними.

Что оживляют чаще всего

Интент у запроса широкий, и сценарии заметно различаются.

Семейные архивы и старые портреты. Самый эмоциональный жанр: лёгкий поворот головы, улыбка, взгляд в камеру, ветер в волосах. Здесь не нужны спецэффекты, достаточно трёх-четырёх секунд деликатного движения, чтобы снимок из альбома задышал.

Портреты и контент для соцсетей. Обложки, тизеры, зацикленные live-фото. Видео в ленте удерживает внимание дольше статики, и алгоритмы это учитывают: как именно, мы разбирали в статье про алгоритм Instagram в 2026 году.

Товарные и бренд-кадры. Упаковка медленно поворачивается, ткань колышется, над чашкой поднимается пар. Из одного пэкшота получается видеообложка карточки или рекламный тизер. Чем чище исходный кадр, тем дороже смотрится движение, поэтому начинать стоит с сильной статики: что отличает продающий предметный кадр, мы разобрали в гайде по предметной съёмке.

Пошаговый рецепт: из фото в видео

Шаг 1. Подготовьте исходник

Качество клипа упирается в качество кадра. Ориентиры простые: разрешение от 1024 px по короткой стороне, герой не обрезан по краям (модели тяжело даётся достраивание отрезанных рук и макушек), минимум плотного текста в кадре. Старую фотографию сначала отсканируйте и прогоните через реставрацию или апскейл, и только потом оживляйте. Исходник не обязан быть съёмкой: стартовый кадр можно сгенерировать, мы сравнивали генераторы в подборке нейросетей для красивых фото.

Шаг 2. Опишите движение

Главное правило: одно основное действие на клип. Формула описания выглядит так: субъект + действие + камера + атмосфера.

Пример для портрета: «женщина медленно поднимает взгляд и слегка улыбается, камера статична, мягкий дневной свет». Пример для товара: «флакон медленно вращается на месте, камера плавно наезжает, фон неподвижен». Пишите и то, что должно двигаться, и то, что обязано остаться на месте: фраза «фон неподвижен» спасает от половины артефактов.

Шаг 3. Выставьте настройки

У всех сервисов набор примерно одинаковый: длительность, разрешение, интенсивность движения, звук. Для первого прогона берите 5 секунд и умеренную интенсивность: короткий клип генерируется быстрее, стоит дешевле и реже разваливается. Разрешение поднимайте только на финальном варианте, когда движение уже устраивает.

Шаг 4. Итерируйте

Первый дубль почти всегда разведка. Сгенерируйте 2–4 варианта, посмотрите, что модель поняла не так, и меняйте одно слово за раз: усилили глагол, убрали лишнее действие, зафиксировали камеру. Удачный клип можно продлить или взять его последний кадр стартом для следующего фрагмента, так собираются сцены длиннее лимита одной генерации.

Какой нейросетью сделать видео из фото: четыре рабочих инструмента

Флагманов в i2v сейчас четыре, и у каждого свой характер. Все цифры ниже проверены по официальным анонсам и документации на июль 2026 года.

Видео из фото: четыре модели, июль 2026 МОДЕЛЬ МАКС. КЛИП ЗВУК СИЛЬНАЯ СТОРОНА Kling 3 15 секунд есть родное 4K, 60 fps, мультишот Veo 3.1 8 секунд есть до 3 референсов, мимика, речь Wan 2.7 15 секунд опция первый/последний кадр, цена Midjourney 5 с, до ~21 с нет режимы движения, продление

Kling 3: родное 4K и максимум кинематографа

Модель Kuaishou, вышла в феврале 2026-го. Клипы до 15 секунд в родном 4K при 60 fps, встроенный звук и мультишот-секвенции: несколько склеенных планов внутри одной генерации. В режиме i2v Kling бережно сохраняет героя, свет и цветовую обработку исходника, поэтому для оживления портретов и товарных кадров это сейчас первый кандидат. Подробный разбор модели у нас уже есть: Kling 3 и генерация видео в 4K.

Veo 3.1: мимика и звук

Модель Google DeepMind. Клипы до 8 секунд, зато со звуком, который генерируется вместе с картинкой: шаги совпадают с движением, реплики с губами, фоновый шум со средой. Принимает до трёх референс-изображений, чтобы удержать героя, объект или стиль, и умеет достраивать видео к заданному последнему кадру. Для «говорящих» оживших портретов и сцен, где звук решает, Veo вне конкуренции.

Wan 2.7: рабочая лошадка

Модель Alibaba. Видео из фото в 720p или 1080p, клипы по 5, 10 или 15 секунд, опциональный звук и управление первым и последним кадром. Звёзд с неба по кинематографичности не хватает, зато быстрая, недорогая и предсказуемая: для массовых задач вроде видеообложек карточек или сторис это оптимальное соотношение цены и результата.

Midjourney i2v: кнопка Animate

У Midjourney видео устроено проще всех: на сайте midjourney.com нажимаете Animate на любой картинке, включая загруженные со стороны фото. Есть автоматический режим, где модель сама придумывает движение, и ручной, где вы его описываете; плюс переключатель low/high motion. Клип длится 5 секунд и продлевается примерно по 4 секунды до 21 секунды суммарно. Звука нет, публичного API тоже, доступ только по подписке на сайте.

Все четыре модели доступны в InPersona: в каталоге студии больше 18 видеомоделей с режимами i2v, t2v и v2v, включая Kling 3 в вариантах Standard, Pro и 4K, Veo 3.1, Wan 2.7 (дефолт для видео) и Midjourney. Один баланс на всё, без отдельных подписок на каждый сервис.

Движение камеры и мимика: словарь команд

Модели лучше всего понимают операторскую лексику. Базовый словарь, который стоит держать под рукой:

  • static shot: камера неподвижна, движется только герой. Самый стабильный вариант.
  • slow push-in / наезд: медленное приближение, добавляет кадру драматизма.
  • pull-back / отъезд: камера отъезжает и раскрывает сцену.
  • orbit / облёт: камера обходит героя по дуге. Эффектно для товара, рискованно для лиц.
  • pan: панорама влево или вправо.
  • handheld: лёгкая тряска «с рук», живой документальный вайб.

С мимикой правило то же: одно действие за раз. Лёгкая улыбка, медленное моргание, взгляд в камеру, поворот головы на 15–20 градусов. Речь заказывайте только там, где модель умеет в липсинк (Veo 3.1, Kling 3), иначе получите беззвучно шевелящиеся губы. И на каждый клип: одна команда камере плюс одно действие героя. Два движения камеры в одном промпте почти гарантированно ломают геометрию сцены.

Типичные артефакты и как их лечить

  • «Поплыло» лицо при повороте. Модель не видела затылок героя и дорисовывает его наугад. Лечение: уменьшить амплитуду («слегка поворачивает голову»), держать поворот в пределах 20–30 градусов.
  • Пальцы живут своей жизнью. Жестикуляция остаётся слабым местом i2v. Лечение: убрать активные жесты из промпта или выбрать кадр, где руки не в фокусе.
  • Фон морфится. Стены плывут, предметы на заднем плане меняют форму. Лечение: явная команда «background stays still», короче клип, ниже интенсивность движения.
  • Желейная физика. Ткань и волосы колышутся как под водой. Лечение: снизить интенсивность, указать характер среды («лёгкий ветер», «без ветра»).
  • Дрожит текст и логотип. Надписи на упаковке рассыпаются при движении. Лечение: не крутить товар с плотным текстом, двигать камеру, а не объект, финальный вариант рендерить в максимальном разрешении.
  • Ничего не движется. Модель перестраховалась и выдала почти статику. Лечение: усилить глагол («резко оборачивается» вместо «поворачивается»), поднять интенсивность.
  • Скачок в конце клипа. Последние полсекунды движение срывается. Лечение: обрезать хвост в монтаже или задать последний кадр явно (Wan 2.7, Veo 3.1).

Чего i2v пока не умеет

Честный блок, чтобы вы не потратили вечер на заведомо провальную задачу.

  • Минуты хронометража. Счёт идёт на секунды: 8–15 у флагманов, до ~21 у Midjourney с продлениями. Длинный ролик это всегда монтаж из коротких клипов.
  • Сложная хореография. Танец, спорт, драка, несколько взаимодействующих героев: геометрия тел разваливается.
  • Точная работа рук. Застегнуть молнию, набрать текст, перелистнуть страницу: мелкая моторика остаётся лотереей.
  • Достоверный текст в кадре. Появляющиеся в движении надписи почти всегда с ошибками.
  • Консистентность между клипами. Один и тот же герой в десяти роликах без референс-механик (sref, identity-тренировка) будет «плавать» во внешности.

И отдельно: там, где нужен длинный дубль, живая эмоция актёра или юридически достоверная съёмка реального товара, классическое видеопроизводство пока выигрывает. i2v сильнее всего в коротком формате: обложки, тизеры, луп-анимации, оживление архива.

FAQ

Можно ли оживить фото нейросетью бесплатно?

Почти у всех сервисов есть стартовые кредиты на пробу, их хватает на несколько клипов. Постоянная бесплатная генерация встречается только с жёсткими лимитами, очередями и вотермарками. Для разовой задачи (оживить пару архивных портретов) пробных кредитов достаточно.

Сколько секунд видео получается из одного фото?

Стандартный клип 5–8 секунд, Kling 3 и Wan 2.7 отдают до 15 секунд, Midjourney продлевает ролик до ~21 секунды. Более длинные сцены собираются монтажом: последний кадр клипа становится стартовым для следующего.

Получится ли оживить старое чёрно-белое фото?

Да, i2v работает и с архивными снимками, тональность исходника сохраняется. Результат заметно чище, если перед генерацией отреставрировать скан: убрать царапины и поднять разрешение апскейлом.

Подходит ли видео из фото для карточек маркетплейса?

Да, видеообложка из пэкшота рабочий формат. Условие площадок одно: товар в ролике должен соответствовать реальному по цвету, форме и размеру, иначе карточку заблокируют. Оживление собственного товарного кадра под это условие подпадает полностью.

Нужно ли уметь писать промпты?

В i2v половину работы делает сам кадр, от вас нужно одно-два предложения о движении. Формулы из этого гайда (субъект + действие + камера + атмосфера) хватает для большинства задач, а в InPersona описание движения помогает собрать встроенный помощник.

Чеклист перед генерацией

  • Исходник от 1024 px, герой не обрезан, плотного текста в кадре нет.
  • Старое фото отреставрировано и апскейлнуто до генерации.
  • В описании одно главное действие: субъект + действие + камера + атмосфера.
  • Прописано, что остаётся неподвижным («фон статичен»).
  • Первый прогон: 5 секунд, умеренная интенсивность, черновое разрешение.
  • Модель выбрана под задачу: Kling 3 для кинематографа и 4K, Veo 3.1 для мимики и звука, Wan 2.7 для массовых задач, Midjourney для быстрых экспериментов.
  • На итерации меняется одно слово за раз.
  • Финал: максимальное разрешение, обрезка последних полсекунд при скачке.

Оживление фото давно перестало быть трюком из вирусных приложений: это рабочий формат и для семейного архива, и для бренд-контента. Если хотите попробовать все четыре модели из этого разбора в одном окне, загляните в InPersona: загружаете кадр, описываете движение, студия подбирает модель под задачу и ведёт версии, чтобы удачный дубль не потерялся.