Создавайте фото и видео генерации в одном месте
Здесь собраны лучшие нейросети в одном месте. Выбирайте любую модель - от самых быстрых и дешёвых до топовых по качеству.
Фото, которое вдруг ожило: как нейросеть делает из картинки видео

Автор - Пётр Васильев
Разработчик ИИ-сервиса

Где-то в середине 2023 года в TikTok начали массово появляться ролики, от которых становилось немного не по себе. Дед с пожелтевшей фотографии 1940-х медленно поворачивает голову. Бабушка с портретного фото, которое висело в зале всё детство, вдруг моргает. Первая реакция у большинства - монтаж, фотошоп, актёр под грим. Вторая реакция, когда понимаешь, что это всё то же изображение - растерянность. Непонятно, как это сделано и что вообще здесь происходит.
Происходит image-to-video - технология, которая позволяет оживить одно статичное фото и превратить его в короткий видеоролик с анимацией. Без дополнительных снимков, без 3D-модели, без покадровой работы. Одна фотография на входе, несколько секунд video на выходе. Звучит просто. Внутри - нет.
Что такое image-to-video и почему это не монтаж
Монтаж предполагает, что кто-то собрал несколько кадров в последовательность. Image-to-video работает иначе: нейросеть получает одно фото и генерирует все последующие кадры сама, предсказывая, как мог бы выглядеть следующий момент, если бы в сцене было что-то живое.
Технически это работает через диффузионные модели (diffusion models) - тот же принцип, что лежит в основе Midjourney и Stable Diffusion, только адаптированный для видеопоследовательностей. Диффузионная модель обучается на миллионах видеофрагментов и учится понимать, как пространство ведет себя во времени. Как двигается ткань на ветру. Как моргают глаза. Как качается трава. Всё это - статистические паттерны, которые алгоритмы извлекают из обучающего датасета.
Когда нейросеть получает новое фото, она не "видит" его как набор пикселей. Она строит внутреннее представление сцены - семантическую карту, где закодировано, что перед ней: лицо, пейзаж, интерьер, какой объект на переднем плане, какой на заднем. Потом, исходя из этого представления и текстовой инструкции, генерирует кадры, которые были бы логичны для данной сцены. Модель не знает, что реально происходило после момента съемки. Она предполагает - и иногда ошибается. Но об этом позже.
Как нейросеть "читает" фотографию и строит анимацию
Прежде чем генерировать анимацию, нейросети нужно понять пространство на фото. Задача нетривиальная: снимок плоский, а мир на нём - объёмный. Модель восстанавливает глубину сцены через косвенные признаки - перспективу, размер объектов, тени, перекрытия. Ближний объект частично перекрывает дальний - значит, он впереди. Голова занимает большую часть кадра - нос ближе к камере, уши дальше.
Этот процесс называется depth estimation - оценка глубины. ИИ анализирует фото имплицитно, внутри своих весов, без отдельного шага. Нейросеть обучена на достаточно большом количестве видео, чтобы понимать: если объект выглядит вот так, то при вот таком сдвиге он должен деформироваться вот так. Физика здесь не моделируется. Это статистика - очень большая и достаточно хорошо откалиброванная, чтобы большинство людей не замечало подмены.
Траекторию объектов нейросеть строит по нескольким факторам. Первый - тип объекта: портрет анимируется иначе, чем ткань, вода иначе, чем листва. Второй - текстовая инструкция, промпт, который пользователь пишет вместе с фото. Третий - дефолтные паттерны, заложенные в модель для разных типов сцен. Если промпта нет вообще, нейросеть сделает что-то по умолчанию - обычно легкое дрожание камеры и минимальные сдвиги объектов переднего плана. Выглядит это, как правило, ни о чём.
Какие фотографии работают лучше всего
Здесь есть закономерности, которые проявляются на практике - и некоторые из них неочевидны.
Портретное фото анфас с нейтральным фоном даёт самый стабильный результат. Нейросеть видела миллионы снимков в тренировочных данных и знает, как ведут себя лица. Чем чище кадр и чем лучше видны детали - глаза, рот, контур головы - тем предсказуемее поведение при анимации. Такой формат идеально подходит для создания реалистичного результата.
Фото с одним главным объектом работают лучше перегруженных сцен. Если на снимке толпа людей, нейросеть пытается анимировать всех персонажей одновременно и начинает путаться - особенно там, где фигуры перекрываются. Фотография, где субъект один и хорошо отделен от фона, дает модели понятную задачу.
Важны контраст и резкость. Размытые, зернистые, низкоконтрастные фото дают меньше информации для depth estimation, и нейросеть начинает галлюцинировать пространство, которого там нет. Со старыми семейными снимками это особенно заметно: они красивы в своей размытости, но для ИИ это потеря данных. Перед загрузкой такой фотографии в сервис имеет смысл прогнать её через апскейлер - качественнее исходник, лучше результат.
Фото с четкой перспективой - улица, уходящая в глубину, пейзаж с горизонтом - нейросеть тоже обрабатывает, но предсказать траекторию здесь сложнее. Если камера "едет" вперёд в пространство, которое модель достроила из одного снимка, погрешности накапливаются быстро. Туман на заднем плане, кстати, помогает: он скрывает края сцены, где артефакты появляются чаще всего.
Как задавать анимацию через промпт
Промпт для image-to-video - это не описание фотографии. Это описание того, что должно произойти.
Без промпта нейросеть добавит случайную траекторию, которая может не соответствовать задаче вообще. С расплывчатым промптом ("оживи фото", "сделай живым") результат будет непредсказуемым. Конкретный промпт с описанием объекта, типа анимации, скорости и атмосферы дает именно то, что описано.
Рабочая формула: кто или что двигается → как именно → с какой скоростью → при каком освещении → что нельзя трогать. Последний пункт - якорная фраза - особенно важен для портретных фото. Без неё черты начинают "плыть" уже на третьей секунде.
Ниже - готовые промпты, которые дают стабильный результат. Все примеры проверены на Kling и Runway.
Для портретных фото
- Поворот головы: "человек медленно поворачивает голову на несколько градусов влево, взгляд следует за поворотом, мягкий боковой свет, естественное плавное движение, лицо остается полностью неизменным на протяжении всего видео"
- Улыбка: "на лице медленно появляется лёгкая улыбка, человек улыбается мягко, глаза слегка теплеют, мягкий дневной свет, плавное органичное движение, черты лица не меняются"
- Моргание: "человек медленно моргает один раз, студийный мягкий свет, крупный план, высокая детализация кожи, плавная анимация"
- Ветер в волосах: "лёгкий ветер мягко двигает пряди волос, эффект естественный, черты лица остаются полностью неизменными, волосы не заслоняют лицо"
Для портретных фото не стоит заставлять нейросеть делать сложную хореографию - прыжки, резкие повороты, активную жестикуляцию. Модель не справляется и начинает деформировать объект. Контринтуитивный момент: фраза "preserve facial features" в некоторых версиях нейросетей даёт обратный эффект. Русскоязычный эквивалент "черты лица не меняются" работает надежнее.
Для пейзажных фото
промпты проще - природные паттерны предсказуемы, нейросеть видела их миллионы раз:
- Деревья: "ветер плавно раскачивает ветки деревьев, листья трепещут, каждая ветка двигается немного по-разному"
- Вода: "лёгкая рябь медленно расходится по поверхности озера, отражение деревьев покачивается"
- Небо: "облака медленно плывут слева направо, солнечный свет слегка меняется по мере их хода"
- Трава: "ветер идёт по траве волнами, трава мягко клонится и возвращается, летняя атмосфера"
Для камерного сдвига
отдельный класс промптов, который часто недооценивают. Параллакс (эффект, при котором ближние объекты смещаются быстрее дальних при движении камеры) создает иллюзию объёма даже без анимации самих объектов. Здесь нужен английский - нейросети Runway, Kling и Hailuo лучше воспринимают такие инструкции именно на нём:
- Наезд: "slow zoom in toward the subject, subtle parallax effect, objects in foreground shift slightly faster than background"
- Отъезд: "camera slowly pulls back, revealing more of the scene, smooth motion"
- Панорама: "slow cinematic pan from left to right, steady movement, atmospheric lighting"
Для анимации самого объекта, эмоций и атмосферы промпты на русском дают сопоставимый результат. Важно указать конкретные параметры, а не общее настроение. Рабочая длина промпта - 20-50 слов с чётко расставленными приоритетами: что двигается, как, и что трогать нельзя.

Почему AI-анимация иногда пугает
Те, кто пробовал оживить фото сами, знают это ощущение. Первые две секунды - нормально, даже красиво. Потом рот начинает съезжать. Глаза двигаются независимо друг от друга. Волосы превращаются в жидкость. Человек на экране перестаёт выглядеть человеком.
Это называется temporal inconsistency - нарушение согласованности между кадрами во времени. Диффузионные модели генерируют кадры с некоторой вероятностной вариативностью. Для одиночного фото небольшой шум помогает создавать детали. Для видео - мелкое расхождение между соседними кадрами накапливается, и к середине клипа из него вырастает заметный артефакт.
Тонкие структуры уязвимы больше всего. Волосы, зубы, пальцы, мелкие детали одежды - там, где граница объекта сложная, нейросети труднее удерживать её стабильной от кадра к кадру. Особенно страдает анимация губ: стоит добавить лёгкую речевую мимику, и зубы начинают вести себя непредсказуемо. Голова в целом держится лучше - модель знает её структуру очень хорошо. Но стоит человеку на фото начать активно двигаться, погрешности растут.
Есть ещё один эффект, который сложнее объяснить технически. Что-то в анимации AI-портретов не совсем правильное - темп моргания, амплитуда поворота, то, как голова соотносится с телом. Всё это чуть-чуть не то. Это попадание в uncanny valley - "долину зловещего", зону, где нечто выглядит почти как человек, но достаточно отличается, чтобы вызвать легкое отторжение. Роботы 1980-х туда не попадали - слишком явно ненастоящие. AI-видео 2024-го попадает регулярно. Чем лучше становится нейросеть, тем неприятнее промахи.
Как улучшить результат
Итерации - первое и самое важное. Хорошее AI-видео из фото редко получается с первого раза. Модели недетерминированы: при одинаковом промпте и одной фотографии дают разный результат каждый раз. Стандартная практика - запустить 5-10 генераций и выбрать лучшую. Это не баг, это архитектурная особенность.
Выбор нейросети под задачу имеет значение. Runway Gen-3 Alpha хорошо работает с портретными фото и даёт стабильные результаты - интерфейс на английском, нужна платная подписка. Kling от Kuaishou поддерживает русский язык в промптах и показывает сильные результаты на фото с активным телом, бесплатный режим включает несколько генераций в день. Hailuo (MiniMax) генерирует длинные клипы с хорошей когерентностью. Sora от OpenAI пока доступна в ограниченном формате. Ни одна нейросеть не закрывает все случаи одинаково хорошо.
Постобработка часто решает. Даже хорошее AI-видео выигрывает от небольшой стабилизации, цветокоррекции и обрезки до самого удачного фрагмента. Capcut, DaVinci Resolve, мобильный iMovie - пять минут работы могут убрать половину видимых артефактов.
Работа с исходным фото. Если снимок старый и низкого разрешения, перед загрузкой в сервис имеет смысл прогнать его через апскейлер -он восстанавливает детали, которых изначально не хватало. Разница на выходе бывает ощутимой.
И про длину: если клип на 8 секунд разваливается к концу - попробуйте 4. Первые несколько секунд обычно самые чистые. Лучше остановиться там, чем тянуть до артефакта.
Где применяют AI-анимацию фотографий
Самый неожиданный сценарий - семейные архивы. Когда MyHeritage в 2021 году запустил Deep Nostalgia, сервис делался для генеалогических архивов - чтобы люди могли увидеть анимацию на фото предков, которых никогда не знали живыми. Нейросеть не рисовала ничего нового: лёгкий поворот головы, взгляд в сторону, едва заметная улыбка. Когда видишь это впервые на снимке родных, которых уже нет, - ощущение странное. Не совсем приятное и не совсем неприятное.
Конкретный пример: в семье хранились военные фото прадеда - всего пять четких студийных портретов в форме. Задача была создать video для домашнего музея памяти. Промпт включал "серьёзное выражение, военная выправка", и финальный результат вошел в семейный архив. Звучит просто. Для людей, которые это делали, - явно нет.
Историческая реконструкция получила нейросетевые инструменты немного случайно. Среди первых пользователей Deep Nostalgia оказались исследователи - в твиттере появились "ожившие" портретные фото Чарльза Диккенса, Алана Тьюринга, Антонио Вивальди. Реакция на анимацию Тьюринга была показательной: специалисты в области компьютерных наук, хорошо понимающие, как работает нейросеть, писали, что это было странно - увидеть движение на фото человека, который придумал саму идею вычислительной машины. Музеи и образовательные учреждения постепенно стали использовать оживление исторических фотографий в экспозициях, открывает это и новые возможности для дистанционного обучения.
Контент для соцсетей - более прагматичный сценарий. Статичное фото, которое "оживает" в первую секунду ролика, останавливает скроллинг. Сегодня это популярные форматы в TikTok, Shorts, Reels. D-ID в этом контексте решает другую задачу: нейросеть анимирует мимику с синхронизацией движения губ с озвучкой или загруженным текстом - по сути, цифровой аватар с голосом. Дизайнеры и авторы контента используют приложение для создания персонализированных сообщений прямо из одной фотографии, без студии и съемочной команды. Kling или Runway - живая анимация тела и окружения. Это разные инструменты под разные задачи.
Малый бизнес использует AI-анимацию вместо видеосъёмки. Небольшой бренд, которому нужна реклама, берёт продуктовое фото и за несколько минут получает динамичное кинематографичное видео для сторис. Добавление анимации к статичному снимку меняет восприятие продукта - это работает даже на уровне маленького локального проекта без бюджета. Качество, которое два года назад выглядело как эксперимент, сейчас выходит в рекламные кампании.
Вирусный контент живёт по своим законам. Пользователи MyHeritage быстро обнаружили, что с мемами нейросеть работает даже интереснее, чем с семейными фото. Блогеры делают ролики с "ожившими" историческими портретами - Пушкин подмигивает, делает жест "тише" пальцем, отворачивается с лёгкой усмешкой. Это отдельный жанр, и он существует параллельно со всеми серьезными применениями.
Граница между сценариями - этическая, и она остаётся открытым вопросом. Оживить фото прадеда - одно. "Оживлять" реального публичного человека без его согласия - другое. Ни одна платформа пока не дала на это внятного ответа, а индустрия продолжает двигаться быстрее, чем успевают формироваться нормы.
ЧАВО
Подойдёт ли обычный телефон или нужен мощный компьютер?+
Генерация происходит на серверах нейросети, а не на вашем устройстве. Любой телефон с браузером справится с загрузкой изображения и скачиванием результата. Мощное железо нужно только если вы разворачиваете модель локально - это продвинутый сценарий для тех, кто работает с открытым кодом.
Можно ли добавить голос или музыку прямо в сервисе?+
D-ID поддерживает синхронизацию движения губ с загруженной озвучкой или синтезированным голосом из текста - это одна из ключевых функций платформы. Большинство image-to-video нейросетей (Kling, Runway, Hailuo) звук не добавляют: остальное - монтаж в отдельном приложении. Музыку и звук удобнее добавлять в Capcut - он бесплатный, работает прямо с телефона и имеет простой интерфейс.
Как настроить шаблон, если не хочется писать промпт самому?+
Есть готовые шаблоны - выбирайте нужный режим в интерфейсе без необходимости писать текст. Это удобно для базовых сценариев: "лёгкий ветер", "поворот головы", "взгляд в камеру". Детальный контроль над анимацией всё равно требует промпта - шаблон задает только общую динамику.
Можно ли оживить чёрно-белое ихображение и получится ли реалистичный результат?+
Да, и это один из самых популярных сценариев. Перед загрузкой чёрно-белой фотографии рекомендации такие: сначала колоризировать её, потом прогнать через апскейлер, и только потом загружать в нейросеть. Такая подготовка заметно улучшает качество - модель лучше анализирует сцену фото, когда в ней есть цветовая информация.
Что делать, если портрет на видео "плывёт" или меняет форму?+
Первое - проверьте промпт: скорее всего, там нет якорной фразы про сохранность черт. Добавьте "черты лица не меняются" или "face remains unchanged throughout". Второе - сократите длительность клипа до 3-4 секунд. Третье - попробуйте другую нейросеть: Hailuo показывает лучшую консистентность портрета по сравнению с конкурентами. Если ничего не помогает, проблема в исходном фото - низкое разрешение или сложный ракурс. Система не решит то, чего нет в данных.