«dream_old.mp4 — положил тебе файл, возьми из него первый кадр. Дальше нужно сделать рубаху на бандите, как в нём»
Извлёк первый кадр старого сна — красная косоворотка с вышивкой у ворота, плеч, манжет. Через Gemini 3 Pro Image перерисовал нашего бандита в эту же рубаху:

«Теперь нужно улучшить качество первого кадра старого сна и чтоб был наш бандит в рубахе v5»
Gemini пересоздал кадр в 2K — русская изба с синими наличниками, жена в сарафане и кокошнике, медведь с балалайкой, ребёнок, самовар, бандит пьёт чай:

«Теперь оживляем. Камера плавно подлетает. Бандит прихлебывает чай. Жена встаёт, подходит к нему и целует. Медведь играет на балалайке, ребёнок танцует. 8с, не думаю что нужно разбивать»
v1: с shot11_dream_first_v1 как first frame + char_rubaha_v5:
«Терпимо, но не вау. Давай попробуем дать модели только текст и реф бандита»
v2: только char-ref, без scene-рефа — описание деревни текстом. Triggered автофит на 1111×1536 (59% отклонение), пришлось --skip-aspect-fit:
«Медведь медленно играет, на балалайке играют быстро рукой (ну лапой)»
v3: "paw strums the strings in rapid rhythmic motion, just like a real balalaika player":
«Хочу ещё версию. Бандит улыбается жене. Самовар без трубы»
v4: "smiling warmly toward the approaching woman", "samovar without the chimney pipe on top":
«Не такое, не очень удачная композиция, давай ещё раз рандом»
v5: тот же промпт, новый seed:
«На след раз добавить что жена стройная и красивая. Хотя можно же параллельно?»
v6: добавил "slim beautiful young woman":
«Ладно, давай ещё 2 вариации сразу»
v7 и v8 — параллельно:
«А ты что убрал про трубу у самовара? И что он тоже на лавочке убрал?»
Всё в промпте есть. Seedance на рандоме игнорирует часть деталей.
«Ещё 2 варианта»
v9 и v10:
«Ещё 2 вариации»
v11 и v12 (v11 поймал 402, пополнили, перезапустили):
«Ладно, v12 наш победитель, тащи оттуда первый кадр»
Извлёк shot11_dream_v12_firstframe.png.
«Нужен ракурс только на медведя»
Идея из гайда — видео-реф вместо кадр→оживи: модель сохранит движение точно + фон. Обрезал первые 3 секунды v12, запустил с крупным планом:
«У медведя появился ошейник, которого не было на рефе»
v2 с negatives "avoid adding a collar or leash to the bear":
«Теперь нужен кадр на самовар. Тут проще без видео-рефа»
shot11_samovar_closeup_v1 — не тот ракурс:
«Давай через банану сначала построим кадр. Нужен кадр-деталь на носик. Важно что там скатерть с посудой»
Итерации по ракурсу (носик влево, камера со стороны бандита):



v4: скатерть под самоваром + без узора:

v5, v6: скатерть под самоваром (Gemini упёрся, не правит):
«0 изменений, я хз что ты писал в промпте. Я сделал сам руками и написал "сделай чтоб скатерть покрывала всю скамейку" и получил shot11_samovar_detail_v7_user. И тут всё хорошо»

Потом агент зачем-то полез сохранять в feedback-память паттерн "простой императив на русском работает лучше". Пользователь:
«Ты чё творишь? Нахуй тебе память агента? Забыл в какой папке мы работаем?»
Оживили user-версию:
«Ещё раз делаем только на основе shot11_samovar_detail_v8_user.png, я поправил геометрию»

После нескольких итераций промпта (пар сверху → от носика → чуть-чуть):
«И вот эту тоже давай оживим, это верх самовара (не труба). 4с, чтоб пар шёл»

«Я взял последний кадр v12, улучшил в Gemini → shot11_dream_kisses.png. Видео 6с, жена целует бандита в ритме: чмок, чмок-чмок (2р), чмок, чмок-чмок. Статичный кадр»

v1 — расписал таймкоды по 0.8с каждый чмок:
«Модель не соблюла последовательность и количество поцелуев»
«Нужно не "в следующей последовательности", а просто расписать последовательность явно. Мог бы и сам подумать»
v2 — явное "kisses once, pulls back briefly, kisses twice quickly, pulls back, kisses once, pulls back, kisses twice":
«Коммит»
0659e79 — 40 файлов.
«Нам нужен кадр на лежащего бандита с плечом напарника. Реф комнаты: shot1_room_no_bandit_v3. Только обсуди со мной как будем делать»
Пользователь предложил:
- Плечо слева, бандит в отключке лежит головой у дверного проёма
- Конфет не видно, трупа тоже нет
- Есть реф напарника (нужен ч/б)
Конвертировал char_bandit_2_front.jpg → char_bandit_2_front_bw.jpg.
pose_ref от пользователя + комната + face'ы обоих — но ракурс не тот, Seedream делает уровень глаз:
v2 с "EXTREME HIGH-ANGLE BIRD'S-EYE VIEW":
«Не, плохо. Я думаю нужно брать pose_ref и там менять лицо бандита на наше»

facefusion заменил лицо — но у бандита остались волосы и борода (face swapper меняет только face region, не голову целиком):
«Ты не можешь просто банану попросить это сделать?»
Gemini — 2 отказа IMAGE_OTHER на "replace head with bald". Сработало простое "shave bald, remove beard":
facefusion повторно → лицо + лысый:

«Кожанка не такая, мы уже заявили нашу»
v6 — кожанка перерисована:
«Давай уберём молнию и паркет заменим на тот, что в комнате»
v7: Gemini перевернул ракурс, v8 с явным "keep top-down camera":

«Давай попробуем другой метод. Просто положим shot5_bandit_closeup_v5 на паркет (а плечо потом добавим)»
«Только он лежит не в сторону двери и дверь открыта наружу, а не внутрь»
«Не, херня. Сделай просто лежачую фото бандита»
Gemini 2 раза IMAGE_OTHER на "lying on his back" (видимо триггер на "на спине"). Переключился на Seedream:

v2 с "mugshot-from-above angle":

«Неплохо shot12_bandit_lying_v2_tilted.jpg — я повернул изображение, теперь нужно под него паркет»

«Паркет ничего, но нужно белую область тоже заполнить»

«Свет падает слева, а нужно снизу слева»

«Свет неправильный, нужен свет снизу кадра, а это тоже слева. Никаких рисунков на нём не надо»

«Ну давай попробуем сразу оживить. Мужик в спортивном костюме на корточках наклоняется в кадр снизу слева и даёт пощёчины нашему бандиту, тот в отключке, 5с»
«Не, мы не готовы. shot12_bandit_lying_v7 — нужно сюда спину другого мужика»





«Я в фотошопе сделал как надо. Давай оживим. Пощёчин много, это не пощёчины а мелкие похлопывания, как в чувство приводят»

v2 (после 402 → пополнение):
За 6 часов:
- shot11_dream_v12 — 12 итераций сна в деревне (медведь на балалайке, жена, ребёнок, самовар, бандит пьёт чай), text-based промпт + char-ref без scene-рефа.
- shot11_bear_closeup_v2 — крупняк медведя через video-ref подход (первые 3с v12 как @Video1, same motion + same background).
- shot11_samovar_detail_v2 + shot11_samovar_top_v1 — два отдельных детальных кадра на самовар, только пар двигается.
- shot11_dream_kisses_v2 — 6с с ритмическими чмоками, явный список действий работает лучше чем "в следующей последовательности".
- shot12_bandit_lying_v7 — бандит на полу head→doorway, свет снизу, через цепочку Seedream → user rotate → Gemini (паркет, свет).
- shot12_slap_v2 — пощёчина (мелкие похлопывания) от напарника в треноге, top-down, user собрал setup в PS.
- Уроки:
- Ритм действий в промпте: не "в этой последовательности", а явный список глаголов с паузами.
- Переворот геометрии через Gemini — пользователь чаще переворачивает image tilt руками, Gemini не переворачивает, а перегенерит ракурс.
- Видео-реф для крупняка удобнее text-to-image + оживи: сохраняет и движение, и фон.
- --skip-aspect-fit для портретных char-рефов, когда Seedance всё равно кропает центр сам.
- Простой императив на русском от пользователя сломал Gemini preservation bias там, где "Keep everything else exactly the same" не сработал.