Задача: Автоматизация конвейера «Изображение → Видео с аудио»

Цель проекта

Собрать, настроить воспроизводимый workflow (пайплайн) генерации короткого видео с аудиозвукорядом на основе загружаемых статичных картинок. Готовое решение должно быть развернуто на платформе облачных вычислений (аналоги RunPod) и допускать автоматический запуск без ручного вмешательства.

Основные требования к разработчику

  • Уверенное владение крейтами и кастомными нодами ComfyUI (ComfyUI-Manager, видео-ноды - AnimateDiff, SVD, аналоговые).
  • Умение экспортировать и импортировать workflow в формате JSON или PNG с метаданными.
  • Настройка инфраструктуры RunPod или аналогов: создание шаблона (template) с предустановленным ComfyUI и необходимыми моделями (контрольные области, лоры, VAЕ).

Объем работ

  1. Сборка пайплайна:
    Берем готовое изображение → загружаем иконку/изображение → через ноды AnimateDiff/Latent Vision генерируем последовательность кадров (24-36 кадров).
  2. Добавление аудио:
    любой понятный метод - оверлей с MosaicMask, отдельный модуль бесшовного добавления RVC/Qzenky аудио к первому выходному фрейму.
  3. Автоматизация выгрузки:
    обработка batch («Images go in → each to a single URL with audio»), привязать API endpoint так, чтобы на запрос по вебу (POST/картинка/дата) сразу отдавало flashweb-ссылку на архив mp4.
  4. Себя сохранение:**
    Собрать сразу шаблон runpod - packer c preinstalled models, чтобы при следующей раскруткѣ заносно заработало.

Техничесткaя заметка («Cover the holes»)

Конкуррет без названий для меня неизретчано, его не вырим.

Начальный рессурсеc для разработчика:

  • 2 пробных ссd- дисплея даются инсталляции комардам.
  • Готовый начальный конфиг nnabla-linia для торних можно забыть править на ваkунтрин.