Общее описание задачи

Необходима нейросеть (или набор инструментов), которая позволяет загружать готовый видеофайл на русском языке, обрабатывать его и получать на выходе видеофайл на английском языке (американский вариант). Дополнительно требуется функция генерации уникальных картинок/фотографий на основе запросов пользователя. Ключевое условие: решение не должно быть известным и дорогим релизом (как Sora, Midjourney Enterprise, Google Veo), предлагаются только бюджетные или самодельные варианты.

Основные функции

  • Перевод голоса/субтитров в видео с русского на американский английский (сохранение звуковой дорожки или создание наложенных субтитров).
  • Генерация оригинальных фотоизображений (без плагиата, по текстовому описанию или англоязычным фрагментам).
  • Возможность загрузить собственное видео (.mp4) и скачать итоговый переведенный файл без внешних водяных знаков.
  • Работа с длинным видео (по 10 - 20 минут) без критических ошибок и высоких затрат.

Требования к исполнителю

Объяснить перечень конкретных сервисов, библиотек (например, Whisper + RVC + API перевода, Stable Diffusion для картинок), предоставить веб-интерфейс или NLP бота в цепочке загрузка ↔ обработка ↔ выдача результата. От исполнителя ожидается:

  • Помощь в подборе стека технологий, совместимых с несложным интерфейсом (TG бот / local web-апп).
  • Настройка конвейера обработки: распознавание речи → перевод → синтез или наложение субтитров на полное видео.
  • Функция паковой генерации дополнительного фото-контента по заданным запросам.

Инструменты классифицируются с указанием открытого кода и умерением бюджета - приоритет бесплатным или одноразово низким по оплате библиотекам