Общее описание проекта

Необходимо создать систему (инструмент), которая автоматически обрабатывает набор готовых изображений (слайдов) и превращает каждый слайд в серию кадров для анимации. Основные этапы задачи:

1. Входные данные

  • Набор готовых графических слайдов (изображения формата PNG/JPG).
  • Слайды могут содержать: фон, заголовки, подписи, графику, фотографии, стрелки, метки (штампы) и другие элементы.

2. Функциональные требования

  • Анализ структуры. AI должен распознать все элементы слайда, их тип (контейнер, текст, изображение, декоративный элемент).
  • Логичная очередность. На основе последовательности презентации AI предполагает естественный порядок появления элементов (например: сначала фон, затем заголовок, затем вставка изображения, потом текстовые блоки).
  • Разбивка на кадры-этапы. Для каждого слайда строится последовательность кадров (шагов анимации). Первый кадр содержит только фон (восстановленный/изолированный), следующие кадры добавляют по одному или группе элементов.
  • Восстановление фона. Инструмент использует технологию генерации фона (например, AI для дорисовывания/чистки - упоминается как возможная используемая система). Цель - получить «пустой» слайд без элементов, на основе которого собирается первый кадр.
  • Формат на выходе. Для каждого слайда возвращается тот же первый (чистый фон) и последний (полный слайд) кадры. Также можно формировать полную последовательность, если в дальнейшем потребуется покадровая анимация.

3. Бюджетные и технические рамки

  • Все решения принимаются разработчиком исходя из требований эффективности/дешевизны.
  • Необходимо предложить оптимальный состав инструментов и сервисов AI - отдать предпочтение недорогим API с оплатой за токены или количество обращений.
  • В проект не обязана входить конечная видеогенерация - требуется отдавать кадры (изображения) для последующей передачи в анимационный рендер от других систем.
  • Интеграция, выбор стека (язык/фреймворк/База/облачные сервисы/- свободна для реализации.

4. Практическая ценность выдачи

Задача реализуема при условии корректного подбора библиотек компьютерного зрения (OpenCV/Detection libraries), AI для классификации слоев (RAG/DL модели) и модуля маски фона. Важной частью проработки является предложение стабильного точного способа очистки/восстановления фона до 100% - основной риск и сложность.

Озвучка обучающего видео на английском языке

Требуется профессиональная озвучка видео длительностью 5-7 минут. Голос - спокойный, нейтральный, разговорный английский. Важно: никаких финансовых обещаний и упоминаний гарантированного дохода, текст безопасен для YouTube.