Задача
Необходимо разработать персонализированного разговорного аватара, который объединяет технологии LLM, голосового клонирования и анимации. Ключевые функции: голосовое общение с собеседником (STT + TTS), синхронизированное видео (полуторс с жестами).
Модули и компоненты
- LLM и идентичность: настройка большой языковой модели, добавление инструкций, RAG на основе загруженных материалов, LoRA для стиля.
- Голос TTS: клонирование голоса заказчика на основе open source решений.
- Видеогенерация и анимация: синхронное создание видео головы, лица, торса и рук/жестов на основе фото или короткого видео референса. Приоритет open source.
- Голосовой ввод: STT, VAD, шумоподавление (открытые инструменты).
Организационные требования
- Стеки и архитектурные решения согласовываются с разработчиком заказчика (регулярные созвоны и демо).
- Вся работа ведётся в репозитории: код, инструкции, конфиги, примеры запросов и скрипты.
- Предоставить документацию: обучение/обновление, деплой, расширение.
- Соблюдать конфиденциальность: NDA доступа к данным.
Ожидаемый результат
- Рабочий прототип (локально или Docker), принимающий голос/текст и возвращающий аудиоответ и синхронизированное видео.
- REST API или понятная схема интеграции модулей с примерами вызовов.
- Деморолики с описанием качества и ограничений.
Отклик от исполнителя
- Опыт работы с LLM/RAG, TTS, анимацией: ссылки на демо/репозитории.
- Предложенный стек (раздел кратко - по решению заказчика).
- Сроки и стоимость по этапам.