Настройка женского голоса для системы синтеза речи (TTS)
Цель проекта
Настроить женский голос для генерации речи, который должен соответствовать следующим характеристикам:
- Тон и манера: уверенный, спокойный, "дорогой" (премиальный).
- Исключить: сюсюканье, агрессию, излишнюю эмоциональность.
Технические требования (MVP)
Формат контента
- Тексты для озвучки - короткие, от 1 до 4 предложений.
- Критически важны правильные паузы и ритм речи.
Задачи для специалиста
- Подбор голоса: выбрать 1-2 наиболее подходящих женских голоса у доступного провайдера TTS.
- Базовая настройка: отрегулировать параметры в рамках возможностей API:
- Скорость речи (создать три пресета: медленная, нормальная, быстрая).
- Паузы (настраивать через пунктуацию или SSML, если поддерживается).
- Громкость и стабильность тембра.
- Создание руководства: разработать "гайд по тексту" для заказчика, чтобы любой контент звучал естественно в TTS. Гайд должен включать рекомендации по:
- Оптимальной длине предложений.
- Правилам расстановки знаков препинания для пауз.
- Общим принципам написания текстов под синтез речи.
Технический контекст
Работа ведется с текущим провайдером TTS, с перспективой возможного переноса настроек на другую платформу в будущем. Необходим акцент на качестве и воспроизводимости результата.