Разработка голосового ассистента с искусственным интеллектом
Необходимо реализовать программное решение - голосового агента, который взаимодействует с пользователем через речь, поддерживает диалог и адаптируется к контексту разговора.
Ключевые функциональные требования
- Распознавание речи (STT): Агент должен преобразовывать голос пользователя в текст с высокой точностью.
- Синтез речи (TTS): Обратное преобразование текстовых ответов агента в естественную человеческую речь.
- Ведение диалога: Способность поддерживать многоуровневый разговор по заранее подготовленным сценариям и инструкциям.
- Анализ контекста: Интеграция с GPT или аналогичной LLM-моделью для понимания контекста беседы, учета истории сообщений и генерации релевантных ответов.
- Сценарное управление: Возможность гибкой настройки и загрузки различных диалоговых сценариев.
Технические и архитектурные ожидания
- Решение должно быть модульным и масштабируемым.
- Приветствуется описание предлагаемого стека технологий (язык программирования, библиотеки для STT/TTS, способы интеграции с AI-моделью).
- Важна стабильность работы и низкая задержка при обработке аудио.
- Необходима документация по развертыванию и настройке.
Результат работы
Готовое к использованию приложение (или прототип) голосового агента, способного принимать аудиовход, обрабатывать запрос, генерировать ответ на основе контекста и сценария и воспроизводить его голосом.