Техническое задание: Приложение для транскрибации интервью
Цель проекта - разработать десктопное приложение для ОС Windows, которое автоматически преобразует аудиозаписи живой речи в текстовый формат с расширенной функциональностью для работы с интервью.
Ключевые функции и требования
- Целевые записи: Аудиофайлы, записанные в формате интервью в различных условиях (улица, кафе, офисы).
- Основная задача: Точная транскрибация (перевод речи в текст) с сохранением разметки по времени.
- Диаризация: Обязательная функция разделения речи на реплики разных участников диалога.
- Идентификация говорящего: Приложение должно распознавать и маркировать в тексте голос интервьюера (на основе предзагруженной библиотеки голосовых эмбеддингов) и как минимум одного собеседника.
- Временные метки: Каждая реплика в итоговом тексте должна сопровождаться временной отметкой (таймкодом) её начала в исходном аудиофайле.
- Работа с библиотекой голосов: Возможность добавления, обучения и хранения голосовых моделей (эмбеддингов) для точного распознавания постоянных участников (например, конкретных журналистов).
Технический контекст
Для реализации задачи предполагается использование современных инструментов и библиотек для обработки аудио, машинного обучения и работы с речью (например, на основе Python-стэка). Приложение должно иметь удобный графический интерфейс пользователя (GUI) для Windows.