Задача
Необходимо разработать мультимодальную модель для задачи Visual Question Answering (VQA), которая по входному изображению и текстовому запросу формирует ответ на естественном языке.
Архитектура
- Использовать Vision Transformer (ViT) или Swin Transformer в качестве энкодера изображений.
- Применить TransformerEncoder для обработки текстового запроса.
- Объединить признаки из модальностей для декодирования ответа.
Требования
- Модель должна принимать на вход изображение и вопрос (строку), выводить ответ (строку).
- Использовать готовые предобученные веса для ViT/Swin (например, из библиотек PyTorch или HuggingFace).
- Обеспечить конкатенацию или кросс-внимание между текстовыми и визуальными эмбеддингами.
- Для дообучения разрешается использовать датасет VQA v2 или аналогичный.
Выходные данные
Ожидается код модели, пример инференса, а также краткая документация по запуску и обучению.