Задача

Необходимо разработать мультимодальную модель для задачи Visual Question Answering (VQA), которая по входному изображению и текстовому запросу формирует ответ на естественном языке.

Архитектура

  • Использовать Vision Transformer (ViT) или Swin Transformer в качестве энкодера изображений.
  • Применить TransformerEncoder для обработки текстового запроса.
  • Объединить признаки из модальностей для декодирования ответа.

Требования

  • Модель должна принимать на вход изображение и вопрос (строку), выводить ответ (строку).
  • Использовать готовые предобученные веса для ViT/Swin (например, из библиотек PyTorch или HuggingFace).
  • Обеспечить конкатенацию или кросс-внимание между текстовыми и визуальными эмбеддингами.
  • Для дообучения разрешается использовать датасет VQA v2 или аналогичный.

Выходные данные

Ожидается код модели, пример инференса, а также краткая документация по запуску и обучению.

Разработка сайта-визитки для проектной строительной организации

Необходимо создать современный и информативный сайт-визитку для компании, специализирующейся на BIM-проектировании и строительном моделировании. Сайт должен презентовать ключевые услуги и соответствовать профессиональным стандартам отрасли.