Разработка мультимодальной модели VQA

Задача

Необходимо разработать мультимодальную модель для задачи Visual Question Answering (VQA), которая по входному изображению и текстовому запросу формирует ответ на естественном языке.

Архитектура

Использовать Vision Transformer (ViT) или Swin Transformer в качестве энкодера изображений.
Применить TransformerEncoder для обработки текстового запроса.
Объединить признаки из модальностей для декодирования ответа.

Требования

Модель должна принимать на вход изображение и вопрос (строку), выводить ответ (строку).
Использовать готовые предобученные веса для ViT/Swin (например, из библиотек PyTorch или HuggingFace).
Обеспечить конкатенацию или кросс-внимание между текстовыми и визуальными эмбеддингами.
Для дообучения разрешается использовать датасет VQA v2 или аналогичный.

Выходные данные

Ожидается код модели, пример инференса, а также краткая документация по запуску и обучению.

код

Разработка сайта-визитки для проектной строительной организации

Необходимо создать современный и информативный сайт-визитку для компании, специализирующейся на BIM-проектировании и строительном моделировании. Сайт должен презентовать ключевые услуги и соответствовать профессиональным стандартам отрасли.

дизайн

Макет колодки для лазерной резки

Требуется разработать макет для лазерной резки колодки шириной 50 см. В наличии есть файл с размерами боковой стенки и фотографии готового изделия.

верстка

Верстка посадочной страницы с адаптивом

Необходимо сверстать одностраничный лендинг по готовому макету из Figma. Без PHP и CMS, только чистый HTML+CSS.