Разработка Backend-системы для сбора и аналитики больших данных с автомобильных площадок

Цель проекта - создание отказоустойчивого ETL-конвейера и хранилища данных (DWH) уровня крупных агрегаторов объявлений.

Основные задачи

  • Высоконагруженный парсинг: Ежедневный сбор миллионов объявлений с автомобильных классифайдов. Требуется опыт работы с современными системами защиты (Cloudflare, Datadome, капчи).
  • Очистка и нормализация: Приведение неструктурированных данных к единому формату.
  • Алгоритм «Золотой записи»: Реализация механизма склейки дублирующихся объявлений с разных источников с использованием Fuzzy Matching.
  • Проектирование и наполнение DWH: Создание схемы хранилища данных для последующей аналитики.

Стек технологий (строго)

  • Язык и фреймворки: Python (Asyncio, Aiohttp, Playwright).
  • Базы данных: ClickHouse (для аналитики) и PostgreSQL (для метаданных).
  • Оркестрация: Apache Airflow.
  • Инфраструктура: Docker.

Требования к исполнителю

  • Опыт в high-load скрапинге: понимание ротации прокси, работы с TLS-fingerprinting и обхода антибот-систем.
  • Умение проектировать эффективные схемы хранилищ данных (DWH).
  • Готовность следовать подробному техническому заданию и согласованному техпроцессу.
  • Ответственный подход к работе с большими объемами данных.

Разработка ежемесячного контент-плана для соцсетей компании

Требуется создать детальный контент-план для корпоративного аккаунта в социальных сетях на один календарный месяц. План должен включать тематику постов, график публикаций, а также рекомендации по визуалу и хештегам.