Разработка надежной парсерной системы на Python
Требуется разработчик для создания и долгосрочной поддержки масштабируемой системы парсинга данных. Проект предполагает работу с большим и постоянно растущим количеством веб-ресурсов. Мы ищем специалиста, который станет частью команды на постоянной основе.
Основные задачи проекта:
- Разработка парсеров для сбора данных с веб-сайтов (ориентировочно 100+ на старте, с планом увеличения до ~300).
- Реализация регулярной авторизации на сайтах через мобильную версию с использованием прокси-серверов.
- Извлечение данных с помощью XPath.
- Обход систем защиты (WAF) и обработка TLS-соединений с использованием современных методов (например, curl_cffi/tls client).
- Работа с API-запросами.
- Сохранение собранных данных в базу данных.
- Интеграция с Telegram-ботом (aiogram) для отправки данных и уведомлений.
Технический стек и ключевые технологии:
- SeleniumBase для автоматизации браузера.
- curl_cffi / tls client для работы с запросами и обхода TLS.
- Celery и Redis для организации фоновых задач и очередей.
- Aiogram для телеграм-бота.
- Asyncio для асинхронного выполнения задач.
Что мы ожидаем от кандидата:
- Опыт работы с указанным стеком технологий.
- Готовность к долгосрочному сотрудничеству и регулярным доработкам системы.
- Ответственный подход и надежность.
Процесс отбора:
Для проверки компетенций подходящим кандидатам будет отправлено небольшое оплачиваемое тестовое задание. Работа ведется через биржу фриланса.