Задача
Необходимо разработать надежный парсер, который ежедневно выполнит авторизацию на сайте личного кабинета финансовой службы, обойдет все необходимые разделы и соберет актуальные данные. В связи со сложностью структуры сайта (многоуровневая навигация, множество веб-форм), требуется решение с полноценной эмуляцией сессии браузера.
Ключевые требования
- Автоматическая авторизация: обработка Cookie, токенов и возможной капчи без ручного вмешательства.
- Эмуляция браузера: для корректной работы с JavaScript и динамическим контентом (- например, невидимые поля формы, скрипты загрузки таблиц).
- Проход по страницам: последовательный переход минимум по 5 внутренним вкладкам (справочники, отчеты, проводки, формы заявлений и т.д.).
- Извлечение данных из форм: сбор текстовых значений, загруженных атрибутов, содержания защищенных полей.
- Ежедневная работа по расписанию: автоматический запуск для получения полностью актуального среза данных.
- Обработка краевых случаев: переподключение при потери сессии, логирование ошибок и отсутствие лишнего запуска «одной и той же сессии».
Дополнительные детали
- Глубокое ТЗ, включая точный функционал и структуру выходных файлов, будет передано напрямую исполнителю.
- Архитектура должна поддаваться гибкой настройке без полной смены кода.
- Требуется использование современных Python-фрейммворков для специфичного парсинга.
Эта задача от бридами Finance удаленно, поэтому полностью скрыты упоминания компании, фактический адрес сайта/логин телефона.