Описание задачи

Необходимо создать парсер (скрипт на языке программирования Python) для автоматического сбора данных с указанного веб-сайта или сервиса.

Требования к реализации

  • Возможность настройки ключевых страниц для сканирования и форматов данных на выходе (CSV, Excel, JSON).
  • Игнорирование блокировки со стороны сайта: сбор с задержками и случайными User-agent.
  • Фильтрация спам-ссылок и дубликатов, корректная обработка изображений (сохранение с переименованием).
  • Соотнесение заголовков, содержимого div/span а также сохранение даты публикации.
  • Обработка контента по паттерну: ссылка, описание, число слов/объём текста. Логирование.

Пример точного запроса

Собрать с объединённых частей паджеблока:

  • Заголовок опубликованного документа
  • Ценовая информация (если автоматические категории)
  • Тело главного html (beautifulsoup/селекторы).

Продолжительность работы

Документировать алгоритм. Весь полный отчёт должен содержать описание этапов сбора на выбор разработчика в libre office/sharp export два вида (там приложи требования). Сроки обговариваются совместно.