Парсинг статей для сбора данных

Необходимо выполнить парсинг данных по следующему алгоритму:

Предоставляется список ключевых запросов (например, 'Ивановское кладбище екатеринбург').
Для каждого запроса нужно найти сайт. Берется только первый результат в выдаче поиска.
Проверяется соответствие: если текст в названии первой ссылки содержит часть ключевого запроса (без города, например, 'Ивановское кладбище'), то переходим по этой ссылке и парсим страницу.

Что нужно извлечь с каждой страницы:

Заголовок статьи
Основное содержимое. При этом все ссылки из текста (кроме блока с примечаниями) должны быть удалены.
Примечания в формате: текст + ссылка.
Блок с краткой информацией (справа на странице).
Первое изображение в статье (если есть). Для него нужно сгенерировать уникальный идентификатор, который затемтся в название файла, чтобы привязать фото к конкретной статье.
Ссылку на саму статью

Формат результата:

Файл в формате Excel, CSV.
Изображения отдельно, названные в соответствии с идентификатором из данных.

Остальные ссылки (межсайтовые) и все прочие фото парсить не нужно.

Предполагаемое количество страниц для обработки: ~1000 (будет уточнено позже).

Важно: Готовый набор данных, а не программа для парсинга.

разработка сайтов

Разработка продающего лендинга на WordPress и Elementor

Требуется создать современный, адаптивный лендинг для бизнеса с индивидуальным дизайном, воронкой продаж и удобной админ-панелью. В работу входит полная техническая настройка и перенос на хостинг.

дизайн

Разработка набора адаптивных баннеров для рекламной сети

Требуется создать серию адаптивных баннеров в четырех форматах на основе готового ТЗ. Работа проходит в два этапа: сначала утверждается квадратный формат, затем остальные.

видеомонтаж

Видеомонтаж рекламного ролика с отзывом

Создание динамичного видеоотзыва от бизнесмена: наложение стоковых кадров, AI-озвучка, фоновая музыка без авторских прав и стильные переходы.