Необходимо выполнить парсинг данных по следующему алгоритму:
- Предоставляется список ключевых запросов (например, 'Ивановское кладбище екатеринбург').
- Для каждого запроса нужно найти сайт. Берется только первый результат в выдаче поиска.
- Проверяется соответствие: если текст в названии первой ссылки содержит часть ключевого запроса (без города, например, 'Ивановское кладбище'), то переходим по этой ссылке и парсим страницу.
Что нужно извлечь с каждой страницы:
- Заголовок статьи
- Основное содержимое. При этом все ссылки из текста (кроме блока с примечаниями) должны быть удалены.
- Примечания в формате: текст + ссылка.
- Блок с краткой информацией (справа на странице).
- Первое изображение в статье (если есть). Для него нужно сгенерировать уникальный идентификатор, который затемтся в название файла, чтобы привязать фото к конкретной статье.
- Ссылку на саму статью
Формат результата:
- Файл в формате Excel, CSV.
- Изображения отдельно, названные в соответствии с идентификатором из данных.
Остальные ссылки (межсайтовые) и все прочие фото парсить не нужно.
Предполагаемое количество страниц для обработки: ~1000 (будет уточнено позже).
Важно: Готовый набор данных, а не программа для парсинга.