Парсинг текстового контента с финансовых сайтов

Основная задача

Требуется разработать скрипт для автоматического сбора информации с конкретных страниц, указанных в предоставленном списке. Сбор данных должен быть выполнен в строго определённой структуре.

Источники данных

Парсинг необходимо выполнить со следующих ресурсов:

  • Три финансовых информационных портала (названия скрыты по требованию заказчика).
  • Конкретные URL-адреса страниц для обработки предоставлены в отдельном документе.

Требования к данным

Структура конечной таблицы

Каждая извлечённая сущность (текстовый блок) должна содержать следующие поля:

  • URL - адрес страницы-источника.
  • Блок - тип текстового блока согласно классификации.
  • Заголовок H2 (H1) - основной заголовок секции.
  • Заголовок H3 - подзаголовок секции.
  • Текст - основное текстовое содержимое блока.

Обработка и формат вывода

  • Итоговые данные должны быть представлены в формате Excel или текстовом файле с разделителем «точка с запятой» (CSV).
  • Важно: Все символы точки с запятой, встречающиеся внутри текстов, необходимо заменить на запятую, чтобы не нарушать структуру CSV-файла.
  • Необходимо спарсить полную иерархию текстовых блоков (заголовки и связанный с ними текст) с каждой указанной страницы.

Референсы и примеры

Для уточнения деталей задачи заказчик предоставил:

  • Список целевых страниц в отдельном документе.
  • Пояснение по классификации типов блоков в отдельном документе.
  • Пример результата парсинга одной из страниц в виде таблицы.

Критерии выполнения

Задание требует оперативного выполнения. В ответе укажите сроки и стоимость работы.

Продвижение изделий из сухоцветов в соцсетях

Нужна стратегия и помощь в привлечении клиентов для творческого проекта по созданию композиций из сухоцветов и стабилизированных цветов в стеклянных колбах (клоше). Уже созданы каналы в Telegram и другие соцсети, требуется их эффективное использование.