Парсинг текстового контента с финансовых сайтов

Основная задача

Требуется разработать скрипт для автоматического сбора информации с конкретных страниц, указанных в предоставленном списке. Сбор данных должен быть выполнен в строго определённой структуре.

Источники данных

Парсинг необходимо выполнить со следующих ресурсов:

  • Три финансовых информационных портала (названия скрыты по требованию заказчика).
  • Конкретные URL-адреса страниц для обработки предоставлены в отдельном документе.

Требования к данным

Структура конечной таблицы

Каждая извлечённая сущность (текстовый блок) должна содержать следующие поля:

  • URL - адрес страницы-источника.
  • Блок - тип текстового блока согласно классификации.
  • Заголовок H2 (H1) - основной заголовок секции.
  • Заголовок H3 - подзаголовок секции.
  • Текст - основное текстовое содержимое блока.

Обработка и формат вывода

  • Итоговые данные должны быть представлены в формате Excel или текстовом файле с разделителем «точка с запятой» (CSV).
  • Важно: Все символы точки с запятой, встречающиеся внутри текстов, необходимо заменить на запятую, чтобы не нарушать структуру CSV-файла.
  • Необходимо спарсить полную иерархию текстовых блоков (заголовки и связанный с ними текст) с каждой указанной страницы.

Референсы и примеры

Для уточнения деталей задачи заказчик предоставил:

  • Список целевых страниц в отдельном документе.
  • Пояснение по классификации типов блоков в отдельном документе.
  • Пример результата парсинга одной из страниц в виде таблицы.

Критерии выполнения

Задание требует оперативного выполнения. В ответе укажите сроки и стоимость работы.

Настройка регулярного получения отзывов для приложения в Google Play

Требуется организовать процесс массового получения живых отзывов и оценок от реальных пользователей для приложения в Google Play. Работа должна вестись по безопасной схеме с соблюдением правил площадки.

Аудит и оптимизация структуры сайта с проработкой семантического ядра

Требуется провести комплексный аудит существующей структуры сайта, выявить ошибки и дать рекомендации по её улучшению. В работу входит анализ текущего состояния и разработка семантического ядра для дальнейшей оптимизации.

Доработка и настройка сайта на WordPress

Требуется выполнить ряд технических и контентных правок на существующем сайте: настроить функционал промокодов в корзине, обновить цены, удалить лишние текстовые блоки.