Техническое задание: Парсинг текстовой информации

Цель проекта

Разработать решение для автоматического сбора и структурирования текстовых данных с целевых веб-страниц.

Источники данных

Парсинг необходимо выполнить с трёх сайтов:

  • banki.ru
  • vbr.ru
  • sravni.ru

Конкретные страницы для обработки указаны в отдельном предоставленном списке.

Требования к данным

Необходимо извлекать блоки с текстовой информацией согласно предоставленным типам и примерам.

Структура выходных данных

Каждая запись должна содержать следующие поля:

  • URL страницы
  • Тип блока (согласно классификации)
  • Заголовок H2 (или H1, если H2 отсутствует)
  • Заголовок H3
  • Текст содержимого

Требования к формату и обработке

  • Итоговые данные должны быть представлены в формате Excel или текстовом файле с разделителем точка с запятой (;).
  • Все символы точки с запятой, встречающиеся в исходных текстах, необходимо заменить на запятые, чтобы не нарушать структуру файла.
  • Пример ожидаемого результата парсинга предоставлен для ознакомления.

Дополнительные указания

Для уточнения деталей по типам блоков и списку страниц будут предоставлены вспомогательные материалы.

Сбор актуальных WhatsApp-групп и каналов для риелторов России

Требуется собрать и проверить базу рабочих ссылок-приглашений в профессиональные WhatsApp-сообщества, связанные с рынком недвижимости по всей России. Важна актуальность ссылок и их тематическая направленность.