Техническое задание: Парсинг автомобильного каталога
Требуется разработать скрипт для сбора структурированных данных об автомобилях с публичного онлайн-сервиса-каталога.
Цель проекта
Получить полную и актуальную базу данных автомобильных марок, моделей и их поколений для дальнейшего использования в аналитических или коммерческих системах.
Основные требования к данным
- Структура данных: Марка → Модель → Поколение (с годом выпуска).
- Форматирование: Точное сохранение текстового представления, как на исходном сайте. Пример записи поколения:
II (2018-2025). - Связи: Обязательное классическое сопоставление данных по ID ячейки или уникальным идентификаторам.
- Источник: Популярный публичный сервис с каталогом автомобилей (конкретный источник обсуждается с исполнителем).
Требования к результату
- Формат вывода: Приоритет - SQL-дамп (скрипты создания таблиц и наполнения данными). Альтернативно - корректно сформированный CSV-файл.
- Качество данных: Полнота, отсутствие дубликатов, сохранение иерархии и корректных связей между сущностями.
- Чистота данных: Удаление или замена служебных HTML-символов (например,
— на обычное тире).
Технические пожелания
- Скрипт должен быть написан на Python с использованием популярных библиотек для парсинга (например, BeautifulSoup, Scrapy, Selenium - по необходимости).
- Код должен быть читаемым, с комментариями.
- Желательна возможность повторного запуска для обновления данных.