Техническое задание: Масштабируемый ИИ-парсер для агрегации товаров и услуг
Цель проекта
Разработка высокопроизводительной и масштабируемой системы для автоматического сбора, обработки и публикации информации о товарах и услугах с большого количества внешних веб-ресурсов на наш портал.
Основные функциональные требования
1. Ядро парсинга и масштабируемость
- Создание парсера, способного работать с базой из более чем 50 000 целевых сайтов.
- Реализация системы очередей для управления задачами парсинга.
- Настройка обработки ошибок, логирования всех операций и ротации прокси-серверов для бесперебойной работы.
2. Интеллектуальная обработка данных (ИИ-модуль)
- Внедрение ИИ/ML-модуля для точного извлечения структурированной информации (название, цена, описание, характеристики, наличие).
- Настройка интеллектуальной классификации извлеченных товаров и услуг по категориям и разделам нашего портала.
3. Автоматизация обновлений и мониторинг
- Настройка системы автоматической периодической проверки обновлений на источниках.
- Выявление изменений: коррекция цен, обновление описаний, изменение статуса наличия товара.
4. Очистка и нормализация данных
- Реализация процессов дедупликации (объединения дублирующихся предложений).
- Фильтрация нерелевантных или некачественных данных.
- Приведение всех извлеченных данных к единому, согласованному формату.
5. Интеграция и выгрузка
- Подключение и настройка выгрузки обработанных и нормализованных данных через API нашего портала.
- Обеспечение автоматического размещения данных в соответствующих разделах.
Технические ожидания
Решение должно быть надежным, работать с минимальным вмешательством и эффективно обрабатывать большой объем данных. Архитектура системы должна позволять горизонтальное масштабирование при росте количества источников.