Техническое задание: Очистка дубликатов товаров
Суть проблемы
На сайт были загружены тысячи товаров, полученных путем парсинга внешнего источника. Примененный метод проверки на дубли оказался неэффективным - значительная часть товаров осталась с дубликатами. Необходимо разработать и реализовать надежное решение для их выявления и очистки.
Ключевые требования
- Разработать эффективный алгоритм для точного определения дублирующихся товарных позиций среди нескольких тысяч записей.
- Критерий удаления: при обнаружении дубля необходимо удалять новосозданную карточку (дата создания: октябрь, ноябрь, декабрь), оставляя оригинальный (старый) товар.
- Алгоритм должен учитывать возможные незначительные различия в названиях, артикулах или описаниях, характерные для парсинга.
- Предоставить отчет о проделанной работе: количество найденных и удаленных дубликатов.
Желаемый результат
Чистая база товаров без повторяющихся позиций, где для каждого уникального продукта сохранена только одна, самая ранняя карточка.