Исходная ситуация
Имеется файл Excel, содержащий списки материалов по различным системам, разнесенные по множеству вкладок. Общий объём данных превышает 15 000 строк. На разных вкладках данные часто повторяются, что затрудняет поддержку сайта и обновление спецификаций.
Задача перед специалистом
Необходимо разработать решение или скрипт для:
- Обработки большого файла Excel (.xlsx)
- Обхода всех вкладок и сбора номенклатуры
- Автоматического сопоставления и дедупликации повторяющихся позиций
- Итогового структурирования по системам (возможно, создание единой карты вложенности или справочника)
Конкретные требования к реализации
- Обязательна совместимость с дальнейшим импортом данных на CMS сайта (у заказчика готовая база)
- Желательно частичное или полное сохранение иерархии оригинальных вкладок
- Вариант реализации: на языке Python (библиотеки openpyxl/pandas консольный скрипт) или с помощью VBA внутри Excel. Конечный язык согласуется с исполнителем.
Что нужно предоставить на выходе
- Код (скрипт/макрос) с комментариями по работе
- Инструкцию по запуску и адаптации под будущие обновления
- Пример обработанного фрагмента для финальной проверки