Задача: Миграция каталога из PDF в WooCommerce

Имеется подробный каталог продукции на 227 страницах в формате PDF. На каждой странице указаны артикулы, названия, описания, характеристики и изображения товаров. Необходимо собрать все данные, локализовать их (перевести на русский), разложить по рубрикам и создать единый файл импорта для плагина WooCommerce.

Что должен сделать файл импорта

  • Извлечение данных: парсинг всех страниц PDF с сохранением ключевых полей: артикул (SKU), наименование товара, описание (многоязычное), характеристики, количество, ссылки на изображения.

  • Перевод на русский: минимум наименования, описания и текстовые характеристики. Машинный перевод допустим, но с вычисткой артефактов средствами Python/helpers.

  • Структурирование по категориям: товары должны повторять иерархию оригинального каталога. Количество и названия уровней уточнить в процессе согласования.

  • Подготовка к импорту: генерация единого файла в одном из форматов - XML , CSV для AllImport, или WordPress WXR. Формат согласуем.

Примечания к исполнителю

  • Веc PDF ~30 Mb
  • Цены, пол, срок фактической доставки производитель не указывает.
  • Названия компаний, сайт поставщика, номера телефонов должны быть удалены, чтобы избежать коллизий авторских прав.

Важные условия

  • После обработки все информационные контакты (юридический адрес, идентификаторы производителя и т.п.) необходимо заменить или ставить плэйсхолдер (004).
  • Дедлайн уточняется, приоритет - аккуратность и релевант товарного ассортимента.