Работа с массивом PDF и перенос в Excel

Необходимо выполнить обработку 1000 файлов в формате PDF. Файлы могут быть двух типов: полноценные PDF с текстом либо PDF, содержащие отсканированные изображения с табличными данными. В любом случае конечный результат - заполнение строго структурированного Excel-файла.

Исходные данные

  • Тип файлов: PDF (1000 шт.)
  • Содержимое: заказ-наряды, стоимость работ, нормы времени или материалов
  • Возможное наличие только графического скана таблицы - требуется распознавание текста (OCR)
  • Бренд или название компании, а также контакты не должны присутствовать в выходном файле

Формат результата

  • Файл Excel (XLS или XLSX) с жёстким форматом столбцов, согласованным с заказчиком
  • Корректная кодировка данных, отсутствие несжатых изображений внутри таблицы
  • Обязательное выравнивание текста и числовых форматов согласно образцу

Технические требования к обработке

Если в PDF данные представлены в виде отсканированной картинки без OCR-слоя, необходимо применить оптическое распознавание символов (OCR) для каждого такого файла. После распознавания - авто-хранение результата в книгу Excel построчно.

Состав полей для каждого файла:

  • Номер наряда/заказа
  • Наименование детали / работы
  • Стоимость за единицу
  • Норма штук / норма времени
  • Общая сумма

Все данные должны сопоставляться с предоставленным шaблоном формата Excel. Дубликаты названий фирм, номера телефонов или адреса сайтов удалять или маскировать (при их наличии в исходных данных).

Итоговый дедлайн: фиксированный (уточняется по объёму). Рабочее взаимодействие - через тикеты в трекере. Результат принимается на двух тестовых файлах.