Работа с массивом PDF и перенос в Excel

Необходимо выполнить обработку 1000 файлов в формате PDF. Файлы могут быть двух типов: полноценные PDF с текстом либо PDF, содержащие отсканированные изображения с табличными данными. В любом случае конечный результат - заполнение строго структурированного Excel-файла.

Исходные данные

Тип файлов: PDF (1000 шт.)
Содержимое: заказ-наряды, стоимость работ, нормы времени или материалов
Возможное наличие только графического скана таблицы - требуется распознавание текста (OCR)
Бренд или название компании, а также контакты не должны присутствовать в выходном файле

Формат результата

Файл Excel (XLS или XLSX) с жёстким форматом столбцов, согласованным с заказчиком
Корректная кодировка данных, отсутствие несжатых изображений внутри таблицы
Обязательное выравнивание текста и числовых форматов согласно образцу

Технические требования к обработке

Если в PDF данные представлены в виде отсканированной картинки без OCR-слоя, необходимо применить оптическое распознавание символов (OCR) для каждого такого файла. После распознавания - авто-хранение результата в книгу Excel построчно.

Состав полей для каждого файла:

Номер наряда/заказа
Наименование детали / работы
Стоимость за единицу
Норма штук / норма времени
Общая сумма

Все данные должны сопоставляться с предоставленным шaблоном формата Excel. Дубликаты названий фирм, номера телефонов или адреса сайтов удалять или маскировать (при их наличии в исходных данных).

Итоговый дедлайн: фиксированный (уточняется по объёму). Рабочее взаимодействие - через тикеты в трекере. Результат принимается на двух тестовых файлах.

дизайн

Работа с массивом PDF и перенос в Excel

Исходные данные

Формат результата

Технические требования к обработке

Состав полей для каждого файла:

Разработка большого рекламного баннера в CorelDRAW

Разработка бэкэнда для сети вендинговых аппаратов по аренде зарядных устройств

Исправление ошибки в скрипте Browser Automation Studio