Техническое задание: Автоматизация переноса данных из PDF в Excel

Цель проекта

Разработать стабильное и многоразовое программное решение для автоматизации рутинной задачи по переносу данных из проектной документации в структурированный шаблон.

Исходные данные

  • Входной формат: Документы в формате PDF (строительная проектная документация).
  • Источник данных: Раздел "Спецификация" в конце документа, содержащий табличный перечень материалов.
  • Извлекаемые данные: Наименование товара (материала), единица измерения, количество.
  • Объем данных: От 20 до 300 позиций в одном документе.

Требования к решению

  • Использовать технологии на основе нейросетей или машинного обучения для надежного распознавания и извлечения текста и таблиц из PDF.
  • Решение должно корректно работать с документами разной структуры, но имеющими итоговую спецификацию.
  • Реализовать точный перенос извлеченных данных в заранее подготовленный шаблон-файл в формате Microsoft Excel.
  • Решение должно быть пригодно для постоянного использования, устойчиво к небольшим изменениям в формате исходных PDF-документов.
  • Обеспечить удобный интерфейс для пользователя (например, скрипт с указанием путей к файлам или простой графический интерфейс).

Ожидаемый результат

Готовое к использованию решение (скрипт, программа или сервис), которое принимает PDF-файл со спецификацией и автоматически заполняет данными заданный Excel-шаблон, избавляя от необходимости ручного копирования.