Техническое задание: Подготовка данных реестра СЗР для загрузки в SQL

1. Цель работы

На основе предоставленных PDF-файлов Государственного реестра средств защиты растений (СЗР) необходимо создать структурированный файл формата Excel (XLSX). Результирующая таблица должна быть готова к загрузке в реляционную базу данных (SQL). Программой парсинга предоставляется заказчиком дополнительно.

2. Требования к входным данным и результату

  • Исходные данные: Набор PDF-файлов реестра СЗР.
  • Формат результата: Один или несколько файлов формата .xlsx.
  • Объем: Реестр содержит сотни позиций, необходим полный перенос записей.
  • Разметка: Важно четко выделить отдельные записи и их атрибуты (наименование, действующее вещество, регистрант, срок действия и т.д.). Все данные должны быть разделены по столбцам согласно метаданным реестра.

3. Ожидаемый формат таблицы

  • Первая строка должна содержать заголовки столбцов (переведенные на понятный английский/русский язык для разработчиков).
  • Каждый следующий ряд - это одна карточка препарата из реестра.
  • Ячейки не должны содержать переносов строк, лишних пробелов (TRIM) или пустых строк между данными.
  • При наличии табличных данных на выгрузке в PDF, структура должна быть полностью повторена.

4. Важные уточнения

    Исполнителю будут переданы три файла реестра для заполнения. Тестовый вариант (семпл) предоставляется до начала основной работы для утверждения макета таблицы.