Техническое задание: Набор данных с PDF-документов

Суть работы

Необходимо аккуратно и точно перенести информацию из двух предоставленных PDF-файлов (формат инструкций) в редактируемые документы Microsoft Word.

Требования к выполнению

  • Исходные файлы: Два PDF-документа на английском языке в нередактируемом формате.
  • Структура результата: Для каждого исходного PDF-файла необходимо создать отдельный комплект файлов Word, содержащий:
    • Текстовый файл (.docx) с основным текстом.
    • Файл (.docx) с таблицами.
    • Файл (.docx) с изображениями (картинками).
  • Качество: Текст, таблицы и изображения должны быть перенесены полностью, без потери данных и с сохранением логической структуры.
  • Конфиденциальность: Вся контактная информация (названия фирм, телефоны, сайты), встречающаяся в исходных документах, должна быть скрыта или заменена на общие обозначения (например, [Название компании]).

Ожидаемый результат

В итоге должно быть предоставлено шесть файлов в формате .docx (по три файла на каждый исходный PDF), соответствующих описанным выше критериям.

Разработка системы рекомендаций потенциальных клиентов для сайта оборудования

Требуется создать модуль для автоматического подбора потенциальных клиентов под новое оборудование. Система должна анализировать историю переписки и схожесть товаров. Сайт написан на чистом PHP, используется самописная CRM.