Техническое задание: Извлечение текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Часть документов отсканирована, часть имеет структурированный вид. Основная задача - аккуратно извлечь текстовое содержимое на английском языке и перенести его в файлы Microsoft Office, строго соблюдая структуру и формат исходников.

Требования к результату

  • Формат файлов: Документы Microsoft Word (.docx) и таблицы Microsoft Excel (.xlsx).
  • Распределение: Большая часть документов должна быть преобразована в формат Word. Небольшая часть - в формат Excel.
  • Ключевое требование: Текст в итоговых файлах должен полностью соответствовать структуре исходных PDF-документов. Необходима высокая точность и внимательность к деталям.
  • Сдача работы: По умолчанию - один файл Word или Excel на один исходный документ. Возможна группировка файлов по согласованию с заказчиком.

Условия и сроки

  • Срок выполнения: 3-5 дней с момента начала работы.
  • Исполнитель должен быть готов приступить к работе оперативно.
  • Опыт и примеры аналогичных работ приветствуются.