Техническое задание: Извлечение текста из PDF
Суть проекта
Необходимо обработать партию из более чем 100 PDF-документов. Часть документов отсканирована, часть имеет структурированный вид. Основная задача - аккуратно извлечь текстовое содержимое на английском языке и перенести его в файлы Microsoft Office, строго соблюдая структуру и формат исходников.
Требования к результату
- Формат файлов: Документы Microsoft Word (.docx) и таблицы Microsoft Excel (.xlsx).
- Распределение: Большая часть документов должна быть преобразована в формат Word. Небольшая часть - в формат Excel.
- Ключевое требование: Текст в итоговых файлах должен полностью соответствовать структуре исходных PDF-документов. Необходима высокая точность и внимательность к деталям.
- Сдача работы: По умолчанию - один файл Word или Excel на один исходный документ. Возможна группировка файлов по согласованию с заказчиком.
Условия и сроки
- Срок выполнения: 3-5 дней с момента начала работы.
- Исполнитель должен быть готов приступить к работе оперативно.
- Опыт и примеры аналогичных работ приветствуются.