Техническое задание: Извлечение и структурирование текста из PDF
Суть проекта
Необходимо обработать партию из более чем 100 PDF-документов. Часть документов является отсканированными изображениями (требуется распознавание текста), часть - структурированными электронными файлами. Основная цель - аккуратное извлечение простого английского текста и его перенос в офисные форматы с полным сохранением логики и структуры исходных материалов.
Требования к работе
1. Исходные данные:
- Более 100 PDF-файлов.
- Два типа документов: отсканированные (сканы) и структурированные (текстовые).
- Язык контента: английский.
2. Результат работы:
- Основной формат: Большая часть документов должна быть преобразована в файлы Microsoft Word (.docx).
- Дополнительный формат: Небольшая часть документов, исходя из их содержания (таблицы, списки данных), должна быть перенесена в Microsoft Excel (.xlsx).
- Структура файлов: По умолчанию - один исходный PDF соответствует одному файлу Word/Excel. Возможна группировка по согласованию.
3. Ключевые критерии качества:
- Внимательность и точность: Извлечённый текст должен полностью соответствовать оригиналу по содержанию.
- Сохранение структуры: Необходимо аккуратно перенести логику документа: заголовки, абзацы, списки, таблицы.
- Для отсканированных документов важно качественное распознавание текста (OCR).
Условия и сроки
- Формат сдачи: Готовые файлы .docx и .xlsx.
- Срок выполнения: 3-5 дней с момента начала работы и предоставления всех материалов.
- Готовность к оперативному старту после согласования деталей.