Техническое задание: Извлечение и структурирование текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Часть документов является отсканированными изображениями (требуется распознавание текста), часть - структурированными электронными файлами. Основная цель - аккуратное извлечение простого английского текста и его перенос в офисные форматы с полным сохранением логики и структуры исходных материалов.

Требования к работе

1. Исходные данные:

Более 100 PDF-файлов.
Два типа документов: отсканированные (сканы) и структурированные (текстовые).
Язык контента: английский.

2. Результат работы:

Основной формат: Большая часть документов должна быть преобразована в файлы Microsoft Word (.docx).
Дополнительный формат: Небольшая часть документов, исходя из их содержания (таблицы, списки данных), должна быть перенесена в Microsoft Excel (.xlsx).
Структура файлов: По умолчанию - один исходный PDF соответствует одному файлу Word/Excel. Возможна группировка по согласованию.

3. Ключевые критерии качества:

Внимательность и точность: Извлечённый текст должен полностью соответствовать оригиналу по содержанию.
Сохранение структуры: Необходимо аккуратно перенести логику документа: заголовки, абзацы, списки, таблицы.
Для отсканированных документов важно качественное распознавание текста (OCR).

Условия и сроки

Формат сдачи: Готовые файлы .docx и .xlsx.
Срок выполнения: 3-5 дней с момента начала работы и предоставления всех материалов.
Готовность к оперативному старту после согласования деталей.

код