Техническое задание: Извлечение и структурирование текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Часть документов является отсканированными изображениями (требуется распознавание текста), часть - структурированными электронными файлами. Основная цель - аккуратное извлечение простого английского текста и его перенос в офисные форматы с полным сохранением логики и структуры исходных материалов.

Требования к работе

1. Исходные данные:

  • Более 100 PDF-файлов.
  • Два типа документов: отсканированные (сканы) и структурированные (текстовые).
  • Язык контента: английский.

2. Результат работы:

  • Основной формат: Большая часть документов должна быть преобразована в файлы Microsoft Word (.docx).
  • Дополнительный формат: Небольшая часть документов, исходя из их содержания (таблицы, списки данных), должна быть перенесена в Microsoft Excel (.xlsx).
  • Структура файлов: По умолчанию - один исходный PDF соответствует одному файлу Word/Excel. Возможна группировка по согласованию.

3. Ключевые критерии качества:

  • Внимательность и точность: Извлечённый текст должен полностью соответствовать оригиналу по содержанию.
  • Сохранение структуры: Необходимо аккуратно перенести логику документа: заголовки, абзацы, списки, таблицы.
  • Для отсканированных документов важно качественное распознавание текста (OCR).

Условия и сроки

  • Формат сдачи: Готовые файлы .docx и .xlsx.
  • Срок выполнения: 3-5 дней с момента начала работы и предоставления всех материалов.
  • Готовность к оперативному старту после согласования деталей.

Редизайн ключевых страниц сайта стоматологии

Требуется разработать новый дизайн для двух типов страниц (услуги и статьи) действующего сайта. Дизайн должен гармонично сочетаться с существующим оформлением остальных разделов. Исходники предыдущего дизайна утеряны.