Техническое задание: Извлечение и конвертация текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Файлы представляют собой смесь отсканированных изображений с текстом и структурированных электронных документов. Основная цель - точное извлечение простого английского текста и его аккуратное размещение в файлах Microsoft Office.

Основные требования

  • Источники: Более 100 PDF-файлов (отсканированные и текстовые).
  • Язык текста: Английский.
  • Точность: Извлеченный текст должен полностью соответствовать структуре и содержанию исходных PDF. Требуется внимательность к деталям.
  • Выходные форматы:
    • Word (.docx): Для большей части документов.
    • Excel (.xlsx): Для небольшой части документов, требующих табличного представления.
  • Организация файлов: По умолчанию - один файл Word/Excel на один исходный PDF-документ. Возможна группировка по согласованию.

Условия и сроки

  • Срок выполнения: 3-5 дней с момента начала работы.
  • Дополнительно: Исполнитель готов оперативно ответить на вопросы и приступить к работе немедленно после подтверждения заказа. Примеры выполненных работ доступны по запросу.

Оптимизация серверной инфраструктуры для сети WordPress-сайтов

Требуется анализ и реорганизация текущей серверной схемы с целью отказа от дорогостоящих кэш-серверов. Необходимо оценить возможность перенастройки 210 сайтов на работу напрямую с основным сервером для сокращения издержек.

Разработка и интеграция интеллектуального поиска и чат-бота для веб-сайта

Требуется модернизировать существующий сайт на чистом PHP, внедрив умный поиск на базе Elasticsearch с русской морфологией и интеллектуального чат-бота. Необходима настройка и полная интеграция решений.