Техническое задание: Извлечение и конвертация текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Файлы представляют собой смесь отсканированных изображений с текстом и структурированных электронных документов. Основная цель - точное извлечение простого английского текста и его аккуратное размещение в файлах Microsoft Office.

Основные требования

  • Источники: Более 100 PDF-файлов (отсканированные и текстовые).
  • Язык текста: Английский.
  • Точность: Извлеченный текст должен полностью соответствовать структуре и содержанию исходных PDF. Требуется внимательность к деталям.
  • Выходные форматы:
    • Word (.docx): Для большей части документов.
    • Excel (.xlsx): Для небольшой части документов, требующих табличного представления.
  • Организация файлов: По умолчанию - один файл Word/Excel на один исходный PDF-документ. Возможна группировка по согласованию.

Условия и сроки

  • Срок выполнения: 3-5 дней с момента начала работы.
  • Дополнительно: Исполнитель готов оперативно ответить на вопросы и приступить к работе немедленно после подтверждения заказа. Примеры выполненных работ доступны по запросу.

Разработка бота для поиска и анализа инфлюенсеров

Требуется создать автоматизированного бота для поиска активных публичных лиц в социальных сетях, анализа их контента и извлечения поведенческих сигналов. Технические параметры и детали будут предоставлены исполнителю.