Техническое задание: Извлечение и структурирование текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Часть документов является отсканированными изображениями (требуется распознавание текста), часть - структурированными электронными файлами. Основная цель - аккуратное извлечение простого английского текста и его перенос в офисные форматы с полным сохранением логики и структуры исходных материалов.

Требования к работе

1. Исходные данные:

  • Более 100 PDF-файлов.
  • Два типа документов: отсканированные (сканы) и структурированные (текстовые).
  • Язык контента: английский.

2. Результат работы:

  • Основной формат: Большая часть документов должна быть преобразована в файлы Microsoft Word (.docx).
  • Дополнительный формат: Небольшая часть документов, исходя из их содержания (таблицы, списки данных), должна быть перенесена в Microsoft Excel (.xlsx).
  • Структура файлов: По умолчанию - один исходный PDF соответствует одному файлу Word/Excel. Возможна группировка по согласованию.

3. Ключевые критерии качества:

  • Внимательность и точность: Извлечённый текст должен полностью соответствовать оригиналу по содержанию.
  • Сохранение структуры: Необходимо аккуратно перенести логику документа: заголовки, абзацы, списки, таблицы.
  • Для отсканированных документов важно качественное распознавание текста (OCR).

Условия и сроки

  • Формат сдачи: Готовые файлы .docx и .xlsx.
  • Срок выполнения: 3-5 дней с момента начала работы и предоставления всех материалов.
  • Готовность к оперативному старту после согласования деталей.

Разработка инструмента для автоматической векторизации растровых изображений

Требуется создать программу для конвертации растровых изображений (PNG, JPG) в векторный формат с функцией автоматической трассировки и возможностью утончения линий. Решение должно быть в виде скрипта или приложения.

Редактирование и синхронизация сессии живой музыкальной записи в Pro Tools

Требуется исправить ошибки в готовой сессии Pro Tools, записанной с живой группой. Основные задачи: синхронизация инструментов по времени, коррекция темпа ударных, редактирование партий баса, гитары и клавишных, создание дубля вокала.

Разработка VR-игры на Unity с мультиплеером

Требуется создать VR-игру на Unity с одиночным и сетевым режимом. Включает систему здоровья, стрельбу, ботов и синхронизацию для двух игроков. Готовые ассеты корабля и оружия предоставлены.