Задача
Необходимо создать для сайта на WordPress скрипт, который автоматически анализирует текстовое содержимое подгружаемого PDF-документа, сравнивает его с эталонным PDF-файлом, уже размещенным на сайте, и выводит пользователю наглядный результат.
Ключевые требования
- Скрипт должен загружать PDF пользователя, извлекать из него текст (игнорируя картинки, разметку, шрифты).
- Сравнивать извлеченный текст с текстом из любого публичного PDF на том же сайте (по ссылке или из медиатеки).
- Выводить процент текстового совпадения в виде числа (например, «73% совпадения»).
- Детально подсвечивать, какие именно части текста совпали (например, зелёным) и какие - не совпали (например, красным), удобно для просмотра.
- Подгруженный документ не должен сохраняться на сервере постоянно (только временно для обработки).
- Решение должно работать на стороне сервера (PHP/WordPress).
- Примерная реализация и ТЗ есть на одном готовом сайте - исполнитель получит ссылку для ознакомления.
Технические комментарии для исполнителя
Исполнитель должен предоставить готовое решение в виде скрипта PHP, который интегрируется в штатную структуру файлов темы WordPress (например, shortcode) или плагина. Извлечение текста из PDF организуется через проверенные сторонние библиотеки под управляемым сервером. Все детали по деплою библиотек обговорим до старта.
Ключевое внимание уделить качеству парсинга и отображения результатов - для заказчика критична визуальная демонстрация пользователю того, где именно совпал / не совпал текст.
Стандартные технологические детали (версия PHP, типы текстов в PDF, объём файлов, лимит по страницам) обсуждаются дополнительно при запуске в работу на основе загруженных PDF-эталонов.
Формат результата для администратора
- Процент совпадения между конкретными фрагментами.
- Два блока отчета: совпадающие слова / предложения и различающиеся части.
- Только текст - ни OCR опционально.