Техническое задание: Разработка Парсера сайта и PDF
Общее описание
Необходимо разработать скрипт на языке Python. Программа должна принимать текстовый запрос от пользователя, выполнять поиск на указанном сайте и во всех PDF-файлах, на которые есть ссылки на страницах этого сайта, и возвращать найденные фрагменты с указанием источника.
Функциональные требования
- Программа должна принимать на вход обычный текстовый запрос (строку).
- Поиск должен производиться:
- в тексте HTML-страниц указанного сайта
- в тексте PDF-документов, ссылки на которые обнаружены на сайте
- Результат работы:
- Если информация найдена - программа возвращает JSON-объект или вывод в консоль, содержащий:
- Фрагмент текста, подтверждающий наличие ответа
- Прямую ссылку на страницу или на PDF-файл, где найден текст
- Если информация не найдена - выводит сообщение: “ничего не найдено”.
Требования к реализации
- Язык программирования: Python.
- Должен быть реализован файл конфигурации (например, JSON или YML), в котором можно указать:
- URL сайта для парсинга
- (По желанию) другие настройки (таймауты, ГЛУБИНА поиска, заголовки запроса).
- Код должен быть структурирован и содержать комментарии.
- Обработка ошибок: скрипт не должен падать при недоступности страницы или битом PDF.
Состав сдаваемых материалов
- Исходный код проекта
- Файл конфигурации
- Инструкция по запуску (пошагово)
- Пример запуска и примеры нескольких ответов (скриншот или лог работы).
Сроки и бюджет
Срок выполнения: 1-1.5 месяца. Точная стоимость обсуждается; в отклике необходимо указать свою цену и то, что в неё входит.