Техническое задание: Парсер PDF-резюме

Необходимо разработать программное решение для автоматической обработки большого количества PDF-файлов с резюме кандидатов и переноса извлечённых данных в структурированную базу данных.

Цель проекта

Автоматизировать ручной ввод данных из резюме, обеспечив высокую точность извлечения информации из файлов разного качества и структуры.

Функциональные требования

Обработка файлов

  • Скрипт должен поддерживать массовую обработку файлов из указанной папки или архива.
  • Обработка должна выполняться последовательно, файл за файлом.

Поддержка типов PDF

  • Текстовые PDF (с возможностью копирования текста).
  • Сканированные PDF (изображения), для которых необходимо применение технологии оптического распознавания символов (OCR).

Извлечение данных

Система должна анализировать содержимое и извлекать следующие данные с максимальной точностью и без потерь:

  • Основная информация: ФИО, контактные данные (телефон, email, мессенджеры), город/страна, желаемая должность, ключевые навыки.
  • Опыт работы: Название компании, должность, период работы, описание обязанностей и достижений.
  • Образование: Учебные заведения, специальности, годы обучения.
  • Дополнительно: Владение языками, сертификаты, дополнительная информация.

Структура данных и вывод

  • Извлечённые данные должны раскладываться по заранее согласованной реляционной структуре.
  • Результат должен предоставляться на выбор: прямая загрузка в базу данных MySQL или формирование SQL-дампа.
  • Обязательна поддержка кодировки UTF-8.

Технические требования

  • Точность: 100% соответствие данным, указанным в исходном PDF-документе.
  • Надёжность: Корректная обработка документов с различным оформлением и структурой.
  • Интеграция OCR: Использование надёжного движка OCR для работы со сканированными документами.

Объём и сроки

  • Средний объём обрабатываемого документа: 1-3 страницы.
  • Сроки и стоимость выполнения проекта обсуждаются с исполнителем.

Требования к исполнителю

При отклике просьба указать:

  • Опыт работы с парсингом данных, обработкой PDF и технологиями OCR.
  • Примеры реализованных похожих проектов.
  • Стек технологий и инструментов, которые планируется использовать.
  • Предполагаемые сроки и стоимость работы.