Задача

Спроектировать и реализовать MVP продукта «Тендерный Пилот», который парсит PDF-документы с торговых площадок, извлекает из них ключевые сущности, строит граф расчета себестоимости и генерирует готовый отчет.

Функциональные требования

  • Парсинг PDF: извлечение текста из неструктурированных технических заданий.
  • Извлечение сущностей (NER): автоматический поиск классов материалов, работ и техники в тексте.
  • Построение графа расчета: на основе извлеченных данных строится логический граф расчета стоимости (связи между материалами/работами).
  • Генерация отчета: финальный отчет на основе обработанного ТЗ.

Технологические требования

  • База знаний: разработка графа знаний предметной области (Материалы/нормы → Цены/Коды).
  • Модели ML: внедрение моделей семантического анализа текстов (BERT - SciBERT/RuBERT, Word2Vec)
  • Прототип: интерфейс для работы инженеров (терминальный или простой веб - без строгих требований в первой версии)

Ограничения

  • Нулевая архитектура - все проектируется с нуля
  • Python 3.10+
  • Предпочтительную интеграцию масштабирования второстепенных метрик