Техническое задание: Парсер прайс-листов из Telegram

Цель проекта

Разработать автоматизированное решение для ежедневного мониторинга прайс-листов на электронику в нескольких открытых Telegram-каналах. Система должна выявлять наилучшие предложения по заданным категориям товаров и предоставлять актуальную сводку в удобном формате.

Исходные данные и условия

  • Источники: 5-10 открытых Telegram-каналов.
  • Контент: Сообщения с прайсами на электронику, которые публикуются и могут редактироваться в течение дня.
  • Особенность: Не все сообщения в каналах являются прайсами (есть служебные посты).
  • Формат данных: Структура прайсов в разных каналах может отличаться.

Основные требования к системе

1. Функционал парсинга

  • Ежедневный, а также многократный в течение дня, мониторинг указанных каналов.
  • Отслеживание как новых сообщений, так и отредактированных (обновленных) старых.
  • Фильтрация сообщений: система должна отличать прайс-листы от прочего контента.

2. Обработка и нормализация данных

  • Использование API искусственного интеллекта для приведения разноформатных данных к единой структуре.
  • Извлечение данных по определенным категориям электроники (категории уточняются).
  • Сопоставление позиций и их цен из разных источников.

3. Хранение и представление результатов

  • Запись обработанных данных в Google Таблицу.
  • Структура таблицы должна позволять быстро определить, в каком канале представлена нужная позиция по наилучшей цене.
  • Данные должны быть всегда актуальными.

4. Технические предпочтения

  • Желательно реализовать проект в режиме low-code/no-code, но это не строгое требование.
  • Решение должно быть автономным и не требовать развертывания на отдельном выделенном сервере (например, использовать облачные функции или подобные сервисы).
  • Исполнитель может предложить оптимальную архитектуру на свое усмотрение.

Результат работы

Готовая, работающая система, которая по расписанию собирает данные, обрабатывает их и заполняет Google Таблицу, давая заказчику четкую картину по рынку цен на электронику из отслеживаемых источников.