Описание задачи
Необходимо выполнить парсинг Telegram-канала за период с 30 октября 2024 года по текущую дату.
Требования к сбору данных
- Собрать все посты за указанный период времени.
- Типы собираемых постов:
- Текстовые сообщения (полный текст, без сокращений).
- Посты, содержащие скриншоты или изображения с текстом.
- Для изображений необходимо применить OCR (оптическое распознавание символов) и сохранить распознанный текст.
Формат результата
- Итоговые данные предоставляются в формате JSON.
- Каждый спарсенный пост - это отдельная запись (объект) в JSON.
- Если в одном посте присутствует и авторский текст, и изображение с текстом, вся информация объединяется в одном объекте.
Структура объекта в JSON
- date - дата публикации поста.
- text - полный текст поста (если был написан автором).
- image_text (опционально) - распознанный текст с изображений, если они присутствуют.