Разработка мультиязычного парсера для анализа социальных процессов

Описание задачи

Цель проекта

Требуется разработать программное обеспечение (парсер), которое автоматизирует поиск и сбор релевантных текстовых данных из открытых интернет-источников. Собранная информация предназначена для анализа социальных, политических и экономических процессов. Особенность проекта - интеграция с RAG-пайплайнами, поэтому результат должен быть готов к последующему чанкованию и индексации (разбивка текста на логические блоки для вектороживания).

Ключевые требования

Источники: Исключительно открытые ресурсы. Доступ строго по протоколам без авторизации, обхода защит AMP/CDN и без нарушения пользовательских соглашений (ToS) сайтов.
Мультиязычность: Обязательная поддержка на этапе поиска и извлечения контента следующих языков: русский, английский, французский, немецкий, испанский, китайский, японский, корейский, арабский, иврит и идиш.
Анонимность и нагрузка: Программа должна имитировать поведение обычного пользователя: соблюдение логических задержек между запросами (таймауты, паузы), ротация User-Agent строк и использование прокси-серверов при необходимости. Нагрузка на целевые ресурсы должна быть разумной и этичной.
Входные параметры: Пользователь задает список ключевых слов или фраз, временной диапазон (Дата_с / Дата_по), при необходимости - список URL для прямого парсинга, а также целевые языки.
Выходные данные: Строгая структура в формате JSON/CSV/ndjson. Каждая запись должна содержать метаданные (источник, дата публикации, название) и очищенный от HTML-разметки/мусора текст. Текст необходимо нарезать на чанки размером от 500 до 2000 слов или токенов. Место хранения: локальная файловая система или подключенная база данных.

консалтинг

Описание задачи

Цель проекта

Ключевые требования

Консультация по внедрению нейросетей в учебный процесс детской актерской школы

Инфографика для карточек товара на маркетплейсе

Монтаж динамичного ролика для Тик-Ток