Описание задачи

Цель проекта

Требуется разработать программное обеспечение (парсер), которое автоматизирует поиск и сбор релевантных текстовых данных из открытых интернет-источников. Собранная информация предназначена для анализа социальных, политических и экономических процессов. Особенность проекта - интеграция с RAG-пайплайнами, поэтому результат должен быть готов к последующему чанкованию и индексации (разбивка текста на логические блоки для вектороживания).

Ключевые требования

  • Источники: Исключительно открытые ресурсы. Доступ строго по протоколам без авторизации, обхода защит AMP/CDN и без нарушения пользовательских соглашений (ToS) сайтов.
  • Мультиязычность: Обязательная поддержка на этапе поиска и извлечения контента следующих языков: русский, английский, французский, немецкий, испанский, китайский, японский, корейский, арабский, иврит и идиш.
  • Анонимность и нагрузка: Программа должна имитировать поведение обычного пользователя: соблюдение логических задержек между запросами (таймауты, паузы), ротация User-Agent строк и использование прокси-серверов при необходимости. Нагрузка на целевые ресурсы должна быть разумной и этичной.
  • Входные параметры: Пользователь задает список ключевых слов или фраз, временной диапазон (Дата_с / Дата_по), при необходимости - список URL для прямого парсинга, а также целевые языки.
  • Выходные данные: Строгая структура в формате JSON/CSV/ndjson. Каждая запись должна содержать метаданные (источник, дата публикации, название) и очищенный от HTML-разметки/мусора текст. Текст необходимо нарезать на чанки размером от 500 до 2000 слов или токенов. Место хранения: локальная файловая система или подключенная база данных.

Консультация по внедрению нейросетей в учебный процесс детской актерской школы

Требуется помощь в подборе и интеграции 1-3 нейросетевых сервисов для генерации творческих заданий по актерскому мастерству для детей и подростков. Важен бесплатный или бюджетный тариф.