Разработка парсера судебных архивов с AI-фильтрацией

Общая задача

Требуется создать скрипт для автоматического сбора и анализа юридических историй из публичных архивов. Основная цель - находить завершенные дела с существенными финансовыми активами, которые прошли через судебное разбирательство и имеют четкую резолюцию.

Требования к функционалу

1. Конфигурация и режим работы

Запуск по запросу через конфигурационный файл.
Настройка временного диапазона поиска (например, 2019-2021).
Установка лимита на количество успешных находок за один запуск.
Выбор источника данных: Justia (CourtListener), Reddit или оба.

2. Источники данных

Justia / CourtListener: Поиск гражданских дел (Civil/Probate) со статусом Closed, Verdict, Judgment. Предпочтение отдается документам типа "Appellate Opinion". Новые иски игнорируются.
Reddit: Анализ сообществ r/EstatePlanning, r/legaladvice, r/AgingParents. Обрабатываются только длинные посты (более 1500 символов), содержащие упоминание денежных сумм (знак $).

3. Логика AI-фильтрации (OpenRouter API)

Каждый найденный текст проверяется через модель (gpt-4o-mini или gemini-flash). История сохраняется только при совпадении всех следующих критериев:

High Stakes: Сумма активов в деле превышает 50 000 долларов.
Legal Action: Наличие конкретного иска или аудита, а не просто семейного спора.
Resolution: Дело завершено и имеет понятный финал.
Detective Element: В истории присутствует элемент расследования или поиска активов.

Бонус: Если дело относится к штатам CA, NY, TX, FL - автоматически добавлять тег [priority].

4. Сохранение результатов (Google Drive API)

Одобренные истории сохраняются в виде текстовых файлов (.txt).
Формат имени файла: [priority] Заголовок AI - $Сумма.txt
Содержимое файла: Метаданные (заголовок, сумма, итог, ссылка на источник) и полный текст истории.

Технологический стек

Язык программирования: Python
Внешние API: OpenRouter API, Google Drive API

дизайн