Разработка парсера судебных архивов с AI-фильтрацией
Общая задача
Требуется создать скрипт для автоматического сбора и анализа юридических историй из публичных архивов. Основная цель - находить завершенные дела с существенными финансовыми активами, которые прошли через судебное разбирательство и имеют четкую резолюцию.
Требования к функционалу
1. Конфигурация и режим работы
- Запуск по запросу через конфигурационный файл.
- Настройка временного диапазона поиска (например, 2019-2021).
- Установка лимита на количество успешных находок за один запуск.
- Выбор источника данных: Justia (CourtListener), Reddit или оба.
2. Источники данных
- Justia / CourtListener: Поиск гражданских дел (Civil/Probate) со статусом Closed, Verdict, Judgment. Предпочтение отдается документам типа "Appellate Opinion". Новые иски игнорируются.
- Reddit: Анализ сообществ r/EstatePlanning, r/legaladvice, r/AgingParents. Обрабатываются только длинные посты (более 1500 символов), содержащие упоминание денежных сумм (знак $).
3. Логика AI-фильтрации (OpenRouter API)
Каждый найденный текст проверяется через модель (gpt-4o-mini или gemini-flash). История сохраняется только при совпадении всех следующих критериев:
- High Stakes: Сумма активов в деле превышает 50 000 долларов.
- Legal Action: Наличие конкретного иска или аудита, а не просто семейного спора.
- Resolution: Дело завершено и имеет понятный финал.
- Detective Element: В истории присутствует элемент расследования или поиска активов.
Бонус: Если дело относится к штатам CA, NY, TX, FL - автоматически добавлять тег [priority].
4. Сохранение результатов (Google Drive API)
- Одобренные истории сохраняются в виде текстовых файлов (.txt).
- Формат имени файла: [priority] Заголовок AI - $Сумма.txt
- Содержимое файла: Метаданные (заголовок, сумма, итог, ссылка на источник) и полный текст истории.
Технологический стек
- Язык программирования: Python
- Внешние API: OpenRouter API, Google Drive API