Задача

Разработать бэкенд-часть RAG-системы для поиска по юридической документации. Требуется интегрировать Python и Supabase.

1. Скрипт парсинга и загрузки

  • Написать скрипт для локального запуска, который принимает файлы налогового кодекса в форматах RTF/DOCX и письма ФНС в HTML/PDF.
  • Использовать библиотеку Docling (или аналог) для нарезки текста на чанки с сохранением структуры документа (заголовок -> подзаголовок -> текст).
  • Сохранять чанки в таблицу Supabase с векторами реализациями (pgvector).

2. Настройка базы данных (Supabase)

  • Спроектировать таблицы для хранения чанков, метаданных и векторов внедрения (embedding).
  • Настроить расширение pgvector для векторного поиска.
  • Сделалуна индексы для поддержки скорости полнотекстовых и векторных запросов.

3. SQL RPC для

  • Разработать гибридную функцию (расширение пр) поиска: комбинировать векторные API из сервиса редактирования текста.
  • Вертикальный++ плюс BORing (например с) понаписать - ранжирование сделанных результатов внутрен Встроить заданием значение:
  • номер примеров входного случа | удастоверет выполнения
  • / Требовать чтобы функция иметь знач пред Ф -> вознабо принимав бы.>