Консультация по обработке форума с помощью GPT

Уважаемые специалисты! Есть масштабная задача: необходимо спарсить крупную ветку форума (объем ~100-150 страниц, около 2000 постов), загрузить весь этот массив данных в языковую модель GPT, а затем на основе извлеченного контекста выполнить несколько действий: ответить на конкретные вопросы и, главное, написать итоговую статью по заданной структуре.

Ключевые моменты задачи

  • Исходные данные: полный текст темы форума после парсинга (необходимо уточнить формат - HTML, JSON, TXT и т.д.).
  • Цель обработки: генерация ответов на вопросы и написание уникальной статьи на основе контента форума. Статья должна строго соответствовать структуре, которую предоставит заказчик.
  • Ограничения по объему: около 2000 сообщений, что в пересчете на текст сопоставимо с ~150 носителями большого объема. Важно учесть лимиты контекстного окна выбранной модели GPT.

Что требуется от исполнителя

1. Техническая консультация

Необходимо порекомендовать оптимальный стек инструментов для реализации:

  • Сбор данных: какой парсер (Python с BS4, Scrapy или готовые онлайн-сервисы) лучше всего подойдет для извлечения структурированного текста.
  • Формат итогового документа: в виде JSON, TXT, CSV для максимально корректной загрузки в модель (с разметкой, без HTML-мусора, с семантическим разделением сообщений авторов).
  • Выбор модели: с каким объемом контекстного окна лучше работать (например, GPT-4-32k, GPT-4-turbo с поддержкой длинных контекстов или более дешевая open-source модель с большим контекстом, например, Claude или Llama).

2. Пример реализации (необязательно, но желательно)

Важно получить пример или четкое описание этапов: от сохраненного собранного текста (сырца) до подачи сбритого конструкта самой модели. Как мотивировать GPT учитывать только полученную информацию и игнорировать свой энциклопедический опыт?

Формат итогового ответа от консультации

Ответ может быть в текстовой, схематичной форме или в виде простого Python-скрипта (как пример пайплайна). Исполнитель волен сам выбрать формат, если вывод полноценный: Что делать шаг 1, шаг 2, шаг 3, а так же - как настраивать системные промпты.

Дополнительный контекст

Точная тема форума не раскрыта до начала работы, но заказчик акцентирует высокий объем контента, требует per plлинг (честную работу с уже обработанными материалами без лишнего тона) и простоту повторения шагов исполнителем.

Разработка лендинга и многостраничного сайта для яхт-клуба с каталогами

Необходимо создать адаптивный сайт о яхтинге с тремя основными разделами: чартер и обучение, продажа судов, магазин снаряжения. Требуется реализовать каталоги, формы обратной связи, блог и систему заказов.