Разработка скрипта для подготовки обучающих данных

Цель проекта

Создать инструмент для автоматической обработки неструктурированных текстовых данных и формирования готового датасета в формате CSV, который можно напрямую использовать для дообучения языковой модели.

Основные требования

  • Разработка Python-скрипта, принимающего на вход текстовые файлы с диалогами
  • Преобразование данных в структурированный CSV-файл с четко определенными колонками
  • Обеспечение корректного формата данных для последующего использования в тренировочных пайплайнах
  • Скрипт должен быть документирован и готов к интеграции в процесс обработки данных

Технические детали

Формат выходного файла должен соответствовать стандартам, принятым для обучения современных языковых моделей. Важно предусмотреть обработку различных сценариев входных данных и возможных ошибок формата.

Структуризация и обогащение товарных данных с помощью Google Sheets AI

Требуется систематизировать товары из нескольких источников (прайсы, базы, сайт) в единую структурированную базу. Необходимо сгруппировать товары по категориям, сгенерировать недостающие SEO-теги и описания, а также создать визуализацию структуры ассортимента. Результат - подготовленные таблицы для загрузки на два сайта.

Доработка интернет-магазина с внедрением ИИ-агента

Требуется модернизировать существующий сайт интернет-магазина на стеке React/Next.js с базой данных MariaDB. Ключевая задача - интеграция ИИ-агента на основе opensource моделей с подбором и настройкой GPU-хостинга. Подробное ТЗ будет предоставлено исполнителю.