Задача

Требуется инженер-разработчик для настройки системы автоматического тестирования (evaluation harness) для больших языковых моделей (LLM) с использованием готовых инструментов, таких как Promptfoo, DeepEval или их аналогов.

Исходные данные

Заказчик предоставляет:

  • Папку с JSON-логами диалогов языковой модели (множество сессий с «thinking blocks»)
  • Методологию тестирования и примеры тестов

Задачи исполнителя

  • Преобразовать предоставленные данные в воспроизводимые тест-кейсы
  • Настроить прогон тестов по матрице: повторы, небольшие перефразирования запросов, различные параметры модели
  • Обеспечить измерение частоты и стабильности наблюдаемых феноменов в работе модели

Ожидаемый результат (один из вариантов)

  • Для Promptfoo: рабочий конфигурационный файл promptfooconfig.yaml + набор тестов
  • Для DeepEval: тест-раннер на основе pytest или python-скрипта + файлы с тест-кейсами

Требования к исполнителю

  • Опыт работы с LLM и их тестированием
  • Владение инструментами Promptfoo, DeepEval или аналогичными
  • Умение работать с JSON-логами и структурированными данными
  • Навыки написания тестов на Python