Задача

Требуется инженер-разработчик для настройки системы автоматического тестирования (evaluation harness) для больших языковых моделей (LLM) с использованием готовых инструментов, таких как Promptfoo, DeepEval или их аналогов.

Исходные данные

Заказчик предоставляет:

Папку с JSON-логами диалогов языковой модели (множество сессий с «thinking blocks»)
Методологию тестирования и примеры тестов

Задачи исполнителя

Преобразовать предоставленные данные в воспроизводимые тест-кейсы
Настроить прогон тестов по матрице: повторы, небольшие перефразирования запросов, различные параметры модели
Обеспечить измерение частоты и стабильности наблюдаемых феноменов в работе модели

Ожидаемый результат (один из вариантов)

Для Promptfoo: рабочий конфигурационный файл promptfooconfig.yaml + набор тестов
Для DeepEval: тест-раннер на основе pytest или python-скрипта + файлы с тест-кейсами

Требования к исполнителю

Опыт работы с LLM и их тестированием
Владение инструментами Promptfoo, DeepEval или аналогичными
Умение работать с JSON-логами и структурированными данными
Навыки написания тестов на Python

копирайтинг

Копирайтер для SEO-текстов и кейсов по двум тематикам

Необходим копирайтер для работы над двумя сайтами: шубы и аренда бытовок. Требуется написание SEO-текстов, информационных статей и кейсов.

парсинг данных

Парсинг сообществ ВКонтакте

Требуется собрать данные обо всех активных сообществах ВКонтакте, как открытых, так и закрытых, по заданному поисковому запросу.

код на питоне

Создание мониторинг-бота для Telegram

Нужен бот, который отслеживает несколько сторонних Telegram-каналов и уведомляет о публикациях с заданными ключевыми словами, предоставляя ссылки на посты.