Разработка AutoML-системы с использованием Python, ClickHouse и AutoGluon
Требуется опытный разработчик для реализации комплексного решения, объединяющего проектирование высокопроизводительного хранилища данных и создание автоматизированного конвейера машинного обучения.
Основные задачи проекта
- Проектирование и реализация базы данных ClickHouse: разработка оптимальной схемы данных, настройка кластера (при необходимости), обеспечение эффективности запросов для работы с большими объемами информации, которые будут использоваться для обучения моделей.
- Внедрение AutoGluon: настройка и адаптация фреймворка AutoGluon для автоматического построения, обучения и оценки моделей машинного обучения на основе данных из ClickHouse.
- Интеграция компонентов: создание единого пайплайна, который будет забирать данные из ClickHouse, передавать их в AutoGluon для обучения и валидации моделей, а также сохранять результаты (метрики, артефакты моделей) обратно в базу или в выделенное хранилище.
- Документирование и сопровождение: предоставление документации по архитектуре базы данных и работе ML-пайплайна.
Требования к исполнителю
- Опыт работы с СУБД ClickHouse (проектирование схем, оптимизация запросов, администрирование).
- Глубокие знания Python и опыт работы с библиотеками для Data Science (pandas, numpy, scikit-learn).
- Практический опыт использования фреймворков автоматизированного машинного обучения (AutoGluon, TPOT, H2O AutoML и т.п.). Приоритет - AutoGluon.
- Понимание полного цикла ML-проектов: от подготовки данных до развертывания модели.
- Умение проектировать отказоустойчивые и масштабируемые ETL-процессы.
Ожидаемый результат
- Работающая и настроенная база данных ClickHouse, готовая к приему данных для ML.
- Реализованный и протестированный конвейер AutoML на базе AutoGluon, интегрированный с базой данных.
- Примеры обучения моделей на тестовых данных и документация по использованию системы.